Totalskår over tid

Gode på matematikk, dårlige på statistikk?

Norsk ma­te­ma­tikk­råd pub­li­se­rer an­net hvert år en un­der­sø­kelse som får stor opp­merk­som­het. Det er en for­kunn­skaps­test av stu­den­te­nes ma­te­ma­tikkunn­ska­per, og den be­står av et lite opp­gave­sett som sen­des ut til uni­ver­si­te­ter og høg­sko­ler.

Prøven bru­kes av ma­te­ma­tikk­rå­det kon­se­kvent for å ar­gu­men­tere for vik­tig­he­ten av ma­te­ma­tikk­opp­læ­ring, og det blir frem­holdt at til­bake­gan­gen har vært sterk. Men prø­ven er så be­fengt med me­to­diske svak­he­ter at det er vans­ke­lig å ta re­sul­ta­tene al­vor­lig.

Sammenligningen med åttiårene

I un­der­sø­kel­sen pre­sen­te­res det kon­ti­nu­er­lige linje­dia­gram­mer med ut­vik­lin­gen fra første gjen­nom­fø­ring i 1985 til og med 2009. Det ser vel­dig dår­lig ut. Korrekt svar-prosenten har falt fra over 70 til rundt 50.

Totalskår over tid

Bak dette dia­gram­met skju­ler det seg tre pro­ble­mer. For det første ble un­der­sø­kel­sen gjen­nom­ført i 85, 87, 89 og 93 — men ikke mel­lom 93 og 99. For det andre har sam­men­set­nin­gen av re­spon­den­ter end­ret seg be­ty­de­lig fra de første gjen­nom­fø­rin­gene til de siste. For det tredje har tes­ten end­ret seg — den ble re­vi­dert i 2000. Det er altså full­sten­dig me­nings­løst å sam­men­ligne re­sul­ta­tene fra åtti­tal­let og tid­lig nitti­tall med de nye re­sul­ta­tene.

Hvis vi så kap­per gra­fene på det sak­lige ste­det, altså år 2000, står vi frem­de­les igjen med noen feil­kil­der. Den vik­tigste feil­kil­den er at ut­val­get av stu­den­ter va­rie­rer sterkt fra år til år, uten at for­de­lin­gen opp­gis i rap­por­ten. Det eneste som opp­gis er at det var be­ty­de­lig flere real­fags­stu­den­ter i de første ut­val­gene (doh!). Den eneste må­ten å kor­ri­gere for dette tøvete ut­gangs­punk­tet er å dele grunn­la­get inn etter ut­dan­ning. Gjør vi det, for­svin­ner også teorien om at matte­kunn­ska­pene går til­bake:

Matteresultater for­delt på stu­die. Kilde: NMMR

Hvis vi over­ser år 2000, som så vidt jeg kan for­stå ble gjen­nom­ført med den gamle prø­ven, så har vi sett en klar for­bed­ring blant læ­rer­stu­den­tene, og en svak til­bake­gang på de andre matte­in­ten­sive stu­diene. Basert på denne gra­fen er det be­ti­me­lig å spørre seg hva alt ma­set er for, og spe­si­elt hvor­for NMR i hver eneste presse­mel­ding om dette drar frem læ­rerne.

Kjønn

NMR gjør den samme ut­valgs­fei­len når de pre­sen­te­rer gjen­nom­snitt­lig skår for­delt på kjønn. En kjapp titt på lista over ut­dan­nin­ger over vi­ser hvor­for: for­de­lin­gen av antall stu­den­ter i ut­val­get fra de for­skjel­lige ut­dan­nin­gene vil be­stemme hvor­dan hvert kjønn gjør det. Tar man inn mange læ­rer­stu­den­ter, der det er mange kvin­ner, vil kvinne­ka­rak­te­ren bli truk­ket ned. Tar man deri­mot inn mange øko­nomi­stu­den­ter, vil de kvin­nene som er der trekke snit­tet re­la­tivt sett opp.

Den sak­lige må­ten å gjøre dette på har de fak­tisk gjort litt senere i un­der­sø­kel­sen — tre si­der etter at ka­pit­let om kjønn er fer­dig. Grafen vi­ser re­sul­ta­ter for­delt på både kjønn og ut­dan­ning, og her for­svin­ner nes­ten all kjønns­for­skjel­len — men den er der fort­satt. I inge­ni­ør­ut­dan­nin­gen er kjønns­va­ria­be­len nes­ten helt ut­vis­ket.

Kalkulatorbruk

NMR har over flere rap­por­ter frem­he­vet en teori om at kalk­u­la­tor­bruk med­fø­rer dår­li­gere re­sul­ta­ter i ma­te­ma­tikk. I så fall burde fer­dig­he­tene gått mer til­bake jo mer kalk­u­la­tor man brukte, men som vi har sett har re­sul­ta­tene vært nokså sta­bile på 2000-tallet. På den an­nen side var vel kalk­u­la­to­rer godt til­gjen­ge­lige på nitti­tal­let også; per­son­lig hus­ker jeg at vi hadde kalk­u­la­tor­be­grens­nin­ger på ung­doms­sko­len (96-99), men ikke i vi­dere­gå­ende skole (99-02).

Selv om man kan vise til en kor­re­lans mel­lom kalk­u­la­tor­bruk og re­sul­ta­ter, im­pli­se­rer ikke dette noen år­saks­sam­men­heng. Det kan like godt være en tredje fak­tor som på­vir­ker begge deler, el­ler en ren til­fel­dig, spu­riøs sam­men­heng. Det klas­siske ek­semp­let er sam­men­hen­gen mel­lom pi­ra­ter med sab­ler og glo­bal luft­for­uren­sing: da pi­ra­tene for­svant, ble lufta for­uren­set. Det be­tyr imid­ler­tid ikke at pi­ra­te­nes til­bake­tog for­år­sa­ket luft­for­uren­sin­gen.

I ste­det vel­ger NMR føl­gende re­son­ne­ment (fra 2007-rapporten):

Resultatene kan tyde på at hyp­pig bruk av kalk­u­la­tor kan ha neg­a­tiv inn­virk­ning både på fer­dig­he­ter og begrepsforståelse. De som skårer best er de som sier at de bru­ker kalk­u­la­tor re­la­tivt lite. Dette ser ut til å gjelde for alle ut­dan­nings­veier og er i sam­svar med de funn en gjorde i 2005.

Selvrapportert bruk av kalk­u­la­tor (på en skala fra ofte til sjel­den) føl­ger stu­den­tens skår på prø­ven nokså sla­visk. Dette skyl­des, i all ho­ved­sak, at folk som er dår­lige i ma­te­ma­tikk oftere tren­ger hjelp til ut­reg­nin­ger. Derav kalk­u­la­to­ren. NMR fore­slår vel ikke på den bak­grunn den tå­pe­lige kon­klu­sjo­nen at det er kalk­u­la­to­ren som gjør stu­den­tene svake? NMR ville fått samme re­sul­ta­ter der­som de så på hvem som må ha hjelp av per­so­na­let for å bruke NSBs bil­lett­auto­ma­ter, og føl­ge­lig kon­klu­dert med at det er tog­per­so­na­let som gjør folk til tek­niske an­alfa­be­ter. Eller de kunne ha sjek­ket sam­men­hen­gen mel­lom hvor ofte noen sjek­ker bruks­an­vis­nin­gen for å mon­tere en del på en syk­kel, og kon­klu­dert med ska­de­lig­he­ten av bruks­an­vis­nin­ger.

Denne må­ten å un­der­søke fe­no­me­net gir på ingen måte grunn­lag for å hevde at kalk­u­la­tor ska­per sva­kere grunn­leg­gende fer­dig­he­ter i ma­te­ma­tikk, en tese NMR har lagt til grunn når de har vil­let endre eksa­mens­form, noe de har «ar­bei­det for i en år­rekke». Det er selv­sagt mu­lig at NMR har rett i at kalk­u­la­tor er dumt. Men dette lar seg bare un­der­søke ved kon­trol­lerte stu­dier, el­ler pseudo-kontrollerte stu­dier (f.eks. ved å un­der­søke ef­fek­ten i land som end­rer po­licy). NMR hen­vi­ser bare til to ar­tik­ler (Grønmo et.al. 2009a og Grønmo et.al. 2009b), og — lo and be­hold — de sier fak­tisk ikke det NMR hev­der de hev­der.

Her er det NMR mener står i ar­tik­lene:

Grønmo (2009; 2009) set­ter den mar­kante til­bake­gan­gen i ma­te­ma­tikk­fer­dig­he­ter i videregående skole i sam­men­heng med hyp­pig kalk­u­la­tor­bruk.

Grønmo et. al. (2009a) hand­ler ikke om vi­dere­gå­ende skole, men om grunn­sko­len. Som et siste punkt i en lang liste med mu­lige år­sa­ker til gode og dår­lige re­sul­ta­ter i ma­te­ma­tikk og na­tur­fag:

Grønmo (2005) har, på ba­sis av re­sul­ta­tene i TIMSS og PISA i 2003, ar­gu­men­tert for at grunn­leg­gende fer­dig­he­ter i tall og tall­be­hand­ling er vik­tig for ele­vers ut­vik­ling av ma­te­ma­tisk kom­pe­tanse. Hun hev­der at en viss grad av auto­ma­ti­se­ring av fer­dig­he­ter er nød­ven­dig for at ele­vene skal ut­vikle denne kom­pe­tan­sen. For lite vekt på al­go­rit­mer og fer­dig­he­ter, som tre­ning i mul­ti­pli­ka­sjons­ta­bel­len, vil kunne føre til at ele­vene ikke får opp­ar­bei­det det grunn­la­get de tren­ger for å vi­dere­ut­vikle sine ma­te­ma­tiske kunn­ska­per og fer­dig­he­ter.

Grønmo et. al. (2009b) hand­ler fak­tisk om vi­dere­gå­ende skole, for å være nøy­ak­tig stu­die­spe­sia­li­se­rende ele­ver med 3MX (noe som ikke er et krav for å komme inn på læ­rer­sko­len, for­res­ten). Den nev­ner kalk­u­la­tor­bruk noen ste­der blant mange andre år­saks­for­kla­rin­ger, og det nær­meste vi kom­mer NMRs på­stand om inn­hol­det er vel disse to si­ta­tene:

Videre kan man peke på at det har vært en om­fat­tende bruk av kalk­u­la­tor og for­mel­bok med egne no­ta­ter det siste tiåret, som kan ha bi­dratt til mindre tre­ning i – og ved­li­ke­hold av – fer­dig­he­ter som de­ri­va­sjon…

Det er et tanke­kors at Slovenia og Italia, de to re­fe­ranse­lan­dene med best re­sul­tat tatt i be­trakt­ning at de tes­ter hen­holds­vis vel 40 % og 20 % av årskullet i TIMSS Advanced, er de to lan­dene som synes å være mest til­bake­holdne med bruk av kalk­u­la­tor. Tilsvarende tanke­vek­kende er det at de to lan­dene som har den mest mar­kerte til­bake­gan­gen fra for­rige stu­die, Norge og Sverige, ut­mer­ker seg som to land som synes å bruke kalk­u­la­tor mye.

Til dette er det å an­føre at de­ri­va­sjon ikke inn­går i NMRs prøve­sett, og at det siste re­sul­ta­tet kna­ppast kan tas til inn­tekt for det vel­dig bas­tante si­ta­tet over. TIMSS Advanced om­fat­ter kun 3MX-klassene, og vi­ser ganske rik­tig at norske læ­rere har lite trykk på auto­ma­ti­se­ring og pug­ging av al­go­rit­mer, gange­ta­bel­ler mm. Men at dette skal være på grunn av «hyp­pig kalk­u­la­tor­bruk» frem­står som tenden­siøst. Mer sann­syn­lig skyl­des dette at lære­pla­nene i Norge i liten grad leg­ger vekt på pug­ging av al­go­rit­mer, gange­ta­bel­ler mm. Det kan vi selv­sagt dis­ku­tere, men å gjøre det om til en for­dum­mende kalkulator-eller-ikke-debatt er et steg i feil ret­ning.

Signifikante avvik fra god analyse av utvikling

Rapporten sier: «fram­gan­gen fra 2007 til 2009, som … er om­trent 1,5 %, er så liten at den ikke kan sies å være sig­ni­fi­kant.» For det første har jeg vans­ke­lig for å tro at det kan være rik­tig i en un­der­sø­kelse med over 5000 re­spon­den­ter, i hvert fall med den be­hand­lin­gen av data vi så langt har sett i rap­por­ten, der alt bare klum­pes sam­men til en di­ger svar­haug.

For det andre opp­gir de ikke noe sted hvor­dan de har reg­net seg frem til det. For det tredje opp­gir de ikke hvilke krav de set­ter til kon­fi­dens. Er det 90 %? 95 %? 99 %? Eller er vi på romferge-feilmarginer — 99,9 % kon­fi­dens?

For det fjerde nevnte ikke rap­por­ten i 2007 noe om at ned­gan­gen på 1,5 % ikke var sig­ni­fi­kant. 2007-rapporten sa fak­tisk det stikk mot­satte:

2007-undersøkelsen be­kref­ter at vi nå i enda høy­ere grad enn tid­li­gere har stu­den­ter på de ma­te­ma­tikk­re­vende kur­sene som i stor grad har et util­strek­ke­lig grunn­lag i ma­te­ma­tikk å bygge på for høy­ere ut­dan­ning.

Og vi­dere:

Tilbakegangen er på 1,4 pro­sent­po­eng i gjen­nom­snitt og kan ikke ses på som ube­ty­de­lig.

Moralen ser ut til å være at til­bake­gan­ger på 1,4 pro­sent­po­eng er «ikke ube­ty­de­lig», mens frem­gan­ger på 1,5 pro­sent­po­eng er helt uten be­tyd­ning. For å si det sånn: Dette vek­ker ikke min con­fi­dence. For meg ser det ut som om NMR har dre­vet data mining: De le­ter med lys og lyk­ter etter tall og re­sul­ta­ter som pas­ser deres agenda, og over­ser glatt data som strit­ter mot.

Vi kan også regne ut om det er sig­ni­fi­kant selv.

I rap­por­ten ser vi at re­spon­den­te­nes skå­rer for­de­ler seg om­trent nor­malt rundt et gjen­nom­snitt på 21.37 po­eng (av 44 mu­lige), med stan­dard­av­vik på 9.554 og ca. 5500 re­spon­den­ter. Med mindre andre for­be­hold trek­kes inn er da et 95 % kon­fi­dens­in­ter­vall lik:

$$ 21.37 \pm 1.96 \ti­mes \frac{9.554}{\sqrt{5500}} = 21.37 \pm 0.13 $$

Vi er altså 95 % sikre på at det vir­ke­lige populasjons-gjennomsnittet lig­ger mel­lom 21.24 og 21.40, el­ler målt i pro­sent rik­tig, mel­lom 48.27 og 48.64 pro­sent. Forbedringen på 1.5 pro­sent­po­eng er, med mindre noen andre for­be­hold trek­kes inn, sær­de­les sig­ni­fi­kant — nes­ten syv hele stan­dard­av­vik be­tyr at re­sul­ta­tet er sig­ni­fi­kant på mer en 99.99999 %-ni­vået.

Det for­fat­terne tro­lig har tenkt, er at kon­fi­dens­in­ter­val­lene blir større på grunn av a) dår­lig samp­ling (uvisst om det er et til­fel­dig ut­valg) og b) dår­lig stra­ti­fi­se­ring (ut­dan­nings­grup­pene i un­der­sø­kel­sene end­rer kro­nisk stør­relse). Det som er un­der­lig, er at disse for­be­hol­dene ikke for­kla­res og ikke tas i andre sam­men­hen­ger. Hvis de fak­tisk mener dette, vi­ser un­der­sø­kel­sen nøy­ak­tig ingen­ting – sterkt i strid med det tid­li­gere rap­por­ter har hev­det. Til 2009-rapportens for­svar skal det sies at den er me­get for­sik­tig med å hevde noe som helst om hva re­sul­ta­tene be­tyr.

På dette tids­punk­tet måtte jeg nes­ten sjekke hvem de opp­gitte for­fat­terne er. I 2009-rapporten er de en sti­pen­diat ved in­sti­tutt for spe­sial­pe­da­go­gikk (UiO), en første­ama­nu­en­sis i ma­te­ma­tikk og sta­ti­stikk (UiT) og en pro­fes­sor i ma­te­ma­tikk (UiO). De er alle tre styre­med­lem­mer i Matematikkrådet. I 2007-rapporten var de en høg­skole­lek­tor og en første­ama­nu­en­sis som dri­ver ma­te­ma­tikk­opp­læ­ring for læ­rere, begge fra HiT.  Jeg vel­ger å la den in­ter­es­serte le­ser sjekke opp nav­nene selv, der­som det har in­ter­esse.

Konklusjon

Matematikkrådet får karak­te­ren 2. Selv om inn­sat­sen og enga­sje­men­tet hol­der til en fem­mer, må den usak­lige eks­tra­po­le­rin­gen av rå­skå­rene fra un­der­søks­el­sen trekke kraf­tig ned. Et råd for ma­te­ma­tikk bør ha sta­tis­tiske grunn­reg­ler un­der huden, og ma­te­ma­tikk­læ­rere med sta­tis­tisk bak­grunn kan umu­lig være be­kjent av rap­por­tens inn­hold.

Jeg er vel­dig be­kym­ret for at denne ty­pen lett­vint syn­sing om norsk skole byg­ger opp et bilde av den norske sko­len i to­talt for­fall. Det er ingen un­der­sø­kel­ser som tyder på at norske stu­den­ter i 19-årsalderen er ve­sent­lig dår­li­gere rus­tet enn tid­li­gere. Det er deri­mot mye an­net spen­nende i un­der­sø­kel­sene. Mye tyder på at norske barn kom­mer sent i gang med læ­ring av grunn­fer­dig­he­ter, og mye tyder på at vi svik­ter de sva­keste.

Det er for­øv­rig godt mu­lig at rådet har rett i at norske stu­den­ter har svake el­ler sva­kere ma­te­ma­tikk­fer­dig­he­ter. Problemet er at en slik god sak aldri bør frem­mes ved tenden­siøs bruk av sta­ti­stikk, der tal­lene att­på­til vi­ser noe an­net enn det ho­ved­bil­det NMR trek­ker frem i presse­mel­din­ger og in­ter­vjuer. Det er rett og slett for lett for alle som har liten en­tu­si­asme for ma­te­ma­tikk å overse denne ty­pen agi­ta­sjon.

Kilder:

Likte du denne? Da bør du lese disse.

Skrevet av

Sigve Indregard

Jeg er journalist i Morgenbladet, men skriver her helt for egen maskin. Jeg er samboer og har to døtre. Ellers er jeg interessert i internasjonal politikk, skolepolitikk, økonomi, filosofi og romersk historie.

3 kommentarer til «Gode på matematikk, dårlige på statistikk?»

  1. Et pro­blem med ma­te­ma­ti­kere er: Mange av dem kan ikke noe om «na­tur­vi­ten­ska­pe­lig» me­tode. For di­verse år si­den holdt en del ma­te­ma­ti­kere på med «leke ma­te­ma­tikk» i for­skjel­lige skole­klas­ser. For all del, vi var po­si­tive til de eks­pe­ri­men­tene de holdt på med.

    Men så spurte vi, på en åpen dag på Blindern real­fag­de­len, om hvil­ken opp­føl­ging de hadde plan­lagt. Hvordan de målte hva me­to­dene deres virka? Hva de førte til – ble un­gene mer in­ter­es­sert og flinke i ma­te­ma­tikk?

    Svaret ble en form for: «Hæ, hva snak­ker du om? Vi mener det jo godt!»

    Forøvrig – matte­sam­men­lig­nin­ger som ikke er sam­men­lig­nin­ger er en god gam­mel tra­di­sjon.

Legg gjerne igjen en kommentar!