Om statistiken och lögnen
Det sägs att man kan bevisa nästan vad som helst med statistik.
Det är ett grovt felaktigt påstående som måste komma från någon med väldigt grunda kunskaper inom området.
I själva verket går det inte att bevisa någonting med statistiska metoder. Man kan bara dra mer, eller mindre, säkra slutsatser.
Statistik är ett ganska brett område. Om jag skulle försöka sammanfatta vad det handlar om, skulle jag säga att det handlar om osäkerhet och/eller slump.
Om jag vill veta hur stort stöd olika partier har hos svenska väljare kan jag fråga alla svenska väljare vilket parti de skulle rösta på om det vore val idag. Det innebär att jag får lov att kontakta flera miljoner människor, vilket är nästintill omöjligt. Om en sådan undersökning ändå gjordes så har den inget med statistik att göra. Det är som att räkna antalet ägg i en äggkartong – jag kan genom att räkna äggen bevisa att det finns 5 ägg kvar i äggkartongen. Eftersom jag räknar alla äggen behöver jag inte ta till några statistiska metoder. (Jag bortser här från eventuella mätfel i undersökningen. Mätfel som gör att det trots allt smyger sig in någon form av osäkerhet i resultatet).
För att göra det möjligt att få en uppfattning om väljarsympatierna utan att behöva fråga alla väljare, gör jag ett urval där jag inte tillfrågar alla, utan tillfrågar en delmängd av den svenska väljarkåren. Nu handlar det helt plötsligt om statistik.
Jag måste göra ett representativt urval – vilket är svårt. Jag måste därefter göra en korrekt statistisk behandling – vilket kan vara tekniskt och matematiskt svårt för en lekman, men inte för en expert. (det är ”bara” att räkna).
När jag har räknat klart återstår det att dra slutsatser från min statistiska undersökning.
Det är när det är dags att dra slutsatser det blir riktigt knepigt, och därmed också möjligt för personer med olika agendor att använda statistiken lite hur de vill.
En sak att hålla reda på är hur frågan i opinionsundersökningen är ställd. I mitt exempel ställdes frågan ”vilket parti skulle du rösta på om det vore val idag”. Det är inte samma fråga som ”vilket parti tror du att du kommer att rösta på vid nästa val”.
En annan sak som är viktig att hålla reda på är mätningens konfidensgrad. Enkelt uttryckt – hur säkert resultatet är. Det är det här som brukar kallas för den statistiska felmarginalen. Förändringar som ligger inom den statistiska felmarginalen behöver alltså inte vara en faktiskt förändring utan bara ett resultat av osäkerheten i undersökningen.
Här kommer några fallgropar som man kan undvika för att inte låta sig luras. Det visar sig att många av fallgroparna beror på att det – faktiskt – är ganska svårt att förhålla sig till begreppet procent.
Procent eller procentenhet
Säg att det går 1000 elever på en skola. Ett år är det två av dessa elever som skadar sig under skoltid så att de måste uppsöka sjukhus. Året därpå är det 6 elever som skadar sig.
Det första året är det alltså 0,2% av eleverna som skadar sig och året därpå är det 0,6% av eleverna som skadar sig. Det kan antingen sägas vara en ökning med 0,4 procentenheter, vilket kanske inte låter så farligt. Eller, så kan det – lika korrekt – sägas att antalet skadade har ökat med 300%, vilket låter betydligt mer alarmerande.
Procent eller bråk
När olika andelar ska jämföras händer det då och då att man blandar procent- och bråktal.
Så här kan det låta: ”Bara 15 procent av befolkningen stöder förslaget om allmän värnplikt medan en sjättedel anser att värnplikten bör vara frivillig”.
Det här sättet att redovisa siffror gör det svårt för den som ska ta till sig nyheten. Dessutom har olika personer olika uppfattning om vad som låter mest. Jag tycker att en sjättedel låter som en ganska stor andel av befolkningen, men att 15 procent låter lite.
I själva verket är en sjättedel drygt 16,6 procent och alltså ungefär lika mycket som 15 procent.
Det förekommer varianter på ”en sjättedel”, det går att säga ”var sjätte” eller ”en av sex” också.
Var alltid uppmärksam när procent- och bråktal blandas!
Procent eller antal
Om vi tänker oss att det utbryter en epidemi av något slag och köerna till sjukhusen blir långa. Före epidemin fick 90 procent av alla som sökte vård, behandling inom tre dagar. Under epidemin får bara 30 procent vård inom tre dagar.
De som är ansvariga för vården skulle då kunna säga att ”betydligt fler personer får behandling inom tre dagar nu, än för ett år sedan!”
Det kan förvisso vara sant – men det beror ju helt och hållet på att det är betydligt fler som söker vård under epidemin än vad det var före. 30 procent av väldigt många är fler personer än 90 procent av några få.
(Det är för övrigt det här tricket som jag har förstått att Moderaterna använder sig av när de säger att ”aldrig förr har så många personer med utländsk härkomst fått jobb i Sverige”)
Procent av ”vadå”?
Svenskt jordbruk står för ca 8% av landets utsläpp av växthusgaser. (Det finns olika siffror beroende på hur man räknar. Vilken siffra som är rätt är inte intressant för poängen i den här texten)
I en jämförelse med andra länder kan man hitta länder vars jordbruk står för en mindre andel av det landets utsläpp. Men därav går det givetvis inte att dra någon slutsats om hur det svenska jordbruket står sig i förhållande till det andra landets jordbruk. Siffran är ju ett mått på varje lands jordbruks andel av det landets utsläpp.
Sverige har väldigt låg andel fossil energi i vår el- och värmeproduktion. Om vi skulle bygga ett stort kolkraftverk i Sverige skulle det svenska jordbrukets andel av de totala växthusgasutsläppen minska – och därmed skulle man kunna få en felaktig uppfattning om att det svenska jordbruket helt plötsligt blivit klimatsmartare.
Det verkar finnas oändligt många sätt att dribbla med siffrorna. Tyvärr har detta lett till att statistiken – som är ett verktyg som används för att inte siffrorna ska lura en – har fått dåligt rykte. Statistiken ljuger aldrig, det är bara människor som ljuger.
Kom ihåg det, och kom också ihåg att hälften av befolkningen alltid kommer att prestera sämre än genomsnittet.
0 kommentarer