Statistisk usikkerhed – afsløring af metoden

Så er der nyt på meningsmålingsfronten, og det er det rigtig tørre denne gang – nemlig statistisk usikkerhed og svarprocentens betydning. Flere har bedt om en gennemgang af dette, så vi gemmer lige ordlyden af det stillede spørgsmål (validitet) til næste gang.

Sidste indlæg gennemgik listen fra ESOMAR (European Society for Opinion and Market Research) omkring, hvad god formidling af en meningsmåling indeholder:

  1. Instituttet, der foretager meningsmålingen
  2. Mediet som finansierer
  3. Stikprøvens størrelse (mindst 1.000, hvis man vil have et acceptabelt niveau af statistisk usikkerhed)
  4. Indsamlingsmetoden
  5. Indsamlingsperioden
  6. Ordlyden af det stillede spørgsmål
  7. Den statistiske usikkerhed

Der var også de to ekstra, jeg mener skal indgå:

8. Andelen af ved ikke-svar
9. Svarprocenten.

Det er den statistiske usikkerhed og svarprocenten, dette indlæg handler om. Gennemgangen af statistisk usikkerhed er ikke helt simpelt, men nu prøver vi. Hold tungen lige i munden!

 

Statistik for begyndere

Ved stikprøveundersøgelser (som meningsmålinger er, da man jo ikke spørger hver eneste vælger om deres holdning) er der en vis statistisk usikkerhed. Normalt i forskningsverdenen er et konfidensniveau (sikkerhed) på 95 % acceptabelt, og dette niveau bruges også til meningsmålinger. Den statistiske usikkerhed angiver så det interval (+/- nogle procent), den faktiske stemmeandel til valget med 95 pct. sandsynlighed rammer inden for. Laver man 100 målinger, vil valgresultatet altså ligge inden for intervallet i målingen 19 ud af 20 gange. Dette interval kaldes et konfidensinterval.

Det betyder også, at 1 ud af 20 gange rammer en meningsmåling statistisk set HELT forbi, hvordan virkeligheden ser ud. Dette er et vilkår, man må tage med, når man ser på meningsmålinger. Det er også derfor, jeg anbefaler, at udvælge sig et institut (med en solid metode) og følge over tid. På den måde får man et godt billede af, hvordan udviklingen er, da det også er den samme metode, der benyttes hele vejen igennem.

 

Udregning af statistisk usikkerhed

Der er ifølge ESOMAR ved en godt formidlet meningsmåling angivet en statistisk usikkerhed, og den er i de danske dagblade ofte angivet som den maksimale statistiske usikkerhed. Det er således usikkerheden for det største parti, der er angivet i de fleste meningsmålinger. Den kan f.eks. være +/- 3,05 pct. som her ved Wilke, som har lavet en undersøgelse for Jyllandsposten:

Læs her

Den statistiske usikkerhed er størst for store tal, og der er derfor en større ”fejlmargin” for større partier, hvilket ses i gennemgangen herunder.

 

Vi siger, at Socialdemokraterne står til 24 % af stemmerne, Konservative til 4 %, og 1050 personer har deltaget i undersøgelsen. Nu vil vi udregne den statistiske usikkerhed for det resultat.

 

Her er formlen for beregning af konfidensintervallet:

p: Andelens størrelse (i eksemplet er p = 24)

z: Konfidensniveauet (ved 95 % er z-scoren = 1,96)

n: Stikprøvens størrelse (i eksemplet er n = 1050)

Resultatet for Socialdemokraterne:

24 +/- 2,58. Altså ligger Socialdemokraterne mellem 21,42 og 26,58 i 95 % af tilfældene.

Resultatet for Konservative:

4 +/- 1,19. Altså ligger konservative mellem 2,81 og 5,19 i 95 % af tilfældene.

I denne undersøgelse vil den maksimale statistiske usikkerhed altså angives som 2,6, men den er mindre for de små partier.

 

Svarprocent og vægtning

Hvis – og kun hvis – stikprøven er tilfældigt udvalgt, kan man beregne den statistiske usikkerhed i stikprøven. Men det er også vigtigt, at svarprocenten er høj for at stikprøven rent faktisk kan siges at være tilfældigt udvalgt. Hvis kun 20 % har svaret, og man har fået 1.000 interview med dem, er resultatet fuldstændig skævt. Som nævnt i et tidligere indlæg, vil jeg vurdere, at man som absolut minimum skal have svar fra halvdelen af de udtrukne respondenter for at give et repræsentativt billede af befolkningen – helst flere.

Nogen vil argumentere for, at datavægtning kan løse nogle af disse problemer. Det betyder, at man lader nogle besvarelser ”fylde” mere i det samlede resultat. F.eks. er gruppen af mænd mellem 18-29 år underrepræsenterede i undersøgelsen, så man lader alle besvarelser fra de unge mænd fylde f.eks. 1,5. Vægtning er meget brugt både i forskning og ved meningsmålinger, og det er svært at komme helt udenom. Men jeg vil argumentere for, men en 52-årig kvinde fra Odense kan ikke nødvendigvis gøre det ud for en 18-årig mand fra Tønder. Man skal som minimum kende til populationen, og derfor er det stort set kun realistisk at veje mod køn, alder og geografi, og en vejning på denne måde kan skævvride resultatet på andre faktorer så som uddannelse, husstandsindkomst og lignende.

 

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

6 + six =