Ligt Bernie Sanders wel voor in Iowa?
Dit jaar (op 3 november) zijn er weer presidentsverkiezingen in de VS. Dat betekent dat er binnenkort al weer voorverkiezingen zijn. De eerste voorverkiezingen van de Democraten vinden plaats op 3 februari 2020 in de staat Iowa. Dus alle ogen zijn gericht op deze staat. En natuurlijk zijn er peilingen. De laatste peiling vond begin januari plaats. Hij werd georganiseerd door de Des Moines Register, het dagelijks ochtendblad van de hoofdstad Des Moines. De krant concludeerde: ‘Bernie Sanders leads the Iowa Poll for the first time, just weeks before the Iowa caucuses’. Je kunt je afvragen of deze bewering klopt.

De peiling werd van 2 tot en met 8 januari gehouden door de peiler Selzer & Co. Er werd een aselecte steekproef getrokken uit het bestand van geregistreerde stemmers (registered voters). De stemmers in deze steekproef werden telefonisch benaderd. Uiteindelijk deden 3131 geregistreerde stemmers mee aan de peiling. Daarvan gaven 701 stemmers aan zeker of waarschijnlijk op een kandidaat van de Democraten te zullen stemmen. Aan deze (kleine) steekproef van 701 Democratische stemmers werd gevraagd naar welke kandidaat hun voorkeur uitging. De resultaten staan in de tabel hieronder:

Vier kandidaten liggen duidelijk aan kop: Sanders, Warren, Buttigieg en Biden. Ze hebben alle vier veel meer dan 10% van de stemmen (dubbele cijfers). De overige kandidaten scoren veel slechter met minder dan 10%.
Bernie Sanders heeft in de peiling drie procentpunten meer dan Elizabeth Warren. Is deze uitslag een afspiegeling van alle Democratisch kiezers in Iowa? Kun je deze steekproef generaliseren naar de hele populatie? Dat kan alleen als je rekening houdt met de onzekerheidsmarges.
Daarom moet je die onzekerheidsmarges berekenen en meenemen in de beschouwing van de uitslag. Onderstaande grafiek is een staafdiagram waarin de onzekerheidsmarges zijn weergegeven.

De onzekerheidsmarges zijn aangegeven met behulp van de ‘harkjes’ aan het uiteinde van de staven. Je kunt stellen dat het werkelijke percentage in de populatie met grote waarschijnlijkheid ligt binnen de uiteinden van het harkje. Zo is de marge voor Sanders gelijk aan 3.0 procentpunten. Dus ligt het werkelijke percentage met grote waarschijnlijkheid tussen de 20% – 3% = 17% en 20% + 3% = 23%.
Voor Warren is de onzekerheidsmarge gelijk aan 2,8 procentpunten. Daarmee ligt het werkelijke percentage voor haar hoogstwaarschijnlijk tussen de 14,2% en 19,8%. De intervallen voor Sanders en Warren overlappen elkaar. Dat is ook terug te zien in de grafiek, waarin de desbetreffende harkjes elkaar overlappen. We kunnen dus niet de conclusie trekken dat er een significant verschil is tussen Sanders en Warren.
Een blik op de grafiek maakt duidelijk dat er binnen de groep van de vier koplopers geen significante verschillen zijn. Alle harkjes overlappen elkaar immers.
We moeten dus voorzichtig zijn met de conclusie dat Sanders voorligt op de andere kandidaten. We kunnen slechts de conclusie trekken dat we geen significante verschillen zijn.
Bij deze peiling zijn de onzekerheidsmarges nogal groot. Dit wordt veroorzaakt door de kleine omvang van de steekproef. Als je een grotere steekproef trek, dan zijn de onzekerheidsmarges kleiner en kun je scherpere uitspraken doen.
Reacties
Reacties zijn gesloten.
Dag Jelke,
De grafiek maakt niet duidelijk of de standaard fout dan wel het betrouwbaarheidsinterval wordt weergegeven. Ook kan de overlap tussen deze intervallen een misleidend beeld geven over de significantie van het verschil tussen twee proporties. Zie bijvoorbeeld https://www.nature.com/articles/nmeth.2659
Groetjes
Jorre
Beste Jorre,
Bedankt voor je reactie en je literatuurverwijzing.
Volgens mij is het gebruikelijk om uit te gaan van het betrouwbaarheidsinterval. Dat heb ik hier ook gedaan. En dan het 95%-betrouwbaarheidsinterval. Ik heb eerst de onzekerheidsmarge (margin of error) uitgerekend. Die is gelijk aan de (geschatte) standaardfout van het steekproefpercentage, vermenigvuldigd met 1,96. Voor de lijnsegmenten in de grafiek heb ik de onzekerheidsmarge opgesteld bij en afgetrokken van het steekproefpercentage. Zo krijg je het 95%-betrouwbaarheidsinterval. Je kunt dan zeggen dat met een hoge waarschijnlijkheid (95%) de lijnsegmenten de werkelijke percentages overlappen.
Het bovenstaande betrouwbaarheidsinterval is bedoeld voor het schatten van één percentage. Als je, bijvoorbeeld, uit bent op het schatten van het verschil tussen twee partijen, dan gelden andere formules. Daarmee corrigeer je voor het feit dat steekproefpercentages niet onafhankelijk van elkaar zijn. Zie bijvoorbeeld het artikel van Charles Franklin (2002), The ‘Margin of Error’ for Differences in Polls.