De peilers deden het niet zo goed in de VS
Om de vier jaar zijn er presidentsverkiezingen in de VS. Twee kandidaten nemen het dan tegen elkaar op: een kandidaat van de Republikeinse Partij en een kandidaat van de Democratische Partij. Soms zijn er nog andere, onafhankelijke kandidaten, maar die spelen geen rol van betekenis. In 2020 ging de strijd tussen de Republikein Donald Trump en de Democraat Jo Biden. Beide kandidaten waren voortgekomen uit voorverkiezingen die in de 50 staten werden gehouden. Hoe ging het met de peilingen?

In de media was er veel aandacht voor het verkiezingsproces. En dus waren er ook veel peilingen. Het ging daarbij zowel om peilingen in de staten apart als om peilingen op landelijk niveau. De peilingen volgden elkaar in hoog tempo op. De laatste weken waren er elke dag wel verschillende peilingen. En sommige peilers peilden elke dag. Op websites zoals FiveThirtyEight.com en RealClearPolitics.com werden al die peilingen bijgehouden.
En het was lang niet altijd duidelijk hoe goed of slecht die peilingen waren. Vaak ontbrak de broodnodige documentatie. Of de informatie kon je alleen na goed zoeken vinden. In het overzicht hieronder bekeken we een aantal peilingen. We concentreerden ons op het schatten van de popular votes. Dat zijn de landelijke percentages stemmen op beide kandidaten. Die gebruikten we om het verschil in procentpunten) tussen beide kandidaten te schatten. Een positief verschil betekent een voorsprong van Biden op Trump. Een negatief verschil betekent een voorsprong van Trump op Biden.
In de tabel hieronder hebben we een aantal karakteristieken van peilingen in de laatste week voor de verkiezingen op een rij gezet. De in kolom 2 genoemde datum is de laatste dag van het veldwerk van de peiling. Dit veldwerk bestrijkt meestal meer dan één dag. De peilingen zijn geordend op datum. De meest recente peilingen staan onderaan in de tabel.

De Mode is de manier waarop de gegevens zijn verzameld. Tel geeft aan dat het een telefonische peiling was. Vaak maken deze peilingen gebruik van Random Digit Dialing (RDD). Hierbij gaat het om een computeralgoritme dat willekeurige telefoonnummers genereerd. Zo krijg je dus ook nummers die niet in het telefoonboek staan. Bij RDD genereert de peiler meestal zowel vaste als mobiele nummers. Nadeel van telefonische peilingen is dat de respons laag is. Vaak doet niet meer dan 10% van de gebelde personen mee.
Rob staat voor een peiling die we wel een roboboll noemen. Dat is een telefonische peiling waar geen interviewers aan te pas komen. De computer genereert willekeurige telefoonnummers, belt automatisch, stelt de vragen en slaat de (ingetoetste) antwoorden op. Het interview verloopt helemaal automatisch. Interviewen is dus heel goedkoop. En je kunt heel makkelijk nieuwe pogingen doen als er non-respons optreedt. Probleem is dat het gebruik van robopolls in de VS verboden is voor mobiele telefoons. Een federale wet verbiedt dit. Dit kan de representativiteit van de peiling ernstig aantasten. De peiling van Rasmussen is een robopoll. Om te corrigeren voor het gebrek aan mobiele telefoons in de steekproef, kun je eventueel een aanvullende steekproef trekken uit een panel van personen met een mobiele telefoon. Dat is gebeurd bij de robopoll van Gravis Marketing.
Onl staat voor een online peiling. Meestal heeft een online peiler een groot web-panel waarin mensen zitten die wel regelmatig aan peilingen willen meedoen. Voor een specifieke peiling trekt de peiler dan een aselecte steekproef uit het web-panel. Het zal duidelijk zijn dat de representativiteit van zo’n peiling valt of staat met de representativiteit van het web-panel.
De omvang van de steekproef van deze peilingen varieert tussen de 825 en de 5364 (met uitzondering van de peiling van SurveyMonkey). Als die steekproef een nette aselecte steekproef is dan kun je onzekerheidsmarges uitrekenen voor de uitkomsten. Voor een steekproef van omvang 825 is die marge ongeveer gelijk aan 3,4 procentpunten. Voor grotere steekproeven is de onzekerheidsmarge kleiner. Zo heeft een steekproef van 5364 een marge van 1,3 procentpunt. Dus naarmate de steekproef groter is, is de onzekerheidsmarge kleiner. Een veel gehanteerde vuistregel is dat bij een steekproef van 1000 personen de onzekerheidsmarge ongeveer 3 procentpunten is.
De vijfde kolom in de tabel bevat de schatting van de popular vote voor Biden en de zesde kolom die voor Trump. De laatste kolom bevat het verschil tussen beide schattingen. Een positief verschil duidt op een voorsprong van Biden en een negatief verschil op een voorsprong voor Trump.
Er zit nogal wat variatie in de verschillen. De voorsprong voor Biden varieert tussen de 3 en 14 procentpunten. Alleen peilingen van Rasmussen geven een voorsprong aan Trump. Merk op dat het hier gaat om robopolls. Dat zou een oorzaak kunnen zijn van het verschil tussen Rasmussen en de andere peilers.
De peiling van SurveyMonkey is een speciale geval. SurveyMonkey is een internet-platform waarop iedereen zijn eigen online peilingen kan opzetten en uitvoeren. SurveyMonkey kan een steekproef trekken uit de respondenten van al die peilingen. Na afronden van hun oorspronkelijke peiling krijgen ze de uitnodiging om mee te doen aan de peiling van SurveyMonkey. Omdat SurveyMonkey zo’n groot platform is met heel veel dagelijkse respondenten, kun je dus een grote steekproef trekken. Voor de peiling over de Amerikaanse presidentsverkiezingen was de omvang van de steekproef gelijk aan 771,161. Merk wel op dat zo’n grote steekproef geen garantie is voor een representatieve steekproef. In de steekproef van SurveyMonkey zitten alleen personen die wel eens aan een peiling van deze peiler hebben meegedaan.
Op 5 november was de uitslag van de verkiezing nog niet bekend. Op basis van de voorlopige cijfers kunnen we wel alvast bekijken hoe goed (of slecht) de peilers het hebben gedaan. Volgens die voorlopige cijfers zou het verschil tussen Biden en Trump ongeveer 2,0 procentpunten zijn. In de grafiek hieronder vergelijken we dit verschil met de voorspellingen van de peilers. We hebben ons daarvoor beperkt tot de laatste (meest recente) peiling van alle peilers in de tabel. Dat zijn 19 peilingen.
Elk (blauw) punt in de grafiek is een voorspelling van het verschil van een peiler. De blauwe lijnsegmenten geven de onzekerheidsmarges weer, aannemende dat de steekproef een nette, aselecte steekproef was. De verticale rode lijn is de verkiezingsuitslag (2,0% verschil in popular votes).

Het is duidelijk dat veel peilers een groter verschil voorspellen dan 2,0%. Die voorspellingen lopen op tot soms wel 14%. Veel verschillen liggen omstreeks de 10%. Daar waar de onzekerheidsmarges de rode lijn niet snijden, is er sprake van significante verschillen. Dat is voor 12 van de 19 peilingen het geval. De meeste peilers zaten er dus naast.
Merk op dat één peiling voorspelde dat Trump meer stemmen zou krijgen dan Biden. Dat is de robopoll van Rasmussen. Deze uitkomst is echter niet significant.
De peilers deden het dus niet zo goed. Bij de vorige presidentsverkiezingen (in 2016) waren er ook al problemen. Toen kreeg Hillary Clinton teveel stemmen in de peilingen. Dat kwam omdat er teveel hoog opgeleiden in de peilingen zaten (en te weinig laag opgeleiden). Die hoog opgeleiden stemden vooral op Clinton. Daarom zaten er teveel Clinton-stemmers in de peilingen. Je mag aannemen dat de peilers deze fout nu niet weer hebben gemaakt. Dat konden ze doen door te wegen naar opleidingsniveau. Maar hebben ze dat ook gedaan?
Wat kan er nog meer zijn misgegaan? Er was dit keer een bijzonder hoge opkomst. Daardoor stemden er misschien mensen die eerder niet in de peilingen zaten.
Misschien was er spraken van een ‘shy Trump effect’. Het kan zijn dat mensen in de peilingen niet durfden te zeggen dat ze op Trump gingen stemmen en daarom aangaven dat ze op Biden zouden stemmen.
Misschien waren er teveel problemen met het trekken van representatieve steekproeven. Bij telefonische peilingen is de non-respons erg hoog (meer dan 90%). Dat kan leiden tot afwijkingen. En het valt ook niet mee om een representatieve online peiling op te zetten. Je kunt proberen tot corrigeren voor het gebrek aan representativiteit door het uitvoeren van een weging. Dit is echter lang niet altijd effectief.
Het is duidelijk dat de peilers hun methoden moeten verbeteren. Werk aan de (methodologische) winkel dus!
Update 7 november
De grafiek hierboven is gebaseerd op de uitslagen voor zover ze op 5 november bekend waren. Daarna is het tellen van de stemmen doorgegaan. Daardoor is het verschil in popular vote percentages veranderd. Op 7 november was dat verschil opgelopen van 2,0 naar 2,8 procentpunten. En dus is de verticale rode lijn in de grafiek opgeschoven naar rechts. Hieronder staat een nieuwe grafiek waarin deze aanpassing is verwerkt.

De werkelijke uitslag ligt nu wat dicht bij de schattingen van de peilers. Maar nog steeds zijn er heel wat peilers (10 van de 19) die er significant naast zitten.
Update 14 december
Op 14 december 2020 bekrachtigden de kiesmannen in alle staten de overwinning van Biden. Hij kreeg 306 van de 538 kiesmannen achter zich. Biden won ook the popular vote met 51,3% van de stemmen. Daarmee werd het verschil met Trump 4,5 procentpunten. In de grafiek hieronder is dit verschil in beeld gebracht (de rode verticale lijn). De werkelijke uitslag ligt nog een stukje dichter bij de voorspellingen van de peilers. Maar nog steeds is het zo dat de voorspelling van 8 van de 19 peilers significant te hoog uitvalt.

Reacties
Reacties zijn gesloten.
Het blijft altijd een groot genoegen om jouw artikelen te lezen. Blijf publiceren :)
Hartelijke groet van je ex collega
Henry van Haagen
Dan zit IBD/TIPP en The Hill/Harris X zeer dicht bij de waarheiid.
Dank voor goede uitleg!
Dank voor deze analyse. Enkele punten zijn van belang: (1) er worden nog stemmen geteld, dus het verschil staat nog niet niet volledig vast. Maar belangrijker is (2) dat iedere peiling netjes de foutmarge aangeeft (meestal 2-4 procent, dus dat moet dan meetellen in uw ‘eindoordeel’. Als het binnen die marge valt is de peiling niet persé ‘fout’, de peiler heeft immers die foutmarge netjes gemeld. Verder is een deel van de foutmarge te verklaren door de enorme opkomst. De modellen in de VS (in elders) zijn minder goed in staat in te schatten wat nieuwe kiezers doen of mensen die doorgaans niet stemmen. Er blijken vooral vele jongere kiezers te zijn gaan stemmen: https://circle.tufts.edu/latest-research/election-week-2020. En dan de ‘obvious’ nuancering: nationale peilingen in de VS zijn eigenlijk nutteloos, want de effecten in verschillende staten (swing states versus heartland) maakt een enorm verschil in motivaties van kiezers. Daarnaast waren er bijzondere effecten (zoals de vertraging bij de post) en het grote aantal stemmen per post, ook doordat sommige staten nu automatisch een formulier stuurden om een stembiljet aan te vragen. En er waren andere institutionele ne procedurele wijzigingen vanwege de COVID pandemie (langere openingstijden van stemlokaties, dropoffs, drive-through etc). Kortom, er zijn vele factoren van invloed op de kwaliteit van een peiling die niet moet worden vergeten voor we een eindoordeel vellen.