Het debacle van de Engelse peilingen

‘A polling disaster’. Zo werd het door sommige Engelse media genoemd. Daarbij doelden ze op de peilingen voor de parlementsverkiezingen op 7 mei 2015 in Groot-Brittannië. Die verkiezingen waren een ramp voor de peilers. Ze voorspelden allemaal een nek-aan-nek race tussen Labour en de Conservatieven. Dat zou weer een ‘hung parliament’ betekenen en dus coalitie¬onderhandelingen. Maar de uitslag was heel anders: de conservatieven wonnen met een ruime meerderheid van bijna 7% en konden alleen gaan regeren. Hoe kon dit zo gebeuren?

De grafiek hieronder brengt het debacle in beeld. Daarin voorspellingen 11 peilers het verschil tussen Labour en de Conservatieven. De dikke stippen geven aan hoe groot die verschillen zijn. Duidelijk is te zien dat alle verschillen dicht bij 0 liggen. De verticale zwarte lijn geeft de werkelijke verkiezingsuitslag weer. De Conservatieven kregen 6,5 procentpunten meer dan Labour.

uk-elections

De horizontale gekleurde lijnstukken zijn de onzekerheidsmarges. Merk op dat de werkelijke uitslag van de verkiezingen buiten deze marges ligt. Dus alle peilingen hadden het mis. En ze hadden het allemaal op dezelfde manier mis: het verschil tussen Labour en de Conservatieven werd systematisch veel te klein geschat.

Na het debacle van de peilingen vroegen diverse deskundigen in Engeland zich af of politieke peilingen nog wel betrouwbaar zijn. Daarom besloot de British Polling Council (BPC) een onafhankelijk onderzoek in te stellen. De BPC is een organisatie van opinieonderzoekers die regelmatig uitkomsten van peilingen publiceren. Het onderzoek zou de oorzaken van de problemen moeten vaststellen. En ook zouden er aanbevelingen moeten komen om deze problemen in de toekomst te voorkomen.
Op 19 januari 2016 kwam de BPC met de eerste voorlopig uitkomsten van het onderzoek. De conclusies logen er niet om:

Following in-depth investigations, the Inquiry panel has concluded that the primary cause of the failure of the 2015 pre-election opinion polls was unrepresentativeness in the composition of the poll samples. The methods of sample recruitment used by the polling organisations resulted in systematic over-representation of Labour voters and under-representation of Conservative voters. Statistical adjustment procedures applied by polling organisations were not effective in mitigating these errors.

Kort samengevat: de steekproeven van de peilers waren niet representatief. En wegen hielp niet om dit te repareren. Meer informatie kun je hier vinden.

De onderzoekers keken ook naar andere mogelijk oorzaken. Zo sloten ze een ‘Shy Tory Factor’ uit. Er werd geopperd dat meer Conservatieven stemmers dan Labour stemmers in de peilingen zeiden dat ze niet gingen stemmen, maar het uiteindelijk toch wel deden. Daardoor waren de Conservatieven ondervertegenwoordigd in de steekproeven van de peilers. Er werden echter geen aanwijzingen voor een ‘Shy Tory Factor’ gevonden.

Er bleek ook geen sprake te zijn van een ‘Late Swing’. Dit is het verschijnsel dat mensen op het laatste moment, na de laatste peilingen en net voor de verkiezingen, nog van mening veranderen. Dat zou betekenen dat ze op het laatste nippertje nog hebben besloten op de Conservatieven te stemmen. Er bleek geen sprake een ‘Late Swing’.

De onderzoekers van de BPC vonden het merkwaardig dat alle peilingen op dezelfde manier de mist ingingen. Dit zou kunnen wijzen op een verschijnsel dat ‘herding’ heet. Je zou dat kunnen vertalen als ‘in een kudde samendrijven’. Daarbij zorgt een peiler ervoor dat de uitkomsten van zijn peiling niet teveel afwijken van de uitkomsten van andere peilingen. Daarmee voorkomt hij dat hij als enige is met een verkeerde voorspelling zou kunnen komen. De onderzoekers konden ‘herding’ niet helemaal uitsluiten.

In de grafiek kun je zien dat de peilingen twee verschillende manieren gebruikten om de gegevens te verzamelen. De eerste zeven (blauwe) peilingen waren er online peilingen. Daarvoor maakten al de peilers gebruik van online panels. Deze panels zijn gevuld via zelfselectie (en niet door loting). Daardoor zijn ze niet representatief. En steekproeven uit de panels zijn dus ook niet representatief. Uiteraard hebben de peilers geprobeerd dit gebrek aan representativiteit te repareren met een weging. De onderzoekers van de BPC concludeerden echter dat die weging niet succesvol was. De vertekeningen in de uitkomsten bleven.

De laatste vier peilers in de grafiek deden telefonische peilingen. Ook deze manier van peilen is niet zonder problemen. Het telefoonboek is ongeschikt om daaruit een steekproef te trekken. Heel veel mensen staan daar niet in. Je vindt slechts een deel van de vaste nummers en geen enkel mobiel nummer. Dus je mist een flink deel van de bevolking. De peilers omzeilen dit probleem met ‘random digit dialing’. Ze genereren willekeurige telefoonnummers met de computers. Je kunt bijvoorbeeld een bestaand nummer uit het telefoonboek halen en dan het laatste cijfer vervangen door een willekeurig ander cijfer.

Het probleem van telefonische peilingen is dat de respons zo laag was. Die was vaak niet hoger dan 20%. En in stedelijke gebieden daalde de respons zelfs onder de 10%. Die grote respons taste de vertekening ernstig aan. En ook dit gebrek aan representativiteit was niet te repareren met wegen.

De peilers zijn erg terughoudend bij het verstrekken van responspercentages. Maar Martin Boon, directeur van ICM Research gaf onlangs toe dat deze peiler tegenwoordig 30.000 belpogingen nodig heeft voor het realiseren van 2.000 interviewers. Dat is dus een respons van nog geen 7%.

Tot zover de eerste bevindingen van de onderzoekscommissie van de BPC. Het probleem lijkt duidelijk en ernstig. De steekproeven van de peilers zijn niet netjes geloot en leiden daarom tot vertekeningen in de uitkomsten. Over oplossingen heeft de BPC nog niets gezegd. Maar misschien staan die in het definitieve rapport dat in maart uitkomt.