Publieksonderzoek van de NOS is niet representatief

Op 15, 16 en 17 maart 2021 zijn er Tweede Kamerverkiezingen. De media peilen dan ook volop wat er zoal leeft onder Nederlandse kiezers. Ook de NOS wil weten wat zij belangrijk vinden en waarover zij zich zorgen maken. Daartoe nodigt de NOS burgers uit om mee te doen aan haar zogenoemde ‘publieksonderzoek’. Geen opinieonderzoek, aldus de NOS in de eigen verantwoording, ‘maar een middel om ervaringen en verhalen van mensen te horen en te peilen wat er leeft. Het helpt de NOS nog beter te berichten over wat er leeft in Nederland’. Het is te hopen dat de NOS handelt in het volle besef van deze bescheiden ambitie. Want het is van groot belang te weten dat dit onderzoek geen representatieve peiling is en dat de gehanteerde vragenlijst aanzienlijke tekortkomingen kent. Voorzichtigheid en terughoudendheid met de uitkomsten van dit onderzoek zijn geboden!

De NOS spreekt van ‘publieksonderzoek’. Het is niet duidelijk wat die term precies inhoudt, al roept de term onderzoek al snel de associatie op met wetenschappelijk onderzoek. Dat zou ongepast zijn. Het betreft in ieder geval geen wetenschappelijk verantwoorde peiling: dit onderzoek voldoet simpelweg niet aan de eisen die we daaraan moeten stellen. Problemen liggen onder meer op het terrein van de vragenlijst en van de representativiteit van het onderzoek en uitkomsten ervan.

Representativiteit

De representativiteit van dit onderzoek – leveren de gegevens ervan informatie op die geldig is voor het hele Nederlandse publiek of electoraat? – is ver te zoeken. Er is niet gewerkt met een zogeheten aselecte steekproef of met loting uit alle burgers of kiesgerechtigden. Er is sprake van zelfselectie: slechts mensen die de vragenlijst tegenkomen bij de NOS, die het leuk of belangrijk vinden om die vragenlijst in te vullen, en daar de tijd voor hebben en nemen, hebben feitelijk de mogelijkheid de vragenlijst in te vullen. Die invullers vormen geen dwarsdoorsnede van alle kiesgerechtigden. Gevolg: je kunt de uitkomsten van dit onderzoek niet generaliseren naar de populatie, dat wil zeggen naar ‘het publiek’ van alle burgers of kiesgerechtigden van Nederland.

Er kan, afgezien van dit fundamentele probleem, meer misgaan bij dergelijke online peilingen op basis van zelfselectie. Zo kan iedereen de vragenlijst invullen, ook mensen die niet tot de populatie (hier: kiesgerechtigden van maart 2021) behoren. Verder kan de vragenlijst meer dan één keer worden ingevuld door een andere computer, laptop, tablet of smartphone te gebruiken. En groepjes kiezers kunnen proberen de uitkomsten te manipuleren door een gezamenlijke strategie af te spreken bij het invullen, al is het effect van dit soort destructieve acties beperkt als heel veel mensen meedoen. Dergelijke problemen doen zich in beginsel niet voor bij gebruikmaking van een aselecte steekproef.

De NOS geeft aan de verzamelde informatie te willen gebruiken voor reportages en als basis voor verdere nieuwsgaring. Dat is een journalistiek doel – en daar is niets mis mee. Van de staat naar de straat, was tenslotte de les die de NOS meende te moeten leren van de Fortuynrevolutie van vijftien jaar geleden. Maar het is hierbij oppassen geblazen! Door een handvol voxpops achter elkaar te zetten, kun je eenvoudig een uiterst suggestief en krachtig beeld creëren, dat niet met de werkelijkheid overeenstemt maar de indruk wekt dat te doen. Zeker als daarbij ook nog eens verwezen zou worden naar het eigen ‘publieksonderzoek’, dat wel iets als onderzoek maar geen wetenschappelijk verantwoord onderzoek behelst.

In een poging om te corrigeren voor de afwezigheid of het gebrek aan representativiteit, is het in beginsel mogelijk om een zogenoemde weging uit te voeren. Dan tellen op een wetenschappelijk beredeneerde wijze ondervertegenwoordigde (groepen) deelnemers aan het onderzoek zwaarder mee bij de vaststelling en presentatie van de resultaten en oververtegenwoordigde minder zwaar. Het lijkt er echter op dat de NOS dit wegen niet doet of van plan is te gaan doen. Bij eerder onderzoek gebeurde dit in ieder geval niet, en er wordt ook nu nergens melding van gemaakt.

De vragenlijst

Het is een open deur: een goed vragenlijstonderzoek staat of valt met een goede vragenlijst. Hier geldt het GIGO principe: garbage in, garbage out. Slecht geformuleerde of anderszins gebrekkige vragen leiden tot verkeerde antwoorden, in die zin dat niet de echte mening of houding van de deelnemer naar voren komt. Vervolgens komen uiteraard verkeerde conclusies tot stand. Het is dus belangrijk om zorgvuldig te zijn bij het formuleren van afzonderlijke vragen en het opstellen van een vragenlijst. Op de 20 vragen van het publieksonderzoek valt echter een en ander aan te merken.

De eerste drie vragen staan hieronder. Deelnemers of zogeheten respondenten moeten aangeven in welke gemeente en provincie ze wonen en wat hun postcode is, wat overigens bepaald geen aantrekkelijk begin van een vragenlijst is. Die drie openingsvragen zijn echter vooral teveel van het goede. Uit de postcode kun je immers de gemeente en de provincie afleiden. Waarom dan ook nog respondenten lastig vallen met vragen over gemeente en provincie? Het is niet goed om deelnemers aan onderzoek overbodige (en dus irrelevante) vragen voor te leggen. Waarbij gemakshalve nog even wordt afgezien van het aspect van privacy-gevoeligheid van deze vragen.

De vormgeving van vragen 2 en 3 is wat onhandig. Deelnemers moeten op hun scherm een lijstje ‘openklappen’, voordat ze antwoord kunnen geven. Dat is niet zo overzichtelijk. Het is beter om de mogelijke antwoorden direct te presenteren in de vorm van keuzerondjes (radio buttons), zoals bij vraag 4 (zie hieronder). Dan heb je een volledig overzicht en is vervolgens één enkele klik voldoende voor het geven van het antwoord.

Bij de vragen 4 en 5 moet worden aangegeven hoeveel vertrouwen deelnemers hebben in de landelijke politiek en de landelijke politici. Hoewel beide vragen in essentie hetzelfde vragen (mate van vertrouwen), is de vormgeving van beide vragen om duistere redenen helemaal anders. Zie hieronder.

Bij vraag 4 (‘Heb je vertrouwen in de landelijke politiek’) moet worden gekozen uit vier mogelijke antwoorden in de vorm van keuzerondjes. Er zijn twee positieve antwoorden (‘ja’ en ‘een beetje’) en één negatief antwoord (‘nee’), gepresenteerd in een onlogische, want niet oplopende of aflopende volgorde. Dit is ook onevenwichtig: het is simpelweg makkelijker om een (enigszins) positief antwoord te geven. Een evenwichtiger vraagstelling met twee positieve en twee negatieve antwoorden (en een neutraal antwoord in het midden) is beter. Desnoods worden er slechts twee opties geboden: ja of nee. Maar symmetrie of evenwicht dient hoe dan ook te worden gerealiseerd.

Bij vraag 5 is gekozen voor een beoordelingsschaal met 10 mogelijke waarden (lopend van 1 t/m 10, met als curieus label ‘totaal vertrouwen’, wat opmerkelijk zou zijn in een democratie die toch enig gezond wantrouwen ten aanzien van politici zou mogen veronderstellen). De schaal is ook erg gedetailleerd en daardoor allicht pseudo-precies. Kun je echt aangeven of je vertrouwen 6 of 7 is? Hoeveel verschil zit er eigenlijk tussen een vertrouwen van 6 en een vertrouwen van 7? Misschien is 10 verschillende waarden wel wat te veel van het goede. Tegelijkertijd is de schaal juist heel weinig precies, omdat moet worden aangegeven hoeveel vertrouwen bestaat in ‘de’ landelijke politici. Deelnemers worden geacht evenveel vertrouwen in alle politici te hebben, of een soort gemiddelde te berekenen van het vertrouwen in Rutte versus Kaag, Baudet versus Marijnissen? Hoe werkt dat?

Bij vraag 7 (zie onderstaand) moeten maximaal drie onderwerpen worden gekozen uit een lange lijst met liefst 24 mogelijke onderwerpen. Met zo’n lengte dreigt een primacy-probleem: een paar antwoorden vooraan of hoog in de lijst worden gekozen, en deelnemers doen geen moeite meer om de lijst verder helemaal door te lezen en serieus te nemen. Misschien staat het beste antwoord wel later/lager in de lijst, maar daar komt de deelnemer simpelweg niet meer aan toe. Gelukkig is het zo dat de volgorde van de onderwerpen niet vast ligt, maar steeds (per deelnemer) varieert; dat is althans de suggestie van de vraagstelling. Elke keer dat je de vraag opent, is dan de volgorde anders. Dit vermindert een mogelijk primacy-effect, niet voor de individuele deelnemer maar wel voor de groep deelnemers als geheel.

De tekst van de vraag 7 is inconsequent of op zijn minst verwarrend. Zo is niet duidelijk of het in alle gevallen gaat om persoonlijke zorgen of zorgen voor Nederland als geheel. Wat geef ik aan als ik voor mezelf geen zorgen heb over corona, maar dat wel een ernstig probleem voor het land vind? Ook moet bij deze vraag de belangrijkste keuze worden toegelicht, maar je kunt drie onderwerpen aangeven. Welke van de drie is dan het belangrijkste probleem?

Vragen 11 en 12 gaan over de corona-epidemie; zie hieronder. Vraag 11 vraagt naar de impact van corona ‘op je leven’. Daar vraag je zo wat!? Het hele leven, in alle aspecten, verleden, heden en toekomst? Het is daarbij, maar dat is een detail, niet duidelijk waarom de Engelse term ‘impact’ is gebruikt en niet de Nederlandse term ‘invloed’. In vraag 12 gaat het om de invloed van corona op je stem bij de verkiezingen; niet duidelijk is of het hier opkomst of partijkeuze betreft. Ook verwarrend is, dat kennelijk de verkiezingen geen deel uitmaken van ‘je leven’, want die vraag is tenslotte al gesteld. Het is evenmin duidelijk waarom vraag 11 een open vraag is een vraag 12 een gesloten vraag met vier mogelijke antwoorden. Bij vraag 12 zijn weer twee mogelijke antwoorden positief en één antwoord negatief. Dat maakt ook deze vraag onevenwichtig, met een grotere kans op een positief antwoord in die zin dat inderdaad invloed van corona uitgaat op opkomst dan wel keuze.

Vragen 15 en 16 gaan over stemgedrag. Vraag 15 gaat over stemgedrag bij de laatste verkiezingen. Maar wat zijn die ‘laatste verkiezingen’, in de zin van meest recente (en vanuit democratisch oogpunt hopelijk niet de laatste!) verkiezingen? Die laatste verkiezingen waren namelijk voor de meeste kiesgerechtigden de verkiezingen voor het Europese Parlement: mei 2019. Worden deze verkiezingen bedoeld – waarschijnlijk niet – of wellicht de vorige Tweede Kamerverkiezingen, in maart 2017? Dit is niet duidelijk uit de vraagstelling. Waarom niet gewoon gevraagd naar het stemgedrag van maart 2017, waarbij dan nog wel een ernstig herinneringsprobleem zou optreden?

De vragen 15 en 16 zijn ook weer een tweetrapsraket: eerst moet de lijst worden opengeklapt en dan dient in die lijst een partij een optie te worden aangeklikt. Een gesloten vraag met keuzerondjes is, zoals gezegd, overzichtelijker en directer.

Bij vraag 16 is de volgorde van de genoemde partijen, waarbij trouwens sommige nieuwe deelnemers (o.a. JA21) zijn opgenomen en andere (o.a Code Oranje) niet, willekeurig. Dat is allicht gedaan om primacy-effecten tegen te gaan, maar het leidt wel tot onverwachte en enigszins contra-intuïtieve situaties. Zo kan FvD bovenaan in de lijst verschijnen en de VVD, toch de grootste partij in Kamer en gezagehebben peilingen, helemaal onderaan. En bij het uitproberen stond, in een tweede exercitie, ‘ik ga niet stemmen’ plots bovenaan! Bij de derde poging Bij1, etc.

De figuur hieronder bevat de afsluitende vragen, naar achtergrondkenmerken van deelnemers, waarop ook de eerste paar vragen al betrekking hadden. Vraag 17 kent weer de openklap-dubbel-klik-constructie. Het is niet duidelijk waarom niet is gekozen voor het simpele alternatief met zeven keuzerondjes.

Vraag 18 is een open vraag naar het beroep van de respondenten. Door deze vraag zo te stellen roep je als onderzoeker problemen over jezelf af. De respondenten zijn volkomen vrij om in te vullen wat ze willen. Dat leidt bijvoorbeeld tot verschillende omschrijvingen van hetzelfde beroep, tot dezelfde omschrijvingen van verschillende beroepen en tot onbegrijpelijke omschrijvingen. Het leidt in ieder geval niet tot een goede beroepenclassificatie. Deze vraag zal naar alle waarschijnlijkheid onbruikbare informatieruis opleveren.

Vraag 19 vraagt naar het aantal personen in het huishouden. Nu is terecht gekozen voor keuzerondjes en niet voor een lijst die je eerst moet openen. Maar 9 categorieën? Zoveel heel grote huishoudens zijn er toch niet (meer). Misschien is 5 categorieën ook wel genoeg, met als laatste categorie ‘5 en meer’.

Conclusie

Het is goed dat er onderzoek wordt gedaan naar wat er speelt in de aanloop van de verkiezingen en bij de verkiezingen zelf. Journalistiek en media kunnen met dergelijk onderzoek hun voordeel doen, mits dat onderzoek vanuit wetenschappelijk en onderzoekstechnische oogpunt goed is opgezet en uitgevoerd. Zoals het bij de NOS gebeurt, is echter helaas niet de goede manier om het te doen, behalve dan als de bescheiden ambities ervan ook daadwerkelijk worden gevolgd, maar daaraan moet in het licht van eerdere ervaringen toch wel worden getwijferld. Vanuit wetenschappelijk en ambachtelijk oogpunt is het NOS-onderzoek dik onder de maat. De verzamelde gegevens kunnen misschien nog worden gebruikt om enkele voxpops te maken, maar daarvoor is het dan wel een heel zwaar middel. Het is schieten met een niet goed afgesteld, lomp kanon op een mug, als er al een mug te vinden is. Voor uitspraken over wat er in het algemeen speelt bij de stemgerechtigden, is dit onderzoek niet geschikt. ‘De NOS biedt, als één van de grootste nieuwsorganisaties van Nederland, altijd en overal onafhankelijke en betrouwbare verslaggeving op het gebied van nieuws, sport en evenementen’ aldus de NOS. Niet zo bij het publieksonderzoek gericht op de verkieizngen van maart 2021 echter. Wees gewaarschuwd.

Deze bijdrage is geschreven door Jelke Bethlehem & Joop van Holsteijn.