Is dit onderzoek over hacken wel representatief?

Bijna 200.000 jongeren tussen 12 en 18 jaar hebben weleens een mobiele telefoon gekraakt. Zo’n 70.000 tieners zijn een computer binnengedrongen. Aldus een bericht in het AD op 13 november 2018. Volgens de krant zijn de cijfers zijn afkomstig uit een representatief onderzoek van Veiliginternetten.nl naar de ‘hackervaring’ van ruim duizend 12 tot 18-jarigen. Maar hoe representatief is dit onderzoek eigenlijk? Tijd voor een nadere analyse.

Om te kunnen beoordelen of een peiling goed of slecht is, kun je de checklist voor peilingen gebruiken. Door het beantwoorden van de negen vragen in de checklist krijg je een goede indruk van de kwaliteit van de peiling. We gebruiken de checklist bij het beoordelen van de peiling over het hacken door jongeren.

Om de peiling te kunnen beoordelen moet je weten hoe hij is opgezet en uitgevoerd. Er zou dus een onderzoeksrapport moeten zijn waarin dit soort zaken staan. Gelukkig is dit rapport aanwezig, zie Hacken.

Het eerste wat je doet is vaststellen wie opdracht heeft gegeven tot de peiling en wie de peiling heeft betaald. Het zou namelijk kunnen dat opdrachtgever en/of financier belang heeft bij bepaalde uitkomsten van de peiling. Als dit vermoeden bestaat, is het maar beter geen aandacht aan de peiling te besteden. De hack-peiling is uitgevoerd in opdracht van Veiliginternetten.nl. Veiliginternetten.nl is een website waar mensen ‘tips, tricks en praktische stap voor stap uitleg kunnen vinden over wat zij kunnen doen en laten om veilig te internetten’. Het is een gezamenlijk initiatief van het ministerie van Economische Zaken en Klimaat, het ministerie van Justitie en Veiligheid / Nationaal Cyber Security Centrum, ECP | Platform voor de InformatieSamenleving en het bedrijfsleven. Er zijn geen aanwijzingen dat de opdrachtgever belang heeft bij bepaalde uitkomsten.

De doelpopulatie van de peiling is duidelijk aangegeven. Het gaat om alle Nederlandse jongeren vanaf 12 t/m 18 jaar. Je moet de steekproef dus uit deze populatie trekken en de uitkomsten hebben ook op deze populatie betrekking.

De vragenlijst is helaas niet opgenomen in het rapport. Daarom kunnen we niet vaststellen hoe goed of slecht hij is. Het is ook niet duidelijk of de vragenlijst is getest. Het zou kunnen zijn dat de titels van de tabellen in het rapport overeenkomen met de bijbehorende vragen. Dan zie die vragen er redelijk uit. Al zijn er wel een paar vragen met behoorlijk veel antwoordmogelijkheden. Er staat een voorbeeld hieronder. Er zou zich een primacy-effect kunnen voordoen: de respondenten hebben geen zin om al die mogelijkheden door te nemen en kiezen daarom gemakshalve maar voor een paar antwoorden vooraan in de lijst.

Je zou iets aan dit primacy-effect kunnen doen door de mogelijke antwoorden voor elke respondent opnieuw in een willekeurige volgorde te zetten (‘randomizen’). Het is niet duidelijk uit het rapport of dit inderdaad is gebeurd.

Een punt van aandacht is ook of er geen sprake kan zijn van sociaalwenselijke antwoorden. Stellen de jongeren het bij het beantwoorden van de vragen niet mooier of anders voor dan het is? Je kunt hun antwoorden immers niet controleren. Misschien staat het wel stoer om te hacken en zeggen ze daarom dat ze hacken.

Hoe is de steekproef getrokken? Volgens het onderzoeksrapport zijn personen uitgenodigd via e-mail of via de PanelWizard app. Dat is nogal vaag. Nader onderzoek leert dat PanelWizard een marktonderzoekbureau is. Het heeft een online panel met ongeveer 33.000 leden. PanelWizard claimt dat steekproeven uit dit panel representatief zijn. De bruto steekproeven zijn zo samengesteld dat ze representatief zijn met betrekking tot de variabelen: geslacht, leeftijd, opleiding, regio, gezinssamenstelling en arbeidsparticipatie. Dat is mooi, maar het biedt geen enkele garantie dat deze steekproef ook representatief is met betrekking tot andere variabelen. Ook moet je bedenken dat het oorspronkelijk panel waarschijnlijk niet representatief is. Iedereen die dit wil, kan zich aanmelden en zo een beetje bijverdienen (10 eurocent per vraag). Er is hier eerder sprake van zelfselectie dan van een aselecte steekproef. Een verzoek aan Veiliginternetten.nl om nadere informatie over de steekproeftrekking leverde geen respons op.

Een ander deel van de steekproef is tot stand gekomen via e-mail. Het is onduidelijk waar die e-mailadressen vandaan komen. Is er sprake van een bestand met e-mailadressen en is daaruit een steekproef getrokken? Het onderzoeksrapport geeft daarover geen informatie.

Al met al moet je je afvragen of je de gecombineerde steekproef kan opvatten als een nette aselecte steekproef met gelijke kansen. En dat heeft consequenties voor de representativiteit ervan.

Volgens het onderzoeksverantwoording bestond de bruto (initiële) steekproef uit 2614 personen. Er bleven uiteindelijk 1044 respondenten over. Dat is een respons van 40%. Merkwaardig, want het onderzoeksrapport meldt dat het percentage respons 45% is. Hoe dan ook, de respons is laag, en dat betekent dat je een ernstig risico loopt op vertekeningen in de uitkomsten. Het is dus belangrijk dat je de uitkomsten corrigeert en dat doe je met een wegingsprocedure. Het onderzoeksverslag meldt echter dat weging niet van toepassing is. Er is dus niet gewogen. De mogelijke vertekeningen in de uitkomsten door non-respons zijn dus niet gecorrigeerd.

Een laatste aspect is nog het vermelden van onzekerheidsmarges. Al is het onderzoek helemaal volgens de regels uitgevoerd, dan nog heb je te maken met ruis in de steekproef. Die ruis kun je kwantificeren in de vorm van onzekerheidsmarges. Die marges moet je melden. Daarmee geef je aan dat de uitkomsten niet overeenkomen met de werkelijke cijfers in de gehele populatie, maar daar iets van af kunnen wijken.

Bij de hack-peiling staat helemaal achteraan in het rapport, in een heel klein font (7,5), en dus helemaal verstopt, dat bij een steekproef van 1044 de onzekerheidsmarge maximaal 3,0% kan zijn. Dat klopt. Maar helaas kom je die onzekerheidsmarges helemaal niet tegen bij het lezen van de hoofdtekst van het rapport.

Sommige vragen zijn alleen gesteld aan jongeren die wel eens gehackt hebben. Dat zijn er maar 225. Dat betekent dat cijfers over deze jongeren een veel grotere onzekerheidsmarge hebben. Die kan oplopen tot 6,5%. Dat zouden de onderzoekers toch moeten vermelden.

De conclusie kan luiden dat er wat haken en ogen zitten aan deze peiling. Er is vooral zorg om de representativiteit van de uitkomsten. Daarom moeten we de uitkomsten met de nodige voorzichtigheid hanteren.

Update

Achteraf heeft de redactie van Veiliginternetten.nl nog enige aanvullende informatie gestuurd. In de eerste plaats werd verduidelijkt dat de hele steekproef is getrokken (geloot) uit het panel van PanelWizard. De steekproef is zo getrokken dat hij representatief was met betrekking tot geslacht en leeftijd (en dus niet met betrekking tot opleiding, regio, gezinssamenstelling en arbeidsparticipatie).

Er is niet uitgelegd over hoe het panel van PanelWizard tot stand is gekomen. Hopelijk door middel van een aselecte steekproef, maar niets duidt daarop. Je kunt je daarom afvragen of je uit panel wel een steekproef kunt trekken die een goede afspiegeling is van de bevolking is.

Er is niets gemeld over non-respons. Er is niet gewogen. Dus de vertekening ten gevolge van non-respons is niet weggewerkt.