De haaien vallen aan!

Op 8 juli 2014 zette Derek Willis van The Upshot (New York Times) een grafiek op Twitter. De grafiek laat zien welke Amerikaanse staten het meeste last hebben van aanvallen van haaien. De grafiek riep hilarische reacties op. Het is natuurlijk niet zo verbazingwekkend dat vooral de kuststaten last hebben van haaien. Er is geen enkele aanval van een haai gerapporteerd in de binnenlanden! Wow!

shark-attacks

Deze grafiek mag dan op het eerste gezicht overbodig lijken, maar hij roept ook wel een aantal vragen op. Zo vroegen sommige mensen zich af waarom er voor de kuststaat (Alaska) geen aanvallen van haaien zijn gerapporteerd. Waren er geen gegevens? Of waren er geen aanvallen? Komen daar eigenlijk wel haaien voor?

De grafiek is een voorbeeld van een thematische kaart. Daarbij worden statistische gegevens weergegeven op een landkaart. Dit is een van de oudste manieren om statistische gegevens grafisch weer te geven. De misschien wel oudste thematische kaart is van de Vlaamse cartograaf Jodocus Hondius uit 1607. Hieronder een fragment van deze kaart. Het is een wereldkaart waarop door middel van symbolen wordt aangegeven wat de belangrijkste godsdienst in de regio is (een kruisje voor het Christendom, een maantje voor de Islam, enz).

hondius-deel

Het is met thematische kaarten net zoals met andere grafieken: ze kunnen erg handig zijn om allerlei statistische informatie in beeld te brengen. Maar je moet ook oppassen, want je kunt de mensen makkelijk op het verkeerde been zetten. Daarvan zijn er heel wat voorbeelden. Ook de haaienkaart hierboven is methodologisch niet helemaal in de haak.

Het is belangrijk dat een grafiek de juiste statistische boodschap overbrengt. In dit geval zou je moeten kunnen zien waar het maar beter is om niet te gaan zwemmen, omdat er teveel gevaarlijke haaien zijn. Zo op het eerste gezicht moet je niet naar Florida te gaan, omdat daar maar liefst 687 aanvallen van haaien waren. Maar is die conclusie wel juist? Florida heeft een veel langere kustlijn (2170 km) dan bijvoorbeeld South Carolina (met 77 aanvallen op 301 km). Het is dan dus logisch dat er meer aanvallen van haaien zijn in Florida dan in South Carolina. Een betere manier zou kunnen zijn om het aantal aanvallen van haaien per 100 kilometer kustlijn (of iets dergelijks) te vergelijken. Voor Florida zou je dan uitkomen op 31,7 en voor South Carolina op 25,6. Florida komt nog steeds als gevaarlijke staat uit de bus, maar de verschillen zijn aanzienlijk minder groot.

Een tweede probleem met thematische kaarten is ‘area bias’. De kleuren en symbolen op de kaart moeten de omvang van het verschijnsel op de juiste wijze weergeven. Dat is bij de haaienkaart niet het geval. De visuele impact van bijvoorbeeld Texas met maar 38 aanvallen van haaien) is veel groter dan die van Hawaii (met maar liefst 129 aanvallen). Dit komt omdat de oppervlakte van Texas veel groter is dan de oppervlakte van Hawaii en deze staat daarom dus veel prominenter op de kaart komt. Om area bias te voorkomen, is het beter om gebieden niet in te kleuren, maar om symbolen in de gebieden te zetten. Het aantal symbolen per gebied, of de omvang van het symbool in het gebied geeft dan de omvang van het verschijnsel weer. In het voorbeeld hieronder geeft de omvang van de groene cirkel aan hoeveel verkeersdoden er in 2009 in de desbetreffende staat waren.

traffic-fatilities

Voor de goede interpretatie van de aanvallen van de haaien ware het dus beter geweest om niet de aantallen aanvallen weer te geven, maar de aantallen per hoeveelheid kustlijn. En in plaats van de staten te kleuren verdient het gebruik van symbolen de voorkeur. Zo valt van een bijna overbodige grafiek dus nog veel te leren.