Op het eerste gezicht een aardige grafiek, maar …

Op maandag 18 augustus 2014 publiceerde de Engelse krant The Guardian een grafiek over de afstanden die studenten zijn verhuisd om naar de universiteit te kunnen gaan. Op het eerste gezicht ziet die grafiek er goed uit, maar bij nader inzien is er toch wel het een en ander mee mis.

De grafiek van de The Guardian staat hieronder. De gegevens zijn gebaseerd op een peiling onder 1000 studenten. De opgegeven afstanden zijn verdeeld in intervallen, van 1 t/m 20 mijl, van 21 t/m 40 mijl, enz. Voor studenten uit het buitenland zijn geen afstanden bekend. Ze zijn opgenomen in een aparte categorie.

distance1

De eerste indruk van de grafiek is goed. Het is een staafdiagram waarin de staven horizontaal zijn getekend (zoals het hoort). Daardoor is er voldoende ruimte voor tekst bij de staven. Ook zijn de staven keurig gescheiden van elkaar getekend. En ter verduidelijking zijn de percentages nog eens bij de staven gezet. Jammer is wel dat er geen horizontale as met een schaalverdeling is (zodat je duidelijk kunt zien dat de staven bij nul beginnen) en ook hadden best wat (niet te opvallende) roosterlijnen toegevoegd kunnen worden.

Heel merkwaardig aan deze grafiek van The Guardian is dat de staven zijn geordend in aflopende grootte. Dat is alleen zinvol als de in beeld gebrachte categorieën geen natuurlijke ordening hebben. Maar hier is die natuurlijke ordening er wel. En dan moet je die ordening niet verstoren. Nu kan je in de grafiek wel zien welke categorie de grootste is (141-200 mijl) en welke de kleinste (401-700 mijl), maar je krijgt geen duidelijk beeld van de verdeling van de studenten over de verschillende afstanden. Het is een beetje warrig.

In de grafiek hieronder zijn deze zaken gerepareerd. De staven zijn in de natuurlijk volgorde getekend (van korte naar lange afstanden). Ook zijn een horizontale as en roosterlijnen toegevoegd. Er ontstaat nu een veel duidelijker beeld van de verdeling van de afstanden. Zo is te zien dat veel studenten oorspronkelijk 1 tot 100 mijl van de universiteit woonden.

distance2

Met deze verbeterde grafiek zijn we er nog niet. Wat opvalt is de lange staaf voor afstanden van 141 t/m 200 mijl. Die categorie lijkt een rare uitschieter te zijn. Bij nadere bestudering blijkt echter dat de afstandscategorieën niet allemaal even groot zijn. Tot 141 mijl zijn categorieën 20 mijl breed, maar de categorie 141-200 gaat over een interval dat drie keer zo breed is: 60 mijl. Dan volgen twee categorieën van 50 mijl breed, een categorie van 100 mijl breed en een categorie van maar liefst 300 mijl breed. Het is dus niet zo verwonderlijk dat de categorie 141-200 veel meer studenten bevat. De categorie is immers drie keer zo breed.

Om een eerlijker beeld te krijgen is het beter om een histogram te tekenen. Daarin kun je corrigeren voor die ongelijke categorieën. Dit is gedaan in de grafiek hieronder.

distance3

Bij een histogram worden de staven verticaal getekend en de staven hebben geen tussenruimte. De staaf voor de categorie 141-200 is breder dan de voorgaande staven. Omdat het oppervlak van de staaf de hoeveelheid studenten in die categorie moet weerspiegelen, is de staaf lager geworden. Er is dus helemaal geen sprake van een uitschieter. Het histogram vertoont nu een regelmatige verdeling met veel studenten tussen de 0 en 100 mijl, en een afnemend aantal studenten naarmate de afstand groter wordt.

Merk op dat we bij dit histogram de categorie voor de buitenlanders hebben moeten weglaten, omdat we niets wisten over hun afstand tot de universiteit.

De boodschap is ook hier weer dat je altijd moet oppassen met grafieken. Voordat je het weet wordt je op het verkeerde been gezet.