Chinese investeringen, met een flinke liegfactor

Op 22 juli 2014 besteedde het NRC aandacht aan de Chinese investeringen in Zuid-Amerika. Ter illustratie had de krant een thematische kaart bijgevoegd. Daarop was te zien welke landen allemaal geld van China krijgen en om welke bedragen het gaat. Helaas was die kaart niet goed vormgegeven, waardoor je op het verkeerde been werd gezet.

chinees-geld-400

Bij een thematische kaart geef je statistische gegevens weer op een landkaart. Het is met thematische kaarten net zoals met andere typen grafieken: ze kunnen erg handig zijn om op simpele wijze statistische informatie over te brengen, maar je moet wel oppassen. Als je zo’n grafiek niet goed vormgeeft, kun je mensen makkelijk op het verkeerde been zetten. De media staan vol met foute grafieken. Helaas is de grafiek in het NRC daarvan ook een voorbeeld.

Een belangrijk probleem met thematische kaarten is ‘area bias’. Dat kan zich voordoen als je de waarde van een variabele in een geografisch gebied wilt tonen door het gebied in te kleuren. Gebieden met een groot oppervlak vallen echter meer op dan gebieden met een klein oppervlak, ook al heeft dat gebied een lagere waarde. Dit is vooral een probleem bij het weergeven van aantallen of totalen. Je kunt het probleem van de ‘area bias’ omzeilen door de gebiedenniet in te kleuren, maar door symbolen in de gebieden te tekenen waarvan de grootte overeenkomt met de waarde van de variabele. Bij de grafiek van de Chinese investeringen heeft de NRC (terecht) gekozen voor zo’n symbolenkaart. Als symbool is voor de cirkel gekozen.

Bij een goede thematische kaart moeten de symbolen de waarden van de variabele weerspiegelen. De oppervlakten van de cirkels moeten dus evenredig zijn met de omvangen van de investeringen in de landen. Bij de grafiek van de NRC klopt dit niet. De tabel hieronder bevat voor elke land de investering van China, de oppervlakte van de cirkel (in cm2) zoals ze in de krant zijn weergeven en de oppervlakte zoals die zou moeten zijn (op basis van de omvang van de investeringen). Daarbij zijn de investeringen in Venezuela als ijkpunt genomen, zodat beide oppervlakten voor dit land hetzelfde zijn (7,068583).

Land Investering Oppervlakte in krant Correcte oppervlakte Liegfactor
Argentinië 14,10 3,463606 1,969704 1,7
Bahamas 2,50 1,767146 0,349238 5,1
Brazilië 13,40 3,141593 1,871917 1,7
Bolivia 0,61 1,327323 0,085214 15,6
Chili 0,15 1,130973 0,020954 54,0
Colombia 0,08 1,130973 0,011176 101,2
Costa Rica 0,80 1,539380 0,111756 13,8
Ecuador 9,90 3,141593 1,382984 2,3
Guyana 0,13 1,130973 0,018160 62,3
Jamaica 1,40 1,539380 0,195573 7,9
Mexico 2,40 5,309292 0,335269 15,8
Peru 2,30 1,767146 0,321299 5,5
Uruguay 0,01 0,950332 0,001397 680,3
Venezuela 50,60 7,068583 7,068583 1,0

Er zijn grote verschillen tussen de oppervlakten in de krant en de correcte oppervlakten. Het meest extreme voorbeeld is Uruguay waar de getekende oppervlakte gelijk is 0,950332, terwijl die oppervlakte veel en veel kleiner had moeten zijn: 0,001397. Opvallend is ook de cirkel veer Colombia. Die is ook veel te groot getekend. In de krant is de oppervlakte van de cirkel 1,130973 en dat had 0,011176 moeten zijn.

Het komt vaker voor dat gegevens in een grafiek onjuist worden weergegeven. Daarom heeft de bekende Amerikaanse statisticus Edward Tufte in zijn boek The Visual Display of Quantitative Information (1983) een maat hiervoor geïntroduceerd. Die heeft hij de Lie Factor genoemd. Deze liegfactor is gedefinieerd als de door de grafiek gesuggereerde waarde gedeeld door de correcte waarde. In een goede grafiek is de liegfactor dus altijd 1.

De bovenstaande tabel bevat de liegfactoren voor alle cirkels in de grafiek van de Chinese investeringen. Uruguay heeft een enorme liegfactor van ruim 680 en ook die van Colombia is met ruim 100 erg groot. Een blik op alle liegfactoren levert een toch wel treurig beeld op van een thematische kaart waarin de statistische gegevens helemaal fout zijn weergegeven.

Je zou je kunnen afvragen of het wel nodig was om deze gegevens op een kaart weer te geven. Dat doe je vooral als je vermoed dat er verband bestaat tussen de statistische gegevens en de geografische positie. Bij de Chinese investering lijkt dat helemaal niet zo van belang te zijn. Daarom zou je bijvoorbeeld ook een simpel staafdiagram kunnen maken, zoals hieronder:

chinese-investeringen

De lengten van de staven weerspiegelen de investeringen. Duidelijk is te zien dat Venezuela eruit schiet met enorme investeringen. Dan volgen drie landen (Argentinië, Brazilië en Ecuador) met aanzienlijk minder investeringen. Voor de vier landen onderaan ( Chili, Guyana, Colombia en Uruguay) zijn de investeringen verwaarloosbaar klein.

Conclusie: er is niets tegen een goede thematische kaart, maar doe het dan wel goed. En soms is het simpele staafdiagram toch ook wel heel informatief.