Como mentir com gráficos: mais 7 detalhes que podem te enganar
Rodolfo Almeida e Gabriel Zanlorenssi
01 de abril de 2019(atualizado 28/12/2023 às 12h17)Escalas quebradas, intervalos suspeitos e eixos duplos: veja essas e outras maneiras de levar a interpretações erradas em visualizações de dados
Em 1º de abril de 2018, o Nexo publicou este gráfico que mostra como a visualização de dados pode ser utilizada de maneira enganosa (ainda que bem-intencionada). Agora, expandimos a lista com sete outros maus usos de informações em gráficos:
Dados faltantes, linhas imaginadas
mesmo que faltem dados, linha é contínua
SEM
DADOS
linha é
interrompida
Seja por conta de problemas de coleta de dados, ou pela frequência irregular em que determinados estudos são realizados, é comum encontrar séries históricas interrompidas por dados faltantes. Essa ausência representa uma zona misteriosa: um período sobre o qual não se pode afirmar nada a partir da base de dados.
Nesses casos, muitos gráficos de linha representam esse conjunto ligando os pontos disponíveis da série histórica, como no exemplo acima. Essa representação pode ser enganosa por causar a impressão de que os dados seguiram a variação mostrada na linha, o que não é possível saber.
A prática indicada, no caso de dados faltantes, é ser transparente sobre os momentos em que existem ou não dados, interrompendo a linha onde não há informação ou até mesmo destacando visualmente o período problemático. Caso seja feita uma interpolação de dados, ou seja, se “preencha” o dado faltante com uma suposição, isso deve ser comunicado ao apresentar o gráfico.
Eixos duplos e correlações
separadas e em suas próprias escalas, as linhas não sugerem uma correlação
escolha dos eixos pode gerar diferentes interpretações dos dados
45
35
250
200
40
30
200
35
150
25
150
30
20
100
25
15
100
20
10
50
50
15
5
10
0
0
0
Quando um gráfico de linha apresenta dois eixos verticais, é possível que se interprete uma suposta correlação entre os dados, ainda que não exista na realidade. A escolha dos limites para as escalas dos dois diferentes eixos verticais pode causar essa distorção, mesmo que não intencionalmente.
O ideal, nesses casos, é exibir os dados em dois gráficos separados, cada um com sua própria escala adequada. Isso porque corre-se o risco de induzir à percepção de correlações que na realidade são espúrias, como nestes exemplos, sobretudo se os dados mostrarem a evolução de dados ao longo do tempo.
É importante destacar que, em casos em que essa visualização é utilizada para mostrar duas opções de valores (como, por exemplo, uma mesma linha, mas com temperatura em graus celsius em um eixo e fahrenheit em outro), o uso não é problemático.
Escalas quebradas
5 países com maior inflação
nos últimos 12 meses
5 países com maior inflação
nos últimos 12 meses
EM %
EM %
0
2 mi
4 mi
6 mi
8 mi
10 milhões
0
20
40
60
80
100
120
140
160
10
milhões
Venezuela
Venezuela
Sudão do S.
Sudão do S.
EM %
Sudão
Sudão
0
20
40
60
80
100
ainda que seja indicado, quebra de escala não permite visualizar a dimensão da diferença
Sudão do S.
Irã
Irã
Sudão
Irã
Argentina
Argentina
Argentina
gráfico é exibido em escala, com destaque para as diferenças entre os valores restantes
Em gráficos de barras, é comum que determinado valor seja tão maior do que o restante que ele, sozinho, torne praticamente invisíveis todos os outros. Nessas situações, uma solução que costuma ser adotada é quebrar a escala do valor destoante, o que permitiria observar todas as barras.
Entretanto, essa decisão deve considerar que a real dimensão do valor destoante não será contemplada no gráfico. No exemplo acima, o gráfico sem quebra de escala dá uma dimensão mais dramática da crise inflacionária que a Venezuela enfrenta. Para apresentar ao mesmo tempo os valores destoantes e o restante, existem alternativas, como usar destaques dentro do gráfico, mostrar as informações em gráficos separados, entre outros.
Tomando a parte pelo todo
% de pobres
% de pobres
Cada círculo representa um estado
% de votos no partido X
% de votos no partido X
“Pessoas pobres votam mais no partido X”
“Estados com mais pobres tiveram mais votos no partido X”
Por vezes as situações enganosas vistas em gráficos têm menos a ver com a escolha de visualização utilizada e mais com a conclusão a que o gráfico induz. No exemplo acima, há uma clara correlação positiva entre a porcentagem de votos que o partido X recebeu e o percentual de pessoas pobres em cada estado. Ou seja, quanto mais pobres no estado em relação à sua população total, maior é a votação para aquele partido.
O erro aqui está na conclusão a partir do gráfico, já que ele não fornece evidência suficiente para que se possa fazer a afirmação de que “pessoas pobres votam mais no partido X” — ainda que ela possa ser válida. Isso porque não se sabe em quem cada indivíduo daquele estado votou e qual é o seu rendimento. Assim, é possível, em um cenário hipotético, que sejam os indivíduos ricos dos estados pobres que votaram no partido em questão, e não as pessoas pobres.
Esse exemplo ilustra o que na estatística é chamado de falácia ecológica: a generalização do comportamento de indivíduos a partir do comportamento do grupo.
Áreas ou comprimentos
PIB nominal
PIB nominal
EUA
EUA
19,4 trilhões
19,4 trilhões
ÁREA:
23,7 mil
pixels
ÁREA:
23,7 mil
pixels
CHINA
CHINA
12,2 tri
12,2 tri
ÁREA:
9,6 mil
ÁREA:
15,8 mil
pixels
JAPÃO
4,8 tri
JAPÃO
4,8 tri
ÁREA:
1,4 mil
ÁREA:
6,2 mil
diferença entre as áreas não corresponde à diferença entre os dados
áreas dos objetos na tela refletem os valores dos dados adequadamente
Uma maneira de visualizar dados bastante utilizada é a comparação de tamanhos de diferentes objetos como representação de valores numéricos — círculos ou retângulos costumam ser as formas mais utilizadas nesses gráficos. A pressuposição nesse tipo de visualização é de que quanto maior a área ocupada pela forma geométrica, maior o valor daquele dado.
Entretanto, muitos gráficos desse tipo são desenhados utilizando o valor do dado não na área, mas na largura, altura ou diâmetro da forma geométrica, o que na prática distorce proporção entre as formas. No caso de um quadrado, como no exemplo acima, a área é o produto dos lados. E é essa a medida que deve ser proporcional ao dado que se pretende mostrar.
Observe que o PIB do Japão é cerca de 25% do PIB americano, mas no exemplo enganoso, ainda que o lado do quadrado do Japão seja 25% do lado do quadrado dos EUA, a área de seu quadrado corresponde a apenas 6% da área do quadrado dos EUA. Já no gráfico corrigido, a proporção entre as áreas dos quadrados reflete a proporção entre os tamanhos dos PIBs.
Intervalos suspeitos
atenção para os extremos das categorias
DISTRIBUIÇÃO REAL DOS VALORES
DISTRIBUIÇÃO REAL DOS VALORES
Mapas são muito úteis para representar dados numéricos e geográficos ao mesmo tempo. Um tipo bastante comum é o mapa coroplético, em que a cor de cada unidade do mapa é usada para representar um dado — no caso deste exemplo, a cor representa o tamanho da população de cada estado.
Como a escala cromática usada só possui sete cores, os valores-limite que definem se um estado deve ser colorido de uma cor ou de outra são importantes. Ainda que isso não seja necessariamente mal-intencionado ou enganoso, é importante atentar para esses valores-limite que podem passar despercebidos e alterar a leitura e interpretação de um gráfico.
No geral, é uma boa prática utilizar valores-limite entre as cores que se aproximem da distribuição do dado, de maneira a não deixar quase todas as unidades em uma só cor à revelia da distribuição dos valores e respeitando a distância entre os valores.
Escalas cromáticas
% de pessoas sem religião
% de pessoas sem religião
0
10
20
30
40
60
70
0
10
20
30
40
60
70
s/ dados
s/ dados
vermelho carrega sentido de negatividade
escala sequencial evita levar a conclusões
Em visualização de dados, cores são importantes não apenas como uma maneira de codificar dados, mas também pelo sentido interpretativo que carregam. No gráfico acima, os países mais religiosos são apresentados com a cor vermelha e os menos religiosos com a cor azul.
Essa escolha de cores pode gerar interpretações errôneas, já que, no geral, vermelho é uma cor associada a algo negativo (pense nas finanças, que estão “no vermelho”), enquanto azul carrega uma associação positiva.
Além disso, o tipo de escala utilizada no exemplo é uma escala divergente, ou seja, um conjunto de cores que tem o azul e o vermelho em cada extremo, com ambas as cores se encontrando no amarelo. Esse tipo de escala é indicado para valores que refletem essa natureza de duas posições extremas (como, por exemplo, um dado de opinião, que vai de “discordo muito” a “concordo muito”, passando pelo “não concordo nem discordo”).
No caso exibido aqui, a escala mais indicada é de uma cor neutra, como o roxo, e sequencial, ou seja, que mantém um mesmo matiz de cor, apenas com incrementos de brilho, do mais claro para o mais escuro, que indicam o quão menor ou maior é o valor.
Em 1º de abril de 2018, o Nexo publicou este gráfico que mostra como a visualização de dados pode ser utilizada de maneira enganosa (ainda que bem-intencionada). Agora, expandimos a lista com sete outros maus usos de informações em gráficos:
Dados faltantes,
linhas imaginadas
mesmo que faltem dados, linha é contínua
SEM
DADOS
linha é
interrompida
Seja por conta de problemas de coleta de dados, ou pela frequência irregular em que determinados estudos são realizados, é comum encontrar séries históricas interrompidas por dados faltantes. Essa ausência representa uma zona misteriosa: um período sobre o qual não se pode afirmar nada a partir da base de dados.
Nesses casos, muitos gráficos de linha representam esse conjunto ligando os pontos disponíveis da série histórica, como no exemplo acima. Essa representação pode ser enganosa por causar a impressão de que os dados seguiram a variação mostrada na linha, o que não é possível saber.
A prática indicada, no caso de dados faltantes, é ser transparente sobre os momentos em que existem ou não dados, interrompendo a linha onde não há informação ou até mesmo destacando visualmente o período problemático. Caso seja feita uma interpolação de dados, ou seja, se “preencha” o dado faltante com uma suposição, isso deve ser comunicado ao apresentar o gráfico.
Eixos duplos e correlações
escolha dos eixos pode gerar diferentes interpretações dos dados
45
200
40
35
150
30
100
25
20
50
15
10
0
separadas e em suas próprias escalas, as linhas não sugerem uma correlação
35
250
30
200
25
150
20
15
100
10
50
5
0
0
Quando um gráfico de linha apresenta dois eixos verticais, é possível que se interprete uma suposta correlação entre os dados, ainda que não exista na realidade. A escolha dos limites para as escalas dos dois diferentes eixos verticais pode causar essa distorção, mesmo que não intencionalmente.
O ideal, nesses casos, é exibir os dados em dois gráficos separados, cada um com sua própria escala adequada. Isso porque corre-se o risco de induzir à percepção de correlações que na realidade são espúrias, como nestes exemplos, sobretudo se os dados mostrarem a evolução de dados ao longo do tempo.
É importante destacar que, em casos em que essa visualização é utilizada para mostrar duas opções de valores (como, por exemplo, uma mesma linha, mas com temperatura em graus celsius em um eixo e fahrenheit em outro), o uso não é problemático.
Escalas quebradas
5 países com maior inflação
nos últimos 12 meses
EM %
0
20
40
60
80
100
120
140
160
10
milhões
Venezuela
Sudão do S.
Sudão
ainda que seja indicado, quebra de escala não permite visualizar a dimensão da diferença
Irã
Argentina
5 países com maior inflação
nos últimos 12 meses
EM %
0
2 mi
4 mi
6 mi
8 mi
10 milhões
Venezuela
Sudão do S.
EM %
Sudão
0
20
40
60
80
100
Sudão do S.
Irã
Sudão
Irã
Argentina
Argentina
gráfico é exibido em escala, com destaque para as diferenças entre os valores restantes
Em gráficos de barras, é comum que determinado valor seja tão maior do que o restante que ele, sozinho, torne praticamente invisíveis todos os outros. Nessas situações, uma solução que costuma ser adotada é quebrar a escala do valor destoante, o que permitiria observar todas as barras.
Entretanto, essa decisão deve considerar que a real dimensão do valor destoante não será contemplada no gráfico. No exemplo acima, o gráfico sem quebra de escala dá uma dimensão mais dramática da crise inflacionária que a Venezuela enfrenta. Para apresentar ao mesmo tempo os valores destoantes e o restante, existem alternativas, como usar destaques dentro do gráfico, mostrar as informações em gráficos separados, entre outros.
Tomando a parte pelo todo
% de pobres
Cada círculo representa um estado
% de votos no partido X
“Pessoas pobres votam mais no partido X”
% de pobres
% de votos no partido X
“Estados com mais pobres tiveram mais votos no partido X”
Por vezes as situações enganosas vistas em gráficos têm menos a ver com a escolha de visualização utilizada e mais com a conclusão a que o gráfico induz. No exemplo acima, há uma clara correlação positiva entre a porcentagem de votos que o partido X recebeu e o percentual de pessoas pobres em cada estado. Ou seja, quanto mais pobres no estado em relação à sua população total, maior é a votação para aquele partido.
O erro aqui está na conclusão a partir do gráfico, já que ele não fornece evidência suficiente para que se possa fazer a afirmação de que “pessoas pobres votam mais no partido X” — ainda que ela possa ser válida. Isso porque não se sabe em quem cada indivíduo daquele estado votou e qual é o seu rendimento. Assim, é possível, em um cenário hipotético, que sejam os indivíduos ricos dos estados pobres que votaram no partido em questão, e não as pessoas pobres.
Esse exemplo ilustra o que na estatística é chamado de falácia ecológica: a generalização do comportamento de indivíduos a partir do comportamento do grupo.
Áreas ou comprimentos
PIB nominal
EUA
19,4 trilhões
ÁREA:
23,7 mil
pixels
CHINA
12,2 tri
ÁREA:
9,6 mil
JAPÃO
4,8 tri
ÁREA:
1,4 mil
diferença entre as áreas não corresponde à diferença entre os dados
PIB nominal
EUA
19,4 trilhões
ÁREA:
23,7 mil
pixels
CHINA
12,2 tri
ÁREA:
15,8 mil
pixels
JAPÃO
4,8 tri
ÁREA:
6,2 mil
áreas dos objetos na tela refletem os valores dos dados adequadamente
Uma maneira de visualizar dados bastante utilizada é a comparação de tamanhos de diferentes objetos como representação de valores numéricos — círculos ou retângulos costumam ser as formas mais utilizadas nesses gráficos. A pressuposição nesse tipo de visualização é de que quanto maior a área ocupada pela forma geométrica, maior o valor daquele dado.
Entretanto, muitos gráficos desse tipo são desenhados utilizando o valor do dado não na área, mas na largura, altura ou diâmetro da forma geométrica, o que na prática distorce proporção entre as formas. No caso de um quadrado, como no exemplo acima, a área é o produto dos lados. E é essa a medida que deve ser proporcional ao dado que se pretende mostrar.
Observe que o PIB do Japão é cerca de 25% do PIB americano, mas no exemplo enganoso, ainda que o lado do quadrado do Japão seja 25% do lado do quadrado dos EUA, a área de seu quadrado corresponde a apenas 6% da área do quadrado dos EUA. Já no gráfico corrigido, a proporção entre as áreas dos quadrados reflete a proporção entre os tamanhos dos PIBs.
Intervalos suspeitos
atenção para os extremos das categorias
DISTRIBUIÇÃO REAL DOS VALORES
DISTRIBUIÇÃO REAL DOS VALORES
Mapas são muito úteis para representar dados numéricos e geográficos ao mesmo tempo. Um tipo bastante comum é o mapa coroplético, em que a cor de cada unidade do mapa é usada para representar um dado — no caso deste exemplo, a cor representa o tamanho da população de cada estado.
Como a escala cromática usada só possui sete cores, os valores-limite que definem se um estado deve ser colorido de uma cor ou de outra são importantes. Ainda que isso não seja necessariamente mal-intencionado ou enganoso, é importante atentar para esses valores-limite que podem passar despercebidos e alterar a leitura e interpretação de um gráfico.
No geral, é uma boa prática utilizar valores-limite entre as cores que se aproximem da distribuição do dado, de maneira a não deixar quase todas as unidades em uma só cor à revelia da distribuição dos valores e respeitando a distância entre os valores.
Escalas cromáticas
% de pessoas sem religião
Fontes: FMI, IBGE e The World Religion Dataset.
0
10
20
30
40
60
70
s/ dados
vermelho carrega sentido de negatividade
% de pessoas sem religião
0
10
30
40
60
70
20
s/ dados
escala sequencial evita levar a conclusões
Em visualização de dados, cores são importantes não apenas como uma maneira de codificar dados, mas também pelo sentido interpretativo que carregam. No gráfico acima, os países mais religiosos são apresentados com a cor vermelha e os menos religiosos com a cor azul.
Essa escolha de cores pode gerar interpretações errôneas, já que, no geral, vermelho é uma cor associada a algo negativo (pense nas finanças, que estão “no vermelho”), enquanto azul carrega uma associação positiva.
Além disso, o tipo de escala utilizada no exemplo é uma escala divergente, ou seja, um conjunto de cores que tem o azul e o vermelho em cada extremo, com ambas as cores se encontrando no amarelo. Esse tipo de escala é indicado para valores que refletem essa natureza de duas posições extremas (como, por exemplo, um dado de opinião, que vai de “discordo muito” a “concordo muito”, passando pelo “não concordo nem discordo”).
No caso exibido aqui, a escala mais indicada é de uma cor neutra, como o roxo, e sequencial, ou seja, que mantém um mesmo matiz de cor, apenas com incrementos de brilho, do mais claro para o mais escuro, que indicam o quão menor ou maior é o valor.
Fontes: FMI, IBGE e The World Religion Dataset.
ESTAVA ERRADO:Em uma versão anterior deste gráfico, os dados dos mapas de população estavam incorretos. A informação foi corrigida às 13h10 do dia 4 de abril de 2019.
NEWSLETTER GRATUITA
Enviada à noite de segunda a sexta-feira com os fatos mais importantes do dia
Gráficos
O melhor em dados e gráficos selecionados por nosso time de infografia para você
Navegue por temas