Arquivo da tag: estatística

O noticiário apresenta estatísticas de modo simplório

A manchete do jornal Zero Hora de 10 de setembro é alarmante:

É de fato motivo para alarme a possibilidade de uma interpretação totalmente equivocada de números passar por todo o processo editorial de um diário tradicional e relevante como a Zero Hora e acabar na manchete. Infelizmente, o jornal em questão não é o único a tratar dados e estatísticas de maneira simplória no Brasil.

O leitor mais atento já terá percebido um dos problemas à primeira vista: seria de se esperar a ocorrência de mais mortes em trechos de pista simples das rodovias, porque a proporção de rodovias duplicadas é muito baixa no Rio Grande do Sul. Conforme a própria reportagem:

O Estado conta com apenas 623 quilômetros de rodovias de pista dupla, segundo dados da última pesquisa da Confederação Nacional do Transporte (CNT), divulgada em 2018. A soma representa somente 7,1% dos 8.855 quilômetros avaliados pelo órgão em solo gaúcho.

Se as rodovias duplicadas representam apenas 7,1% do total, seria improvável elas concentrarem uma proporção muito alta das mortes em acidentes automobilísticos. O fato de 84% das mortes ocorrerem nas estradas de pista simples não oferece nenhuma informação relevante ao leitor. A manchete está, no mínimo, mal redigida. Porém, ela está errada? A resposta a essa pergunta exigiria uma análise que não tenho condições de realizar no momento, mas posso das algumas indicações.

Em primeiro lugar, os números apresentados pela reportagem são irrelevantes, porque comparam maçãs com bananas. Uma rodovia só é passível de duplicação quando está saturada, ou seja, quando um número muito alto de carros transitam nela. Muitas das rodovias de pista simples são pouco usadas. A probabilidade de acidentes aumenta junto com o número de veículos transitando. Uma estrada na qual circulam 20 mil veículos por dia não pode ser comparada a outra na qual circulam apenas mil sem algum ajuste matemático, assim como não podemos comparar o número absoluto de homicídios de municípios com populações tão desproporcionais quanto Porto Alegre e Cacique Doble.

Uma abordagem mais sensata para saber se morrem mais pessoas em rodovias de pista simples ou nas duplicadas é criar uma taxa de mortes por veículo. O levantamento mais recente do Volume Diário Médio (VDM) de tráfego nas estradas gaúchas oferecido pelo DAER é de 2017. Com esses dados, é possível criar uma taxa de mortes para mil ou 10 mil veículos por rodovia e comparar a taxa média das duplicadas com a das não duplicadas. Infelizmente, os relatórios do DAER estão em formato PDF, o que torna a análise muito trabalhosa.

Além disso, no relatório do DAER as rodovias estão divididas em trechos e nem todas têm o VDM medido. Com sorte, os trechos das estradas de pista simples onde ocorrem mortes merecem mais interesse do Estado e têm seus VDMs medidos, caso contrário seria necessário realizar ainda outro ajuste — talvez extrapolando as mortes por quilômetro para o número de quilômetros totais existentes, ou algo do gênero. Também seria necessário descobrir os trechos exatos de cada morte. Como não há dados consolidados à mão e os disponíveis são uma bagunça, é complicado fazer essa análise.

Embora as taxas calculadas dessa maneira oferecessem uma aproximação maior à realidade do que a comparação de números absolutos ou porcentagens, ainda seria necessário confirmar se a principal variável para a ocorrência de acidentes fatais é a presença ou ausência de duplicação na pista. Embora seja um fator importante, ele não é isolado, pois em geral as rodovias duplicadas recebem mais investimentos e maior atenção à manutenção do que estradas de pista simples nos grotões do estado. Talvez uma taxa de mortalidade mais alta nas rodovias sem duplicação, caso verificada, pudesse ser explicada por outros fatores, como a má qualidade da sinalização ou do asfalto. Ou, se verificada uma taxa de mortalidade maior nas rodovias duplicadas, ela talvez pudesse ser explicada pela velocidade média mais alta dos veículos. Ou, ainda, a mortalidade poderia ser explicada por variáveis sem relação alguma com a rodovia, como o nível de álcool no sangue do condutor.

Se alguma das considerações acima foi levada em conta, a reportagem de capa da Zero Hora não informa. Em todo caso, estatísticas costumam descrever fenômenos complexos e o jornalismo é avesso à complexidade. O resultado é vermos com frequência os números apresentados por instituições públicas tomados por seu valor de face.

Jamais compare números absolutos se pode criar uma taxa

Uma das minhas implicâncias favoritas em relação ao jornalismo é a mania de usar números absolutos para comparar populações de tamanhos muito diferentes. É um erro básico e fácil de se evitar na interpretação de números.

Num exemplo recente, o ciberjornal Poder360 reproduziu uma tabela de número de seguidores de diferentes líderes de Estado em redes sociais, a partir de um relatório elaborado pela consultoria Bites, que se apresenta como “data-driven”.

O líder com mais seguidores no Facebook é também o primeiro-ministro do segundo país mais populoso da Terra. A China não permite o uso de Facebook, Twitter e outras redes sociais capitalistas, enquanto a Indonésia não aparece na tabela. O terceiro país mais populoso da Terra, os Estados Unidos, tem seu presidente como segundo do ranking. Já a Turquia é o 19º país mais populoso do planeta e seu presidente ocupa a terceira posição em seguidores nas redes sociais, mesmo sem poder contar com o YouTube.

O leitor mais atento já terá notado que nem mesmo faz sentido somar os seguidores em diferentes redes sociais, uma vez que muitos deles serão duplicados — a mesma pessoa pode seguir o presidente no Twitter e no YouTube –, enquanto outros serão bots.

Além deste problema básico de concepção da análise, resta a comparação entre países de populações muito discrepantes, como Índia e Brasil, fator que pode inserir vários tipos de distorções na informação. A proporção de usuários da Internet é a mesma em todos os países? Os indianos favorecem algum tipo de rede social em detrimento de outras? Os brasileiros são mais aficionados por tecnologia do que os turcos?

A transformação dos números absolutos em taxas pode resolver, pelo menos em parte, essas distorções e o cálculo é muito simples, se tivermos os dados à disposição. Basta dividir o número de eventos pelo tamanho da população e multiplicar por uma unidade padrão, em geral 10.000 ou 100.000 “habitantes”. No caso acima, é preciso dividir o número de seguidores em cada rede social pelo número de usuários totais da mesma rede social num determinado país e depois multiplicar pela unidade padrão, com o que teremos a taxa de seguidores por, digamos, 10.000 usuários.

Usando dados de janeiro de 2019 — e sem preocupação com a fidedignidade dos mesmos — a coluna relativa ao Facebook ficaria assim:

  1. Modi: 14.528 seguidores por 10.000 usuários
  2. Trump: 11.384
  3. Bolsonaro: 7.238
  4. Obrador: 6.715

O ranking não muda, mas enquanto Modi tinha quatro vezes mais seguidores no Facebook do que Bolsonaro na tabela, ele tem apenas o dobro da taxa de seguidores por 10.000 mil usuários da rede social em relação ao presidente brasileiro. O gráfico abaixo mostra como a diferença entre os líderes fica menos dramática quando usamos taxas:

Os exemplos de uso de números absolutos no lugar de taxas abundam no noticiário. Um exemplo é este ranking do total de multas de trânsito no Rio Grande do Sul no ano de 2013 publicado por Zero Hora:

  1. Prefeitura de Porto Alegre – 199.958
  2. Prefeitura Passo Fundo – 24.328
  3. Prefeitura Caxias do Sul – 14.740
  4. Prefeitura Campo Bom – 10.563
  5. Prefeitura Cachoeirinha – 9.850
  6. Prefeitura Rio Grande – 8.798
  7. Prefeitura Canoas – 7.997
  8. Prefeitura São Leopoldo – 7.802

A frota de Porto Alegre em 2016 era de 851.150 veículos, contra 122.582 em Passo Fundo. Neste caso, basta calcular a razão entre um número e outro, sem multiplicar por uma unidade padrão. Se ignorarmos as diferenças de tamanho das frotas entre 2013 e 2016 apenas para fins didáticos, a razão ou média de multas por veículo seria de 0,23 multas na capital, contra 0,19 multas por veículo em Passo Fundo. Já Caxias do Sul, com uma frota de 305.323 veículos, mais do que o dobro da frota de Passo Fundo, teria uma média de multas de apenas 0,04 por veículo. Enquanto isso, Campo Bom, com uma frota de 40.488 veículos, apresentaria uma média de multas de 0,26. O ranking correto das cidades com mais infrações de trânsito, portanto, seria:

  1. Campo Bom – 0,26 multas por veículo
  2. Porto Alegre – 0,23
  3. Passo Fundo – 0,19
  4. Caxias do Sul – 0,04

Amigos não deixam amigos cometerem esse tipo de erro.