Arquivos da categoria: Jornalismo Guiado por Dados

Nunca deixe de corrigir valores pela inflação

Há pouco mais de uma semana, expliquei por que jamais se deve usar números absolutos para comparar populações de tamanhos muito diferentes. Neste artigo, mostro que deixar de corrigir valores pela inflação, além de ser enganoso, pode fazer um jornalista perder boas manchetes.

Tomem como exemplo esta notícia do Jornal do Comércio de Porto Alegre sobre os investimentos da Secretaria de Educação do Rio Grande do Sul nos primeiros trimestres de 2007 a 2019. A notícia traz a tabela abaixo:

{'nm_midia_inter_thumb1':'https://www.jornaldocomercio.com/_midias/jpg/2019/04/21/206x137/1_fklmsfklmdsf-8697678.jpg', 'id_midia_tipo':'2', 'id_tetag_galer':'', 'id_midia':'5cbd011c77b41', 'cd_midia':8697678, 'ds_midia_link': 'https://www.jornaldocomercio.com/_midias/jpg/2019/04/21/fklmsfklmdsf-8697678.jpg', 'ds_midia': ' ', 'ds_midia_credi': ' ', 'ds_midia_titlo': ' ', 'cd_tetag': '1', 'cd_midia_w': '800', 'cd_midia_h': '365', 'align': 'Left'}

A partir desses números, o repórter afirma que o investimento em educação no primeiro trimestre de 2019 foi o mais baixo em 12 anos, ou seja, o mais baixo da série histórica exceto pelo ano de 2007.

Em nenhum ponto do texto há menção a uma possível correção monetária. No entanto, para verificar se o jornalista havia corrigido os valores pela inflação do período, tentei encontrar os dados no portal de transparência do governo do Estado. Aparentemente, não foi realizada uma correção, se levarmos em conta a coincidência de valores no ano de 2013:

A ausência de correção monetária é um equívoco muito comum de se encontrar no noticiário. É triste, porque muitas vezes se perde a oportunidade de encontrar um furo muito mais interessante. Vejam como ficariam os valores se corrigidos pelo IPCA de março de 2019 — o mesmo índice usado para calcular a meta de inflação do Brasil e por isso o mais adequado para este tipo de operação — usando a Calculadora do Cidadão oferecida pelo Banco Central:

AnoValor nominalValor corrigido
2007R$ 2.781.418,24R$ 5.458.742,18
2008R$ 5.805.877,78R$ 11.018.938,28
2009R$ 8.390.142,22R$ 14.862.879,37
2010R$ 11.740.459,39R$ 19.839.312,40
2011R$ 9.927.122,79R$ 15.823.438,63
2012R$ 6.061.717,00R$ 9.128.217,18
2013R$ 28.522.668,04R$ 40.401.244,04
2014R$ 17.166.732,42R$ 23.009.143,11
2015R$ 13.417.482,59R$ 16.697.870,58
2016R$ 7.885.033,96R$ 8.891.938,60
2017R$ 10.116.905,46R$ 10.890.557,36
2018R$ 5.917.431,89R$ 6.193.745,19
2019R$ 3.492.361,63R$ 3.492.361,63

Agora, vejamos como fica o ranking de maiores investimentos em educação no primeiro trimestre se organizarmos as duas colunas por ano, a partir da ordem decrescente do valor investido:

PosiçãoValor nominalValor corrigido
120132013
220142014
320152010
420102015
520172011
620112009
720092008
820162017
920122012
1020182016
1120082018
1220192007
1320072019

Percebem como vários anos mudam de posição no ranking corrigido?

Ao atualizar os valores nominais encontrados no portal de transparência do Estado, podemos perceber que, na verdade, o investimento em educação no primeiro trimestre de 2019 foi o mais baixo da série histórica. De fato, o investimento neste ano foi 36% menor do que em 2007. Esses números renderiam manchetes muito mais dramáticas.

Além disso, a correção evita a injustiça de se considerar a ex-governadora Yeda Crusius a responsável pelo pior primeiro trimestre na educação.

Um motivo adicional para sempre se corrigir valores monetários é o fato de muitos políticos se aproveitarem da diferença de poder de compra de cada real entre um ano e outro para enrolar a população.

Digamos que um governo tenha investido em janeiro de 2018 R$ 10 milhões em segurança pública e mais R$ 10,3 milhões na mesma área em janeiro de 2019. O governador vai dizer que aumentou os recursos para a segurança de um ano para outro, mas, se corrigirmos o valor antigo pelo IPCA, podemos verificar que apenas para cobrir a inflação e manter o mesmo nível de investimento, o montante atual deveria ser de R$ 10,4 milhões. Na verdade, o Estado estaria investindo menos do que no ano anterior em valores corrigidos.

Jamais compare números absolutos se pode criar uma taxa

Uma das minhas implicâncias favoritas em relação ao jornalismo é a mania de usar números absolutos para comparar populações de tamanhos muito diferentes. É um erro básico e fácil de se evitar na interpretação de números.

Num exemplo recente, o ciberjornal Poder360 reproduziu uma tabela de número de seguidores de diferentes líderes de Estado em redes sociais, a partir de um relatório elaborado pela consultoria Bites, que se apresenta como “data-driven”.

O líder com mais seguidores no Facebook é também o primeiro-ministro do segundo país mais populoso da Terra. A China não permite o uso de Facebook, Twitter e outras redes sociais capitalistas, enquanto a Indonésia não aparece na tabela. O terceiro país mais populoso da Terra, os Estados Unidos, tem seu presidente como segundo do ranking. Já a Turquia é o 19º país mais populoso do planeta e seu presidente ocupa a terceira posição em seguidores nas redes sociais, mesmo sem poder contar com o YouTube.

O leitor mais atento já terá notado que nem mesmo faz sentido somar os seguidores em diferentes redes sociais, uma vez que muitos deles serão duplicados — a mesma pessoa pode seguir o presidente no Twitter e no YouTube –, enquanto outros serão bots.

Além deste problema básico de concepção da análise, resta a comparação entre países de populações muito discrepantes, como Índia e Brasil, fator que pode inserir vários tipos de distorções na informação. A proporção de usuários da Internet é a mesma em todos os países? Os indianos favorecem algum tipo de rede social em detrimento de outras? Os brasileiros são mais aficionados por tecnologia do que os turcos?

A transformação dos números absolutos em taxas pode resolver, pelo menos em parte, essas distorções e o cálculo é muito simples, se tivermos os dados à disposição. Basta dividir o número de eventos pelo tamanho da população e multiplicar por uma unidade padrão, em geral 10.000 ou 100.000 “habitantes”. No caso acima, é preciso dividir o número de seguidores em cada rede social pelo número de usuários totais da mesma rede social num determinado país e depois multiplicar pela unidade padrão, com o que teremos a taxa de seguidores por, digamos, 10.000 usuários.

Usando dados de janeiro de 2019 — e sem preocupação com a fidedignidade dos mesmos — a coluna relativa ao Facebook ficaria assim:

  1. Modi: 14.528 seguidores por 10.000 usuários
  2. Trump: 11.384
  3. Bolsonaro: 7.238
  4. Obrador: 6.715

O ranking não muda, mas enquanto Modi tinha quatro vezes mais seguidores no Facebook do que Bolsonaro na tabela, ele tem apenas o dobro da taxa de seguidores por 10.000 mil usuários da rede social em relação ao presidente brasileiro. O gráfico abaixo mostra como a diferença entre os líderes fica menos dramática quando usamos taxas:

Os exemplos de uso de números absolutos no lugar de taxas abundam no noticiário. Um exemplo é este ranking do total de multas de trânsito no Rio Grande do Sul no ano de 2013 publicado por Zero Hora:

  1. Prefeitura de Porto Alegre – 199.958
  2. Prefeitura Passo Fundo – 24.328
  3. Prefeitura Caxias do Sul – 14.740
  4. Prefeitura Campo Bom – 10.563
  5. Prefeitura Cachoeirinha – 9.850
  6. Prefeitura Rio Grande – 8.798
  7. Prefeitura Canoas – 7.997
  8. Prefeitura São Leopoldo – 7.802

A frota de Porto Alegre em 2016 era de 851.150 veículos, contra 122.582 em Passo Fundo. Neste caso, basta calcular a razão entre um número e outro, sem multiplicar por uma unidade padrão. Se ignorarmos as diferenças de tamanho das frotas entre 2013 e 2016 apenas para fins didáticos, a razão ou média de multas por veículo seria de 0,23 multas na capital, contra 0,19 multas por veículo em Passo Fundo. Já Caxias do Sul, com uma frota de 305.323 veículos, mais do que o dobro da frota de Passo Fundo, teria uma média de multas de apenas 0,04 por veículo. Enquanto isso, Campo Bom, com uma frota de 40.488 veículos, apresentaria uma média de multas de 0,26. O ranking correto das cidades com mais infrações de trânsito, portanto, seria:

  1. Campo Bom – 0,26 multas por veículo
  2. Porto Alegre – 0,23
  3. Passo Fundo – 0,19
  4. Caxias do Sul – 0,04

Amigos não deixam amigos cometerem esse tipo de erro.

Usando SQL Lite para encontrar os desertos de notícias no Brasil

Planilhas eletrônicas resolvem 90% dos casos de análise de dados numa redação jornalística, mas algumas vezes nos deparamos com desafios que, embora pouco complexos, carecem de soluções simples nestes programas.

A comparação entre duas listas de variáveis é um desses casos. Comandos como VLOOKUP, INDEX e MATCH podem ajudar, em especial quando o objetivo é encontrar duplicatas, mas o processo pode ficar complicado se quisermos, por exemplo, descobrir quais ítens de uma lista A estão ausentes de uma lista B.

Usando um programa como DB Browser e a linguagem SQL Lite, porém, é relativamente simples fazer esse tipo de análise.

Digamos, por exemplo, que seja necessário criar uma lista contendo os desertos de notícias do Brasil, a partir do banco de dados do Atlas da Notícia. Embora o projeto gentilmente ofereça uma planilha com os município onde há um jornal impresso ou digital, entre outros dados úteis, não há uma lista de todos os municípios sem nenhuma ocorrência. Como uma das pautas mais interessantes a serem realizadas em cima do Atlas da Notícia é justamente sobre as localidades carentes de imprensa, é útil comparar os municípios com veículos e os sem veículos.

LEFT JOIN

Esse tipo de comparação pode ser realizada com o comando LEFT JOIN na linguagem SQL Lite, desenvolvida especificamente para análise de bancos de dados.

Para isso, você vai precisar do banco de dados do Atlas da Notícia e de uma lista de todos os municípios brasileiros, como esta fornecida pelo IBGE. Vai precisar, também, é claro, de um programa como o DB Browser.

Antes de começar, porém, é preciso verificar se os dados na planilha do IBGE e nas tabelas do Atlas são compatíveis. Abrindo o arquivo “atlas.db” no DB Browser e a tabela “atlas”, que contém os dados completos, podemos verificar a existência de um campo “cidade”. Estes são os municípios nos quais foi informada a existência de pelo menos um jornal impresso ou ciberjornal. No arquivo ZIP do IBGE do ano de 2015, o mais atual, há uma planilha chamada “RELATORIO_DTB_BRASIL_MUNICIPIO”, contendo uma lista de todos os municípios brasileiros na coluna I. Observando ambos os arquivos, podemos perceber um problema: a lista do Atlas registra os nomes dos municípios em caixa alta, enquanto a do IBGE usa nomes capitulados.

Se tentarmos um LEFT JOIN dessa forma, nada será encontrado, porque o SQL Lite é sensível à caixa das letras — ou, pelo menos, não encontrei uma forma de tangenciar essa disparidade. Portanto, o primeiro passo é transformar toda coluna I para caixa alta no Google Spreadsheets, Excel ou algum outro software de sua preferência.

No Google Spreadsheets, basta digitar, na célula J2, a seguinte fórmula:

=UPPER(I:I)

Este comando manda reproduzir, em caixa alta, o que estiver na coluna I. Ao clicar “enter”, o nome da cidade da coluna I deve aparecer em caixa alta na coluna J. Agora, como fazer com o restante dos mais de 5 mil municípios da lista? Basta clicar duas vezes no quadradinho azul que surge ao selecionar a célula J2:

Google Sheets - Comando Upper case

Após verificar se o comando funcionou, baixe a planilha no formato CSV, mude para o DB Browser, vá em Arquivo>Importar>Importar tabela a partir de CSV. Aqui há uma pegadinha: por padrão, o DB Browser buscar arquivos em formato TXT. Portanto, na tela de busca, mude para “todos os arquivos”. Ache o seu CSV e clique em abrir, após o que você será apresentado a uma pré-visualização da tabela. Verifique se os dados estão íntegros — por exemplo, se os acentos estão sendo corretamente interpretados — e, caso não estejam, tente mudar a codificação, que normalmente deveria ser UTF-8.

Agora, com poucas linhas de comando, podemos comparar os municípios nas tabelas “atlas” e “municipiosBR”, para extrair os nomes de todas as localidades brasileiras ausentes da primeira. A imagem abaixo mostra os tipos de JOIN possíveis na linguagem SQL:

Tipos de JOIN SQL

No caso em discussão, queremos um JOIN dos conjuntos A (“municipiosBR”) e B (“atlas”) sem a intersecção de A+B. Noutras palavras, queremos descobrir quais cidades pertencem apenas ao conjunto A (municípios sem veículos de imprensa reportados ao Atlas da Notícia), mas não ao B (municípios com veículos de imprensa reportados ao Atlas da Notícia).

Para realizar esta operação, basta abrir a aba “executar SQL” no DB Browser e digitar a fórmula abaixo:

SELECT atlas.cidade, municipiosBR.field11
 FROM municipiosBR
 LEFT JOIN atlas
 ON cidade = field11
 WHERE atlas.cidade IS NULL;

O comando verifica quais municípios brasileiros segundo a lista do IBGE podem ser encontrados na base de dados do Atlas da Notícia. Os valores não encontrados são classificados como nulos (NULL), então o último comando (WHERE) serve para retornar uma lista só dos valores de A nulos em B. O resultado deve se parecer com a imagem abaixo:

DB Browser LEFT JOIN

Finalmente, basta clicar no ícone azulado logo abaixo da tabela, que parece ser uma página com um disquete sobreposto, para exportar o resultado em formato CSV, o qual pode ser tratado em planilhas eletrônicas. A planilha resultante deste exercício está aqui:

Desertos de notícias no Brasil

O problema, como se pode perceber ao olhar para a planilha, é a ausência de uma informação crucial: a UF de cada município. Uma abordagem possível seria, ao limpar a lista do IBGE, filtrar as localidades pela UF ou região de interesse, salvar uma planilha específica para ela e, então, proceder ao LEFT JOIN. Provavelmente é possível fazer este filtro extra usando comandos SQL, mas para noobs como eu pode ser mais simples fazer assim. Além disso, o formato das colunas referentes à UF é diferente nas duas tabelas, então seria necessário transformar uma delas para as tornar compatíveis.

Erremo – Sobre a cláusula de barreira nas eleições municipais

Divulguei informação equivocada neste weblog a respeito da cláusula de barreira nas eleições municipais.

Ao exemplificar o impacto com dados da eleição de 2012, deixei de levar em conta que o patamar mínimo para um vereador ser eleito não é o quociente eleitoral cheio, dado pelo número de votos válidos divido pelas cadeiras a serem preenchidas, mas 10% do quociente eleitoral. Asseguro aos leitores que já peguei o flagelo ali no armário e tomei as devidas providências.

Percebi o erro relendo as regras instituídas pela Resolução TSE nº 23.456/2015. Usando os resultados das eleições de 2012 para Porto Alegre, disponíveis no repositório de dados do Tribunal Superior Eleitoral, criei uma planilha mostrando como ficaria a situação dos candidatos se fosse aplicada, na época, a regra atual.

Naquele ano, houve 753.729 votos válidos, que, divididos pelas 36 cadeiras da Câmara de Porto Alegre, dão um Quociente Eleitoral (QE) de 20.937. O patamar mínimo de votos para um candidato assumir a vaga seria de 10% do QE, ou seja, 2.094 votos. Na planilha acima, estão marcados em verde os candidatos que teriam ultrapassado a barreira. Como se pode ver, não haveria mudança alguma na composição final da Câmara de Vereadores.

Apesar do equívoco na premissa, segue válida a conclusão anterior de que deixou de ser interessante votar na legenda. Meu exemplo usou o PSOL:

Em 2012, o município de Porto Alegre teve cerca de 800 mil votos válidos. Pela regra atual, caso se mantenha um número próximo a esse de votos válidos, cada vereador deve obter no mínimo uns 20 mil votos para atingir o patamar de barreira. Naquele ano, Pedro Ruas, do PSOL, foi o vereador mais votado, com 14.610 votos. Fernanda Melchionna, também do PSOL, obteve 7.214 votos nominais. A legenda PSOL recebeu 10.415 votos.

Em 2012, estes 10.415 votos na legenda iriam para o lixo, porque o terceiro candidato a vereador mais votado pelo PSOL, Professor Alex Fraga, obteve apenas 1.424 votos. Aliás, provavelmente a própria Fernanda Melchionna não seria eleita e, quem sabe, nem mesmo Pedro Ruas.

Com o cálculo correto, se pode perceber que as vagas de Pedro Ruas e Fernanda Melchionna estariam asseguradas. O Professor Alex Fraga não teria atingido o patamar de barreira, mas não foi eleito de qualquer forma porque o Quociente Partidário (QP) do PSOL deu direito a apenas duas cadeiras para o partido. Por outro lado, se o PSOL tivesse QP suficiente para assumir três vagas, a cadeira do Professor Alex Fraga teria sido repassada a algum outro partido, por insuficiência de votos nominais.

Portanto, renovo a sugestão: faça o que fizer nestas eleições, não vote na legenda.

Salvar

Salvar

Visualizações de dados concretas

Nas últimas semanas, tive contato com dois projetos artísticos que me levaram a pensar, na falta de termo melhor, nas possibilidades oferecidas por visualizações de dados concretas.

O primeiro projeto se chama Hypotopia e foi criado por estudantes de arquitetura da Technisches Universität de Viena. A proposta era mostrar ao público o significado dos 19 bilhões de euros usados pelo governo austríaco para salvar da falência o banco Hypo Alpe Adria. A solução foi criar uma cidade-modelo para mais de cem mil habitantes, em blocos de concreto e madeira, no centro de Viena.

O cidadão podia caminhar ao largo e por entre os blocos da maquete, que previsa ruas sem carros, sustentabilidade energética e outros benefícios ainda não existentes nas cidades normais, para cujos aprimoramentos os governos alegam jamais ter dinheiro suficiente. O impacto de medir com os próprios olhos, ainda que em escala, poder até mesmo tocar com as mãos, o prejuízo causado à Áustria por um banco irresponsável é certamente maior do que o impacto de um gráfico de barras, ou mesmo uma simulação em vídeo, numa tela de computador. A necessidade de se deslocar até uma praça para desfrutar de Hypotopia, de tomar tempo para apreciá-la, também estabelece uma relação mais reflexiva, talvez, entre o público e a visualização, do que os poucos segundos de atenção dispensados a um gráfico competindo com meia dúzia de notificações numa tela.

Um outro projeto interessante é Dein Erdanteil, apresentado em Berlim pelo artista plástico sueco Nikolaj Cyon. Ele criou um jardim no aeroporto de Tempelhof, onde plantou ervas, verduras e frutos como pepinos e abóboras. O jardim ocupa uma área de 19,75 metros quadrados, o equivalente a 1/100 da área de terra agriculturável disponível por ser humano, conforme dados da FAO.

Obra Dein Erdanteil (2012), de Nikolaj Cyon, em exposição em Berlim. (Reprodução)

Obra Dein Erdanteil (2012), de Nikolaj Cyon, em exposição em Berlim. (Reprodução)

O jardim permite ao público estabelecer uma relação mais direta, mensurável em escala humana, da quantidade de recursos naturais disponíveis para cada um de nós. É fácil multiplicar os cestos de tomates e folhas por 100 e perceber se estamos individualmente abusando, ou não, do espaço que nos foi designado pela mãe natureza.

Embora não tenha observado estas duas obras ao vivo, mas apenas por imagens na Web, seu impacto sobre minha compreensão dos problemas discutidos por ambas foi muito grande. Só posso imaginar qual foi o tamanho de sua influência sobre o público das exposições. Talvez fosse produtivo para a imprensa realizar experimentos nessa linha, mesmo que para serem distribuídos primordialmente em imagens.

Como criar um arquivo de tweets no Google Drive

O maior problema do Twitter é a volatilidade do conteúdo. Pesquisadores e jornalistas interessados em compreender ou monitorar um acontecimento a partir dessa rede social precisam contar com um programador para capturarem o conteúdo relevante diretamente através da API em tempo real, ou se contentar com os últimos 1500 tweets oferecidos nas buscas por usuários ou termos.

Mas para tudo há solução na Internet, se a pessoa procurar com boa vontade.

Nos últimos meses, passamos a usar no Editorial J uma gambiarra, aproveitando um script para gerar um fluxo RSS a partir de um widget do Twitter, desenvolvido por Amit Agarwal, e o serviço de automatização IFTTT.

O If This Then That (Se Isso, Então Aquilo) permite combinar conteúdo de diversas fontes em “receitas” que cobrem grande parte das necessidades de jornalistas e pesquisadores. Por exemplo, pode-se definir que todo tweet marcado como favorito será arquivado num documento no DropBox, ou até mesmo controlar lâmpadas inteligentes a partir do horário de nascer e pôr-do-sol de serviços de climatologia. Por alguma razão, entretanto, é pouco conhecido no Brasil. Em termos simples, é uma forma de programar sem saber programar.

Na época do Twitter de raiz, do Twitter arte, ainda era possível usar os fluxos RSS gerados pelas timelines dos usuários, listas e outros recursos e direcioná-los diretamente para uma planilha no Google Drive usando o IFTTT. Desde que o Twitter decidiu se fechar para controlar melhor seus negócios, entretanto, os fluxos RSS foram descontinuados. Então, é necessário contar com a ajuda dos hackers.

Amit Agarwal criou um script que pode ser rodado no Google Drive para capturar tweets. Sua aplicação é simples, embora exija um tanto de atenção. Segue abaixo uma tradução das instruções:

1. Antes de mais nada, registre-se no Twitter e vá para a página de criação de widgets. Crie o filtro que você deseja, como, por exemplo, uma busca por palavra-chave, um widget para uma lista específica de usuários, ou ainda um widget para a sua própria timeline, caso queira arquivar seus tweets.

2. Ao publicar o widget, o Twitter vai gerar um código de incorporação. Neste código, há um atributo “ID”, como no exemplo. Guarde o número após “data-widget-id”:

<a class="twitter-timeline" href="https://twitter.com/hashtag/VOTOJ" data-widget-id="518141229486182400">#VOTOJ Tweets</a><script>!function(d,s,id){var js,fjs=d.getElementsByTagName(s[0],p=/^http:/.test(d.location)?'http':'https';if(!d.getElementById(id)){js=d.createElement(s);js.id=id;js.src=p+"://platform.twitter.com/widgets.js";fjs.parentNode.insertBefore(js,fjs);}}(document,"script","twitter-wjs");</script>

3. Agora, clique neste link para copiar o script de Agarwal em sua conta do Google Drive. Selecione a aba “run” e, depois, “Twitter_RSS”, para autorizar a conexão ao Twitter.

4. Vá até a aba “publish” e escolha “deploy as Web App”, depois clique no botão “save a new version”. Na rubrica “who has access to the app”, defina “anyone, including anonymous”.
Com isso, o Google Script vai gerar uma URL para o aplicativo, semelhante a esta: https://script.google.com/macros/s/ABCD/exec. O trecho “ABCD” vai mudar conforme o seu usuário no Google Drive.

5. Agora, adicione um ponto de interrogação ao final desta URL, seguido pelo ID do widget que você criou no Twitter. No caso do widget acima, ela ficaria mais ou menos assim: https://script.google.com/macros/s/ABCD/exec?518141229486182400.

Assim, você já tem um endereço de fluxo RSS para usar no IFTTT. Se quiser, você pode usar esta receita que nós criamos para o Editorial J. Caso contrário, siga os seguintes passos:

  1. Em “channels”, ative o canal do Google Drive. Você precisará inserir seus dados de login do Google. O canal de RSS deve estar ativado por padrão.
  2. Em “my recipes”, escolha “create recipe”. Clique em “this” e selecione o botão laranja de “feed”. Escolha o “trigger”, ou gatilho, “new feed item”. Cole a URL gerada no processo anterior.
  3. Clique em “that” e escolha o canal do Google Drive. Depois, escolha a “action”, ou ação, “add row to spreadsheet”.
  4. Dê um nome à sua planilha. Em “formatted row”, você pode retirar ou incluir parâmetros. Clicando no ícone azul de garrafa de laboratório, é possível, por exemplo, incluir o autor dos tweets como um dos atributos a serem armazenados. Finalmente, defina uma pasta diferente para a planilha, se quiser.
  5. Clique em “create action” e — voilá! — você agora tem um sistema automatizado de arquivamente de tweets. (Ao menos, até o Twitter decidir mudar a API de novo.)

O IFTTT vai criar planilhas novas automaticamente toda vez que uma delas chegar aos mil registros, então, dependendo do tipo de conteúdo desejado, você pode vir a ter dezenas de planilhas XLS. Depois, basta consolidar tudo um só banco de dados.

Nove regras para identificar besteiras

O astrônomo e divulgador da ciência Carl Sagan escreveu, pouco antes de sua morte nos anos 1990, O mundo assombrado pelos demônios, livro no qual procura mostrar como o raciocínio lógico e procedimentos experimentais adequados podem combater as forças do obscurantismo.

Sagan oferece nove dicas para identificar besteiras, falácias, fraudes e outros tipos de charlatanismo. O “kit de deteção de bobagens” foi pensado por ele para cientistas aplicarem a si mesmos, mas serve bem para jornalistas, especialmente os que se dedicam ao trabalho com dados. Segue uma tradução livre:

  1. Sempre que possível, deve haver confirmação independente dos “fatos”.

  2. Incentive um debate profundo sobre as evidências pelos proponentes especializados, representando todos os pontos de vista.

  3. Argumentos baseados em autoridade têm pouca importância – “autoridades” cometeram erros no passado. Eles vão fazê-lo novamente no futuro. Talvez a melhor maneira de dizer isso é que na ciência não existem autoridades; no máximo, há especialistas.

  4. Conceba mais de uma hipótese. Se há algo a ser explicado, pense em todas as maneiras diferentes em que poderia ser explicado. Então, pense em testes pelos quais você poderia refutar sistematicamente cada uma das alternativas. O que sobreviver, a hipótese que resiste à refutação nesta seleção darwiniana entre “múltiplas hipóteses de trabalho”, tem uma chance muito melhor de ser a resposta certa do que se você tivesse simplesmente executado a primeira idéia que lhe chamou a atenção.

  5. Tente não ficar demasiado ligado a uma hipótese só porque é sua. Ela é apenas uma estação intermediária na busca do conhecimento. Pergunte-se por que você gosta da ideia. Compare-a de forma justa com as alternativas. Procure encontrar razões para rejeitá-la. Se não o fizer, outros o farão.

  6. Quantificar. Se tudo o que você está explicando tem alguma medida, alguma quantidade numérica vinculada, você será muito mais capaz de discriminar entre as hipóteses concorrentes.

  7. O que é vago e qualitativo está aberto a muitas explicações. É claro que há verdades que devem ser buscadas nas muitas questões qualitativas que somos obrigados a enfrentar, mas encontrá-las é mais desafiador.

  8. Se há uma cadeia de argumentos, todos os elos da cadeia devem funcionar (inclusive a premissa) – e não apenas a maioria deles. Navalha de Occam. Esta regra conveniente nos exorta, quando confrontados com duas hipóteses que explicam os dados igualmente bem, em escolher a mais simples.

  9. Sempre pergunte se a hipótese pode ser, pelo menos em princípio, falseada. Proposições que não são testáveis, irrefutáveis, não valem muito. Considere a grande ideia de que nosso Universo e tudo nele é apenas uma partícula elementar – um elétron, por exemplo – num Cosmos muito maior. Mas se nunca pudermos adquirir informações de fora de nosso universo, não é a ideia impassível de refutação? Você deve ser capaz de verificar as afirmações. Céticos inveterados devem ter a oportunidade de seguir o seu raciocínio, para duplicar seus experimentos e ver se eles obtêm o mesmo resultado.

Famecos tem grupo de estudos para curso online de introdução ao jornalismo guiado por dados

No dia 19 de maio, começa o MOOC Doing journalism with data, um curso a distância introdutório sobre jornalismo guiado por dados. Entre os professores estão o veterano da Reportagem Assistida por Computador Steve Doig; o antigo editor de dados do Guardian e hoje analista do Twitter, Simon Rogers, autor de Facts are sacred; o infografista Alberto Cairo, autor de The functional art; o professor Paul Bradshaw, autor de Scraping for journalists e de Finding stories with spreadsheets; e Nicolas Kayser-Bril, fundador da agência Journalism++.

O programa inclui:

  • Módulo 1 — Jornalismo guiado por dados na redação
  • Módulo 2 — Encontrando dados para embasar notícias
  • Módulo 3 — Desenvolvendo ideias de pauta com análise de dados
  • Módulo 4 — Como limpar dados bagunçados
  • Módulo 5 — Contando histórias com visualizações

Os inscritos poderão participar do grupo de estudos gratuito organizado por mim na Famecos/PUCRS, em Porto Alegre, a convite da Escola de Dados. O grupo terá quatro encontros ao longo do curso, sempre entre 16 e 19h, em quatro sextas-feiras:

  • 23 de maio
  • 6 de junho
  • 13 de junho
  • 20 de junho

A proposta do grupo de estudos é trocar experiências e tirar dúvidas de forma colaborativa. Isto significa que não vou dar aulas sobre jornalismo guiado por dados, mas oferecer um espaço para as discussões e — tomara! — aprender com os outros participantes.

Os interessados podem entrar em contato pelo correio eletrônico professortrasel [arroba] gmail [ponto] com.

De onde vem a potência do jornalismo guiado por dados?

Em 2011, a jornalista e acadêmica alemã Mercedes Bunz publicou na Berliner Gazette  um resumo de seu artigo “O segredo aberto: sobre a política da verdade no jornalismo de dados”, incluído num livro sobre o WikiLeaks. O texto não se detém muito sobre o caso do WikiLeaks propriamente dito, mas aponta as características principais do jornalismo guiado por dados e suas consequências para a imprensa como um todo.

Para Bunz, o jornalismo guiado por dados se caracteriza por abstrair conhecimento de grandes volumes de dados, levando em conta cinco fatores:

  1. Os dados só preenchem critérios jornalísticos quando é possível obter conhecimento de interesse público a partir dos mesmos;
  2. além disso, é preciso classificar estes dados conforme sua confiabilidade, a partir pergunta “estes dados são confiáveis?”;
  3. assim como montanhas são frequentemente instransponíveis sem mapas, montanhas de dados também o são e o jornalismo deve cumprir seu papel de mediação cartografando-os;
  4. este tipo de jornalismo também se caracteriza pela apresentação visual da informação;
  5. finalmente, a disponibilidade parcial ou total dos dados ao leitor é um aspecto fundamental do jornalismo guiado por dados.

A emergência deste tipo de jornalismo seria um efeito, para Bunz, da digitalização: “Enquanto a industrialização permitiu que o jornalismo atingisse as massas, a digitalização permite que o jornalismo trabalhe com as massas.” Noutras palavras: crowdsourcing. As pessoas, as testemunhas deixam de ser o principal portador de informação para a reportagem e os documentos e meios de comunicação, como as redes sociais, assumem também o papel de fontes legítimas. Noutras palavras: algoritmos. O jornalismo guiado por dados seria também uma reação à crise do jornalismo investigativo, como propõem Lovink e Riemens na quinta de suas doze teses sobre o WikiLeaks.

A autora reconhece que a maioria dos dados divulgados pelo WikiLeaks não traz informação necessariamente nova. Assim como a Papelada do Pentágono não dizia nada de novo sobre a tragédia e o fracasso da Guerra do Vietnã, ninguém que acompanhe a política internacional pode se declarar realmente surpreso com o teor dos relatórios diplomáticos de embaixadas americanas vazados pelo WikiLeaks. Bunz se pergunta, então, de onde vem a força destas duas denúncias, que causaram comoção na imprensa e uma forte reação dos governos envolvidos?

O segredo estaria no caráter mesmo de materiais originais: “O material original é particularmente explosivo, uma força explosiva que ele empresta da realidade, do conhecimento e de sua materialidade.”  Verdade e realidade são termos problemáticos do ponto de vista filosófico, pois algo pode nos parecer verdadeiro ou real sem de fato o ser, podem haver erros em nossa interpretação dos dados disponíveis no mundo. Os dados precisam ser, então, validados através da produção de conhecimento, do método científico:

Na medida em que o material original é verificado, os dados de tornam fatos. Não existem fatos incorretos, no máximo fatos incongruentes, isto é, fatos colocados no lugar errado. O fato, ele não é inverídico, ele não pode ser inverídico, no máximo falsificado — por isso ele precisa ser estabilizado através do conhecimento. A realidade do material original é atestada como genuína e se torna fato através do conhecimento — o segundo momento da força explosiva do material original.

Porém, isso que é atestado pelo processo de validação não é a informação contida no material original, mas a autenticidade do material. Os dados se tornam as testemunhas dos fatos — testemunhas muito melhores do que as humanas, aliás, porque não são mortais e não podem ser pressionados ou assassinados. Seu juízo não se modifica ao longo do tempo. “O material original é caracterizado por três momentos: ele documenta a realidade, é atestado como fato através do conhecimento e, devido à sua materialidade, permanece com substancial tenacidade.”

Bunz encerra o texto com uma discussão sobre o problema da despolitização e a transparência do poder. Ela acredita que o poder segue sendo poder, despolitizado ou não, e que o jornalismo guiado por dados, em sua forma explosiva de apresentação de material original, é uma das formas restantes de se revelar e responsabilizar o poder. Os dados são, hoje, um problema político.

O jornalismo guiado por dados de acordo com Giannina Segnigni

O jornal El País divulgou uma palestra sobre jornalismo guiado por dados proferida pela repórter costa-riquenha Giannina Segnigni. A jornalista recebeu recentemente o prêmio Gabriel García Márquez e é especializada em investigação de tráfico e contrabando.

Segnini divide o jornalismo guiado por dados (JGD) em cinco etapas:

  1. Obtenção dos dados — Por um lado, é preciso conhecer os tipos de formatos e arquivos usados para a armazenagem de dados pelo setor público, para poder fazer pedidos de acesso à informação eficazes. Por outro, é preciso conhecer o marco jurídico que rege o a disponibilidade dos bancos de dados governamentais.
  2. Limpeza dos dados — É essencial, porque dados com ruído inviabilizam ou engendram erros na etapa seguinte, de análise.
  3. Análise dos dados — Para Segnini, esta é a etapa eminentemente jornalística do JGD. Envolve comparar, cruzar e correlacionar dados para encontrar tendências, padrões, comportamentos atípicos e explicações de fenômenos sociais.
  4. Verificação dos dados — O fato de uma base de dados ser produzida por uma instituição pública não garante a consistência da informação. É preciso tratar os dados com ceticismo, como se faz com qualquer outra fonte.
  5. Visualização dos dados — “Entrevistar” os dados e encontrar informação pode não ser suficiente, em geral é preciso apresentar as descobertas de forma atrativa para o leitor.

Durante a palestra, ela critica o que Paul Bradshaw chama de “data porn”: visualizações com muita pirotecnia, mas que não oferecem ao leitor a possibilidade de explorar ou comparar dados, ou mesmo apresentam pouco valor informativo. A seu ver, uma boa peça de JGD não deixa perguntas no ar — porque encontrar respostas é, afinal, o trabalho dos jornalistas — e não deixa o leitor perdido num oceano de dados.

A principal vantagem do JGD para o jornalismo, para Segnini, é a criação de informação inteligente, diferenciada, num mundo em que a maior parte da informação é agregada de terceiros e muito pouco contextualizada.

Ao final, a costa-riquenha lembra o adágio sobre ver o bosque e não se focar nas árvores, para dizer que, com o JGD, é possível ver as duas coisas ao mesmo tempo. O leitor comum pode desfrutar das visualizações, enquanto os nerds podem ter acesso às bases de dados completas e explorá-las por si mesmos. Com isso, aumenta a transparência da reportagem, mas do jornalista passa a ser exigida uma abdicação do controle total sobre a narrativa.