Arquivo da tag: Data Journalism

Nove regras para identificar besteiras

O astrônomo e divulgador da ciência Carl Sagan escreveu, pouco antes de sua morte nos anos 1990, O mundo assombrado pelos demônios, livro no qual procura mostrar como o raciocínio lógico e procedimentos experimentais adequados podem combater as forças do obscurantismo.

Sagan oferece nove dicas para identificar besteiras, falácias, fraudes e outros tipos de charlatanismo. O “kit de deteção de bobagens” foi pensado por ele para cientistas aplicarem a si mesmos, mas serve bem para jornalistas, especialmente os que se dedicam ao trabalho com dados. Segue uma tradução livre:

  1. Sempre que possível, deve haver confirmação independente dos “fatos”.

  2. Incentive um debate profundo sobre as evidências pelos proponentes especializados, representando todos os pontos de vista.

  3. Argumentos baseados em autoridade têm pouca importância – “autoridades” cometeram erros no passado. Eles vão fazê-lo novamente no futuro. Talvez a melhor maneira de dizer isso é que na ciência não existem autoridades; no máximo, há especialistas.

  4. Conceba mais de uma hipótese. Se há algo a ser explicado, pense em todas as maneiras diferentes em que poderia ser explicado. Então, pense em testes pelos quais você poderia refutar sistematicamente cada uma das alternativas. O que sobreviver, a hipótese que resiste à refutação nesta seleção darwiniana entre “múltiplas hipóteses de trabalho”, tem uma chance muito melhor de ser a resposta certa do que se você tivesse simplesmente executado a primeira idéia que lhe chamou a atenção.

  5. Tente não ficar demasiado ligado a uma hipótese só porque é sua. Ela é apenas uma estação intermediária na busca do conhecimento. Pergunte-se por que você gosta da ideia. Compare-a de forma justa com as alternativas. Procure encontrar razões para rejeitá-la. Se não o fizer, outros o farão.

  6. Quantificar. Se tudo o que você está explicando tem alguma medida, alguma quantidade numérica vinculada, você será muito mais capaz de discriminar entre as hipóteses concorrentes.

  7. O que é vago e qualitativo está aberto a muitas explicações. É claro que há verdades que devem ser buscadas nas muitas questões qualitativas que somos obrigados a enfrentar, mas encontrá-las é mais desafiador.

  8. Se há uma cadeia de argumentos, todos os elos da cadeia devem funcionar (inclusive a premissa) – e não apenas a maioria deles. Navalha de Occam. Esta regra conveniente nos exorta, quando confrontados com duas hipóteses que explicam os dados igualmente bem, em escolher a mais simples.

  9. Sempre pergunte se a hipótese pode ser, pelo menos em princípio, falseada. Proposições que não são testáveis, irrefutáveis, não valem muito. Considere a grande ideia de que nosso Universo e tudo nele é apenas uma partícula elementar – um elétron, por exemplo – num Cosmos muito maior. Mas se nunca pudermos adquirir informações de fora de nosso universo, não é a ideia impassível de refutação? Você deve ser capaz de verificar as afirmações. Céticos inveterados devem ter a oportunidade de seguir o seu raciocínio, para duplicar seus experimentos e ver se eles obtêm o mesmo resultado.

De onde vem a potência do jornalismo guiado por dados?

Em 2011, a jornalista e acadêmica alemã Mercedes Bunz publicou na Berliner Gazette  um resumo de seu artigo “O segredo aberto: sobre a política da verdade no jornalismo de dados”, incluído num livro sobre o WikiLeaks. O texto não se detém muito sobre o caso do WikiLeaks propriamente dito, mas aponta as características principais do jornalismo guiado por dados e suas consequências para a imprensa como um todo.

Para Bunz, o jornalismo guiado por dados se caracteriza por abstrair conhecimento de grandes volumes de dados, levando em conta cinco fatores:

  1. Os dados só preenchem critérios jornalísticos quando é possível obter conhecimento de interesse público a partir dos mesmos;
  2. além disso, é preciso classificar estes dados conforme sua confiabilidade, a partir pergunta “estes dados são confiáveis?”;
  3. assim como montanhas são frequentemente instransponíveis sem mapas, montanhas de dados também o são e o jornalismo deve cumprir seu papel de mediação cartografando-os;
  4. este tipo de jornalismo também se caracteriza pela apresentação visual da informação;
  5. finalmente, a disponibilidade parcial ou total dos dados ao leitor é um aspecto fundamental do jornalismo guiado por dados.

A emergência deste tipo de jornalismo seria um efeito, para Bunz, da digitalização: “Enquanto a industrialização permitiu que o jornalismo atingisse as massas, a digitalização permite que o jornalismo trabalhe com as massas.” Noutras palavras: crowdsourcing. As pessoas, as testemunhas deixam de ser o principal portador de informação para a reportagem e os documentos e meios de comunicação, como as redes sociais, assumem também o papel de fontes legítimas. Noutras palavras: algoritmos. O jornalismo guiado por dados seria também uma reação à crise do jornalismo investigativo, como propõem Lovink e Riemens na quinta de suas doze teses sobre o WikiLeaks.

A autora reconhece que a maioria dos dados divulgados pelo WikiLeaks não traz informação necessariamente nova. Assim como a Papelada do Pentágono não dizia nada de novo sobre a tragédia e o fracasso da Guerra do Vietnã, ninguém que acompanhe a política internacional pode se declarar realmente surpreso com o teor dos relatórios diplomáticos de embaixadas americanas vazados pelo WikiLeaks. Bunz se pergunta, então, de onde vem a força destas duas denúncias, que causaram comoção na imprensa e uma forte reação dos governos envolvidos?

O segredo estaria no caráter mesmo de materiais originais: “O material original é particularmente explosivo, uma força explosiva que ele empresta da realidade, do conhecimento e de sua materialidade.”  Verdade e realidade são termos problemáticos do ponto de vista filosófico, pois algo pode nos parecer verdadeiro ou real sem de fato o ser, podem haver erros em nossa interpretação dos dados disponíveis no mundo. Os dados precisam ser, então, validados através da produção de conhecimento, do método científico:

Na medida em que o material original é verificado, os dados de tornam fatos. Não existem fatos incorretos, no máximo fatos incongruentes, isto é, fatos colocados no lugar errado. O fato, ele não é inverídico, ele não pode ser inverídico, no máximo falsificado — por isso ele precisa ser estabilizado através do conhecimento. A realidade do material original é atestada como genuína e se torna fato através do conhecimento — o segundo momento da força explosiva do material original.

Porém, isso que é atestado pelo processo de validação não é a informação contida no material original, mas a autenticidade do material. Os dados se tornam as testemunhas dos fatos — testemunhas muito melhores do que as humanas, aliás, porque não são mortais e não podem ser pressionados ou assassinados. Seu juízo não se modifica ao longo do tempo. “O material original é caracterizado por três momentos: ele documenta a realidade, é atestado como fato através do conhecimento e, devido à sua materialidade, permanece com substancial tenacidade.”

Bunz encerra o texto com uma discussão sobre o problema da despolitização e a transparência do poder. Ela acredita que o poder segue sendo poder, despolitizado ou não, e que o jornalismo guiado por dados, em sua forma explosiva de apresentação de material original, é uma das formas restantes de se revelar e responsabilizar o poder. Os dados são, hoje, um problema político.

O jornalismo guiado por dados de acordo com Giannina Segnigni

O jornal El País divulgou uma palestra sobre jornalismo guiado por dados proferida pela repórter costa-riquenha Giannina Segnigni. A jornalista recebeu recentemente o prêmio Gabriel García Márquez e é especializada em investigação de tráfico e contrabando.

Segnini divide o jornalismo guiado por dados (JGD) em cinco etapas:

  1. Obtenção dos dados — Por um lado, é preciso conhecer os tipos de formatos e arquivos usados para a armazenagem de dados pelo setor público, para poder fazer pedidos de acesso à informação eficazes. Por outro, é preciso conhecer o marco jurídico que rege o a disponibilidade dos bancos de dados governamentais.
  2. Limpeza dos dados — É essencial, porque dados com ruído inviabilizam ou engendram erros na etapa seguinte, de análise.
  3. Análise dos dados — Para Segnini, esta é a etapa eminentemente jornalística do JGD. Envolve comparar, cruzar e correlacionar dados para encontrar tendências, padrões, comportamentos atípicos e explicações de fenômenos sociais.
  4. Verificação dos dados — O fato de uma base de dados ser produzida por uma instituição pública não garante a consistência da informação. É preciso tratar os dados com ceticismo, como se faz com qualquer outra fonte.
  5. Visualização dos dados — “Entrevistar” os dados e encontrar informação pode não ser suficiente, em geral é preciso apresentar as descobertas de forma atrativa para o leitor.

Durante a palestra, ela critica o que Paul Bradshaw chama de “data porn”: visualizações com muita pirotecnia, mas que não oferecem ao leitor a possibilidade de explorar ou comparar dados, ou mesmo apresentam pouco valor informativo. A seu ver, uma boa peça de JGD não deixa perguntas no ar — porque encontrar respostas é, afinal, o trabalho dos jornalistas — e não deixa o leitor perdido num oceano de dados.

A principal vantagem do JGD para o jornalismo, para Segnini, é a criação de informação inteligente, diferenciada, num mundo em que a maior parte da informação é agregada de terceiros e muito pouco contextualizada.

Ao final, a costa-riquenha lembra o adágio sobre ver o bosque e não se focar nas árvores, para dizer que, com o JGD, é possível ver as duas coisas ao mesmo tempo. O leitor comum pode desfrutar das visualizações, enquanto os nerds podem ter acesso às bases de dados completas e explorá-las por si mesmos. Com isso, aumenta a transparência da reportagem, mas do jornalista passa a ser exigida uma abdicação do controle total sobre a narrativa.

Websites e weblogs dedicados ao jornalismo guiado por dados

Há alguns meses, iniciei uma busca por websites e weblogs cujo foco principal fosse o jornalismo guiado por dados. A tarefa se mostrou bastante mais difícil do que se poderia imaginar. Com o falecimento dos blogrolls, infelizmente, desapareceu a curadoria espontânea produzida pelos autores de weblogs, que até a metade da década de 2000 oferecia conjuntos valiosos de referências sobre todos os assuntos blogáveis — ou seja, N+1 temas existentes no universo.

As ferramentas de busca não foram de grande ajuda, retornando resultados pífios, mesmo com o apoio de operadores lógicos. Muitos websites simplesmente não se apresentam como focados em jornalismo guiado por dados. Por outro lado, como são especializados, terminam soterrados sob o peso do PageRank da Wikipedia, de páginas de grandes universidades e websites generalistas sobre jornalismo na busca orgânica.

A solução foi convocar a coletividade para criar a lista. A partir de uma simples planilha no Google Docs, aberta à edição por qualquer pessoa, a base de dados cresceu de dez para mais de cem registros. Há desde as referências mais óbvias até websites produzidos por gente muito longe dos grandes centros, especialmente América Latina e África.

A planilha foi divulgada na revista Data Driven Journalism e em listas de discussão como as da Abraji. Por sorte, muitos nós importantes no Twitter e Facebook abraçaram a iniciativa. O resultado mostra que o princípio do crowdsourcing pode ser aplicado de maneira bastante simples.

Ao longo das semanas, vários colaboradores fizeram sugestões. A primeira foi esclarecer a licença de uso da planilha, de modo que os participantes tivessem certeza do interesse público deste esforço. Coloquei a planilha sob domínio público. Uma outra sugestão importante foi indicar a linguagem de cada website, porque muitos autores escrevem em inglês, apesar de esta não ser sua língua nativa, e para facilitar a filtragem. Também percebi que muitos colaboradores não tinham uma noção clara do conceito de jornalismo guiado por dados, então incluí na planilha uma referência ao verbete na Wikipedia.

Inicialmente, também havia uma lista em português, mas houve poucas contribuições e muito spam, então ela ficou para trás.