Arquivo da tag: Data-driven Journalism

Visualizações de dados concretas

Nas últimas semanas, tive contato com dois projetos artísticos que me levaram a pensar, na falta de termo melhor, nas possibilidades oferecidas por visualizações de dados concretas.

O primeiro projeto se chama Hypotopia e foi criado por estudantes de arquitetura da Technisches Universität de Viena. A proposta era mostrar ao público o significado dos 19 bilhões de euros usados pelo governo austríaco para salvar da falência o banco Hypo Alpe Adria. A solução foi criar uma cidade-modelo para mais de cem mil habitantes, em blocos de concreto e madeira, no centro de Viena.

O cidadão podia caminhar ao largo e por entre os blocos da maquete, que previsa ruas sem carros, sustentabilidade energética e outros benefícios ainda não existentes nas cidades normais, para cujos aprimoramentos os governos alegam jamais ter dinheiro suficiente. O impacto de medir com os próprios olhos, ainda que em escala, poder até mesmo tocar com as mãos, o prejuízo causado à Áustria por um banco irresponsável é certamente maior do que o impacto de um gráfico de barras, ou mesmo uma simulação em vídeo, numa tela de computador. A necessidade de se deslocar até uma praça para desfrutar de Hypotopia, de tomar tempo para apreciá-la, também estabelece uma relação mais reflexiva, talvez, entre o público e a visualização, do que os poucos segundos de atenção dispensados a um gráfico competindo com meia dúzia de notificações numa tela.

Um outro projeto interessante é Dein Erdanteil, apresentado em Berlim pelo artista plástico sueco Nikolaj Cyon. Ele criou um jardim no aeroporto de Tempelhof, onde plantou ervas, verduras e frutos como pepinos e abóboras. O jardim ocupa uma área de 19,75 metros quadrados, o equivalente a 1/100 da área de terra agriculturável disponível por ser humano, conforme dados da FAO.

Obra Dein Erdanteil (2012), de Nikolaj Cyon, em exposição em Berlim. (Reprodução)

Obra Dein Erdanteil (2012), de Nikolaj Cyon, em exposição em Berlim. (Reprodução)

O jardim permite ao público estabelecer uma relação mais direta, mensurável em escala humana, da quantidade de recursos naturais disponíveis para cada um de nós. É fácil multiplicar os cestos de tomates e folhas por 100 e perceber se estamos individualmente abusando, ou não, do espaço que nos foi designado pela mãe natureza.

Embora não tenha observado estas duas obras ao vivo, mas apenas por imagens na Web, seu impacto sobre minha compreensão dos problemas discutidos por ambas foi muito grande. Só posso imaginar qual foi o tamanho de sua influência sobre o público das exposições. Talvez fosse produtivo para a imprensa realizar experimentos nessa linha, mesmo que para serem distribuídos primordialmente em imagens.

Famecos tem grupo de estudos para curso online de introdução ao jornalismo guiado por dados

No dia 19 de maio, começa o MOOC Doing journalism with data, um curso a distância introdutório sobre jornalismo guiado por dados. Entre os professores estão o veterano da Reportagem Assistida por Computador Steve Doig; o antigo editor de dados do Guardian e hoje analista do Twitter, Simon Rogers, autor de Facts are sacred; o infografista Alberto Cairo, autor de The functional art; o professor Paul Bradshaw, autor de Scraping for journalists e de Finding stories with spreadsheets; e Nicolas Kayser-Bril, fundador da agência Journalism++.

O programa inclui:

  • Módulo 1 — Jornalismo guiado por dados na redação
  • Módulo 2 — Encontrando dados para embasar notícias
  • Módulo 3 — Desenvolvendo ideias de pauta com análise de dados
  • Módulo 4 — Como limpar dados bagunçados
  • Módulo 5 — Contando histórias com visualizações

Os inscritos poderão participar do grupo de estudos gratuito organizado por mim na Famecos/PUCRS, em Porto Alegre, a convite da Escola de Dados. O grupo terá quatro encontros ao longo do curso, sempre entre 16 e 19h, em quatro sextas-feiras:

  • 23 de maio
  • 6 de junho
  • 13 de junho
  • 20 de junho

A proposta do grupo de estudos é trocar experiências e tirar dúvidas de forma colaborativa. Isto significa que não vou dar aulas sobre jornalismo guiado por dados, mas oferecer um espaço para as discussões e — tomara! — aprender com os outros participantes.

Os interessados podem entrar em contato pelo correio eletrônico professortrasel [arroba] gmail [ponto] com.

De onde vem a potência do jornalismo guiado por dados?

Em 2011, a jornalista e acadêmica alemã Mercedes Bunz publicou na Berliner Gazette  um resumo de seu artigo “O segredo aberto: sobre a política da verdade no jornalismo de dados”, incluído num livro sobre o WikiLeaks. O texto não se detém muito sobre o caso do WikiLeaks propriamente dito, mas aponta as características principais do jornalismo guiado por dados e suas consequências para a imprensa como um todo.

Para Bunz, o jornalismo guiado por dados se caracteriza por abstrair conhecimento de grandes volumes de dados, levando em conta cinco fatores:

  1. Os dados só preenchem critérios jornalísticos quando é possível obter conhecimento de interesse público a partir dos mesmos;
  2. além disso, é preciso classificar estes dados conforme sua confiabilidade, a partir pergunta “estes dados são confiáveis?”;
  3. assim como montanhas são frequentemente instransponíveis sem mapas, montanhas de dados também o são e o jornalismo deve cumprir seu papel de mediação cartografando-os;
  4. este tipo de jornalismo também se caracteriza pela apresentação visual da informação;
  5. finalmente, a disponibilidade parcial ou total dos dados ao leitor é um aspecto fundamental do jornalismo guiado por dados.

A emergência deste tipo de jornalismo seria um efeito, para Bunz, da digitalização: “Enquanto a industrialização permitiu que o jornalismo atingisse as massas, a digitalização permite que o jornalismo trabalhe com as massas.” Noutras palavras: crowdsourcing. As pessoas, as testemunhas deixam de ser o principal portador de informação para a reportagem e os documentos e meios de comunicação, como as redes sociais, assumem também o papel de fontes legítimas. Noutras palavras: algoritmos. O jornalismo guiado por dados seria também uma reação à crise do jornalismo investigativo, como propõem Lovink e Riemens na quinta de suas doze teses sobre o WikiLeaks.

A autora reconhece que a maioria dos dados divulgados pelo WikiLeaks não traz informação necessariamente nova. Assim como a Papelada do Pentágono não dizia nada de novo sobre a tragédia e o fracasso da Guerra do Vietnã, ninguém que acompanhe a política internacional pode se declarar realmente surpreso com o teor dos relatórios diplomáticos de embaixadas americanas vazados pelo WikiLeaks. Bunz se pergunta, então, de onde vem a força destas duas denúncias, que causaram comoção na imprensa e uma forte reação dos governos envolvidos?

O segredo estaria no caráter mesmo de materiais originais: “O material original é particularmente explosivo, uma força explosiva que ele empresta da realidade, do conhecimento e de sua materialidade.”  Verdade e realidade são termos problemáticos do ponto de vista filosófico, pois algo pode nos parecer verdadeiro ou real sem de fato o ser, podem haver erros em nossa interpretação dos dados disponíveis no mundo. Os dados precisam ser, então, validados através da produção de conhecimento, do método científico:

Na medida em que o material original é verificado, os dados de tornam fatos. Não existem fatos incorretos, no máximo fatos incongruentes, isto é, fatos colocados no lugar errado. O fato, ele não é inverídico, ele não pode ser inverídico, no máximo falsificado — por isso ele precisa ser estabilizado através do conhecimento. A realidade do material original é atestada como genuína e se torna fato através do conhecimento — o segundo momento da força explosiva do material original.

Porém, isso que é atestado pelo processo de validação não é a informação contida no material original, mas a autenticidade do material. Os dados se tornam as testemunhas dos fatos — testemunhas muito melhores do que as humanas, aliás, porque não são mortais e não podem ser pressionados ou assassinados. Seu juízo não se modifica ao longo do tempo. “O material original é caracterizado por três momentos: ele documenta a realidade, é atestado como fato através do conhecimento e, devido à sua materialidade, permanece com substancial tenacidade.”

Bunz encerra o texto com uma discussão sobre o problema da despolitização e a transparência do poder. Ela acredita que o poder segue sendo poder, despolitizado ou não, e que o jornalismo guiado por dados, em sua forma explosiva de apresentação de material original, é uma das formas restantes de se revelar e responsabilizar o poder. Os dados são, hoje, um problema político.

O jornalismo guiado por dados de acordo com Giannina Segnigni

O jornal El País divulgou uma palestra sobre jornalismo guiado por dados proferida pela repórter costa-riquenha Giannina Segnigni. A jornalista recebeu recentemente o prêmio Gabriel García Márquez e é especializada em investigação de tráfico e contrabando.

Segnini divide o jornalismo guiado por dados (JGD) em cinco etapas:

  1. Obtenção dos dados — Por um lado, é preciso conhecer os tipos de formatos e arquivos usados para a armazenagem de dados pelo setor público, para poder fazer pedidos de acesso à informação eficazes. Por outro, é preciso conhecer o marco jurídico que rege o a disponibilidade dos bancos de dados governamentais.
  2. Limpeza dos dados — É essencial, porque dados com ruído inviabilizam ou engendram erros na etapa seguinte, de análise.
  3. Análise dos dados — Para Segnini, esta é a etapa eminentemente jornalística do JGD. Envolve comparar, cruzar e correlacionar dados para encontrar tendências, padrões, comportamentos atípicos e explicações de fenômenos sociais.
  4. Verificação dos dados — O fato de uma base de dados ser produzida por uma instituição pública não garante a consistência da informação. É preciso tratar os dados com ceticismo, como se faz com qualquer outra fonte.
  5. Visualização dos dados — “Entrevistar” os dados e encontrar informação pode não ser suficiente, em geral é preciso apresentar as descobertas de forma atrativa para o leitor.

Durante a palestra, ela critica o que Paul Bradshaw chama de “data porn”: visualizações com muita pirotecnia, mas que não oferecem ao leitor a possibilidade de explorar ou comparar dados, ou mesmo apresentam pouco valor informativo. A seu ver, uma boa peça de JGD não deixa perguntas no ar — porque encontrar respostas é, afinal, o trabalho dos jornalistas — e não deixa o leitor perdido num oceano de dados.

A principal vantagem do JGD para o jornalismo, para Segnini, é a criação de informação inteligente, diferenciada, num mundo em que a maior parte da informação é agregada de terceiros e muito pouco contextualizada.

Ao final, a costa-riquenha lembra o adágio sobre ver o bosque e não se focar nas árvores, para dizer que, com o JGD, é possível ver as duas coisas ao mesmo tempo. O leitor comum pode desfrutar das visualizações, enquanto os nerds podem ter acesso às bases de dados completas e explorá-las por si mesmos. Com isso, aumenta a transparência da reportagem, mas do jornalista passa a ser exigida uma abdicação do controle total sobre a narrativa.

Websites e weblogs dedicados ao jornalismo guiado por dados

Há alguns meses, iniciei uma busca por websites e weblogs cujo foco principal fosse o jornalismo guiado por dados. A tarefa se mostrou bastante mais difícil do que se poderia imaginar. Com o falecimento dos blogrolls, infelizmente, desapareceu a curadoria espontânea produzida pelos autores de weblogs, que até a metade da década de 2000 oferecia conjuntos valiosos de referências sobre todos os assuntos blogáveis — ou seja, N+1 temas existentes no universo.

As ferramentas de busca não foram de grande ajuda, retornando resultados pífios, mesmo com o apoio de operadores lógicos. Muitos websites simplesmente não se apresentam como focados em jornalismo guiado por dados. Por outro lado, como são especializados, terminam soterrados sob o peso do PageRank da Wikipedia, de páginas de grandes universidades e websites generalistas sobre jornalismo na busca orgânica.

A solução foi convocar a coletividade para criar a lista. A partir de uma simples planilha no Google Docs, aberta à edição por qualquer pessoa, a base de dados cresceu de dez para mais de cem registros. Há desde as referências mais óbvias até websites produzidos por gente muito longe dos grandes centros, especialmente América Latina e África.

A planilha foi divulgada na revista Data Driven Journalism e em listas de discussão como as da Abraji. Por sorte, muitos nós importantes no Twitter e Facebook abraçaram a iniciativa. O resultado mostra que o princípio do crowdsourcing pode ser aplicado de maneira bastante simples.

Ao longo das semanas, vários colaboradores fizeram sugestões. A primeira foi esclarecer a licença de uso da planilha, de modo que os participantes tivessem certeza do interesse público deste esforço. Coloquei a planilha sob domínio público. Uma outra sugestão importante foi indicar a linguagem de cada website, porque muitos autores escrevem em inglês, apesar de esta não ser sua língua nativa, e para facilitar a filtragem. Também percebi que muitos colaboradores não tinham uma noção clara do conceito de jornalismo guiado por dados, então incluí na planilha uma referência ao verbete na Wikipedia.

Inicialmente, também havia uma lista em português, mas houve poucas contribuições e muito spam, então ela ficou para trás.