Arquivos da categoria: Jornalismo Guiado por Dados

Erremo – Sobre a cláusula de barreira nas eleições municipais

Divulguei informação equivocada neste weblog a respeito da cláusula de barreira nas eleições municipais.

Ao exemplificar o impacto com dados da eleição de 2012, deixei de levar em conta que o patamar mínimo para um vereador ser eleito não é o quociente eleitoral cheio, dado pelo número de votos válidos divido pelas cadeiras a serem preenchidas, mas 10% do quociente eleitoral. Asseguro aos leitores que já peguei o flagelo ali no armário e tomei as devidas providências.

Percebi o erro relendo as regras instituídas pela Resolução TSE nº 23.456/2015. Usando os resultados das eleições de 2012 para Porto Alegre, disponíveis no repositório de dados do Tribunal Superior Eleitoral, criei uma planilha mostrando como ficaria a situação dos candidatos se fosse aplicada, na época, a regra atual.

Naquele ano, houve 753.729 votos válidos, que, divididos pelas 36 cadeiras da Câmara de Porto Alegre, dão um Quociente Eleitoral (QE) de 20.937. O patamar mínimo de votos para um candidato assumir a vaga seria de 10% do QE, ou seja, 2.094 votos. Na planilha acima, estão marcados em verde os candidatos que teriam ultrapassado a barreira. Como se pode ver, não haveria mudança alguma na composição final da Câmara de Vereadores.

Apesar do equívoco na premissa, segue válida a conclusão anterior de que deixou de ser interessante votar na legenda. Meu exemplo usou o PSOL:

Em 2012, o município de Porto Alegre teve cerca de 800 mil votos válidos. Pela regra atual, caso se mantenha um número próximo a esse de votos válidos, cada vereador deve obter no mínimo uns 20 mil votos para atingir o patamar de barreira. Naquele ano, Pedro Ruas, do PSOL, foi o vereador mais votado, com 14.610 votos. Fernanda Melchionna, também do PSOL, obteve 7.214 votos nominais. A legenda PSOL recebeu 10.415 votos.

Em 2012, estes 10.415 votos na legenda iriam para o lixo, porque o terceiro candidato a vereador mais votado pelo PSOL, Professor Alex Fraga, obteve apenas 1.424 votos. Aliás, provavelmente a própria Fernanda Melchionna não seria eleita e, quem sabe, nem mesmo Pedro Ruas.

Com o cálculo correto, se pode perceber que as vagas de Pedro Ruas e Fernanda Melchionna estariam asseguradas. O Professor Alex Fraga não teria atingido o patamar de barreira, mas não foi eleito de qualquer forma porque o Quociente Partidário (QP) do PSOL deu direito a apenas duas cadeiras para o partido. Por outro lado, se o PSOL tivesse QP suficiente para assumir três vagas, a cadeira do Professor Alex Fraga teria sido repassada a algum outro partido, por insuficiência de votos nominais.

Portanto, renovo a sugestão: faça o que fizer nestas eleições, não vote na legenda.

Salvar

Salvar

Visualizações de dados concretas

Nas últimas semanas, tive contato com dois projetos artísticos que me levaram a pensar, na falta de termo melhor, nas possibilidades oferecidas por visualizações de dados concretas.

O primeiro projeto se chama Hypotopia e foi criado por estudantes de arquitetura da Technisches Universität de Viena. A proposta era mostrar ao público o significado dos 19 bilhões de euros usados pelo governo austríaco para salvar da falência o banco Hypo Alpe Adria. A solução foi criar uma cidade-modelo para mais de cem mil habitantes, em blocos de concreto e madeira, no centro de Viena.

O cidadão podia caminhar ao largo e por entre os blocos da maquete, que previsa ruas sem carros, sustentabilidade energética e outros benefícios ainda não existentes nas cidades normais, para cujos aprimoramentos os governos alegam jamais ter dinheiro suficiente. O impacto de medir com os próprios olhos, ainda que em escala, poder até mesmo tocar com as mãos, o prejuízo causado à Áustria por um banco irresponsável é certamente maior do que o impacto de um gráfico de barras, ou mesmo uma simulação em vídeo, numa tela de computador. A necessidade de se deslocar até uma praça para desfrutar de Hypotopia, de tomar tempo para apreciá-la, também estabelece uma relação mais reflexiva, talvez, entre o público e a visualização, do que os poucos segundos de atenção dispensados a um gráfico competindo com meia dúzia de notificações numa tela.

Um outro projeto interessante é Dein Erdanteil, apresentado em Berlim pelo artista plástico sueco Nikolaj Cyon. Ele criou um jardim no aeroporto de Tempelhof, onde plantou ervas, verduras e frutos como pepinos e abóboras. O jardim ocupa uma área de 19,75 metros quadrados, o equivalente a 1/100 da área de terra agriculturável disponível por ser humano, conforme dados da FAO.

Obra Dein Erdanteil (2012), de Nikolaj Cyon, em exposição em Berlim. (Reprodução)

Obra Dein Erdanteil (2012), de Nikolaj Cyon, em exposição em Berlim. (Reprodução)

O jardim permite ao público estabelecer uma relação mais direta, mensurável em escala humana, da quantidade de recursos naturais disponíveis para cada um de nós. É fácil multiplicar os cestos de tomates e folhas por 100 e perceber se estamos individualmente abusando, ou não, do espaço que nos foi designado pela mãe natureza.

Embora não tenha observado estas duas obras ao vivo, mas apenas por imagens na Web, seu impacto sobre minha compreensão dos problemas discutidos por ambas foi muito grande. Só posso imaginar qual foi o tamanho de sua influência sobre o público das exposições. Talvez fosse produtivo para a imprensa realizar experimentos nessa linha, mesmo que para serem distribuídos primordialmente em imagens.

Como criar um arquivo de tweets no Google Drive

O maior problema do Twitter é a volatilidade do conteúdo. Pesquisadores e jornalistas interessados em compreender ou monitorar um acontecimento a partir dessa rede social precisam contar com um programador para capturarem o conteúdo relevante diretamente através da API em tempo real, ou se contentar com os últimos 1500 tweets oferecidos nas buscas por usuários ou termos.

Mas para tudo há solução na Internet, se a pessoa procurar com boa vontade.

Nos últimos meses, passamos a usar no Editorial J uma gambiarra, aproveitando um script para gerar um fluxo RSS a partir de um widget do Twitter, desenvolvido por Amit Agarwal, e o serviço de automatização IFTTT.

O If This Then That (Se Isso, Então Aquilo) permite combinar conteúdo de diversas fontes em “receitas” que cobrem grande parte das necessidades de jornalistas e pesquisadores. Por exemplo, pode-se definir que todo tweet marcado como favorito será arquivado num documento no DropBox, ou até mesmo controlar lâmpadas inteligentes a partir do horário de nascer e pôr-do-sol de serviços de climatologia. Por alguma razão, entretanto, é pouco conhecido no Brasil. Em termos simples, é uma forma de programar sem saber programar.

Na época do Twitter de raiz, do Twitter arte, ainda era possível usar os fluxos RSS gerados pelas timelines dos usuários, listas e outros recursos e direcioná-los diretamente para uma planilha no Google Drive usando o IFTTT. Desde que o Twitter decidiu se fechar para controlar melhor seus negócios, entretanto, os fluxos RSS foram descontinuados. Então, é necessário contar com a ajuda dos hackers.

Amit Agarwal criou um script que pode ser rodado no Google Drive para capturar tweets. Sua aplicação é simples, embora exija um tanto de atenção. Segue abaixo uma tradução das instruções:

1. Antes de mais nada, registre-se no Twitter e vá para a página de criação de widgets. Crie o filtro que você deseja, como, por exemplo, uma busca por palavra-chave, um widget para uma lista específica de usuários, ou ainda um widget para a sua própria timeline, caso queira arquivar seus tweets.

2. Ao publicar o widget, o Twitter vai gerar um código de incorporação. Neste código, há um atributo “ID”, como no exemplo. Guarde o número após “data-widget-id”:

<a class="twitter-timeline" href="https://twitter.com/hashtag/VOTOJ" data-widget-id="518141229486182400">#VOTOJ Tweets</a><script>!function(d,s,id){var js,fjs=d.getElementsByTagName(s[0],p=/^http:/.test(d.location)?'http':'https';if(!d.getElementById(id)){js=d.createElement(s);js.id=id;js.src=p+"://platform.twitter.com/widgets.js";fjs.parentNode.insertBefore(js,fjs);}}(document,"script","twitter-wjs");</script>

3. Agora, clique neste link para copiar o script de Agarwal em sua conta do Google Drive. Selecione a aba “run” e, depois, “Twitter_RSS”, para autorizar a conexão ao Twitter.

4. Vá até a aba “publish” e escolha “deploy as Web App”, depois clique no botão “save a new version”. Na rubrica “who has access to the app”, defina “anyone, including anonymous”.
Com isso, o Google Script vai gerar uma URL para o aplicativo, semelhante a esta: https://script.google.com/macros/s/ABCD/exec. O trecho “ABCD” vai mudar conforme o seu usuário no Google Drive.

5. Agora, adicione um ponto de interrogação ao final desta URL, seguido pelo ID do widget que você criou no Twitter. No caso do widget acima, ela ficaria mais ou menos assim: https://script.google.com/macros/s/ABCD/exec?518141229486182400.

Assim, você já tem um endereço de fluxo RSS para usar no IFTTT. Se quiser, você pode usar esta receita que nós criamos para o Editorial J. Caso contrário, siga os seguintes passos:

  1. Em “channels”, ative o canal do Google Drive. Você precisará inserir seus dados de login do Google. O canal de RSS deve estar ativado por padrão.
  2. Em “my recipes”, escolha “create recipe”. Clique em “this” e selecione o botão laranja de “feed”. Escolha o “trigger”, ou gatilho, “new feed item”. Cole a URL gerada no processo anterior.
  3. Clique em “that” e escolha o canal do Google Drive. Depois, escolha a “action”, ou ação, “add row to spreadsheet”.
  4. Dê um nome à sua planilha. Em “formatted row”, você pode retirar ou incluir parâmetros. Clicando no ícone azul de garrafa de laboratório, é possível, por exemplo, incluir o autor dos tweets como um dos atributos a serem armazenados. Finalmente, defina uma pasta diferente para a planilha, se quiser.
  5. Clique em “create action” e — voilá! – você agora tem um sistema automatizado de arquivamente de tweets. (Ao menos, até o Twitter decidir mudar a API de novo.)

O IFTTT vai criar planilhas novas automaticamente toda vez que uma delas chegar aos mil registros, então, dependendo do tipo de conteúdo desejado, você pode vir a ter dezenas de planilhas XLS. Depois, basta consolidar tudo um só banco de dados.

Nove regras para identificar besteiras

O astrônomo e divulgador da ciência Carl Sagan escreveu, pouco antes de sua morte nos anos 1990, O mundo assombrado pelos demônios, livro no qual procura mostrar como o raciocínio lógico e procedimentos experimentais adequados podem combater as forças do obscurantismo.

Sagan oferece nove dicas para identificar besteiras, falácias, fraudes e outros tipos de charlatanismo. O “kit de deteção de bobagens” foi pensado por ele para cientistas aplicarem a si mesmos, mas serve bem para jornalistas, especialmente os que se dedicam ao trabalho com dados. Segue uma tradução livre:

  1. Sempre que possível, deve haver confirmação independente dos “fatos”.

  2. Incentive um debate profundo sobre as evidências pelos proponentes especializados, representando todos os pontos de vista.

  3. Argumentos baseados em autoridade têm pouca importância – “autoridades” cometeram erros no passado. Eles vão fazê-lo novamente no futuro. Talvez a melhor maneira de dizer isso é que na ciência não existem autoridades; no máximo, há especialistas.

  4. Conceba mais de uma hipótese. Se há algo a ser explicado, pense em todas as maneiras diferentes em que poderia ser explicado. Então, pense em testes pelos quais você poderia refutar sistematicamente cada uma das alternativas. O que sobreviver, a hipótese que resiste à refutação nesta seleção darwiniana entre “múltiplas hipóteses de trabalho”, tem uma chance muito melhor de ser a resposta certa do que se você tivesse simplesmente executado a primeira idéia que lhe chamou a atenção.

  5. Tente não ficar demasiado ligado a uma hipótese só porque é sua. Ela é apenas uma estação intermediária na busca do conhecimento. Pergunte-se por que você gosta da ideia. Compare-a de forma justa com as alternativas. Procure encontrar razões para rejeitá-la. Se não o fizer, outros o farão.

  6. Quantificar. Se tudo o que você está explicando tem alguma medida, alguma quantidade numérica vinculada, você será muito mais capaz de discriminar entre as hipóteses concorrentes.

  7. O que é vago e qualitativo está aberto a muitas explicações. É claro que há verdades que devem ser buscadas nas muitas questões qualitativas que somos obrigados a enfrentar, mas encontrá-las é mais desafiador.

  8. Se há uma cadeia de argumentos, todos os elos da cadeia devem funcionar (inclusive a premissa) – e não apenas a maioria deles. Navalha de Occam. Esta regra conveniente nos exorta, quando confrontados com duas hipóteses que explicam os dados igualmente bem, em escolher a mais simples.

  9. Sempre pergunte se a hipótese pode ser, pelo menos em princípio, falseada. Proposições que não são testáveis, irrefutáveis, não valem muito. Considere a grande ideia de que nosso Universo e tudo nele é apenas uma partícula elementar – um elétron, por exemplo – num Cosmos muito maior. Mas se nunca pudermos adquirir informações de fora de nosso universo, não é a ideia impassível de refutação? Você deve ser capaz de verificar as afirmações. Céticos inveterados devem ter a oportunidade de seguir o seu raciocínio, para duplicar seus experimentos e ver se eles obtêm o mesmo resultado.

Famecos tem grupo de estudos para curso online de introdução ao jornalismo guiado por dados

No dia 19 de maio, começa o MOOC Doing journalism with data, um curso a distância introdutório sobre jornalismo guiado por dados. Entre os professores estão o veterano da Reportagem Assistida por Computador Steve Doig; o antigo editor de dados do Guardian e hoje analista do Twitter, Simon Rogers, autor de Facts are sacred; o infografista Alberto Cairo, autor de The functional art; o professor Paul Bradshaw, autor de Scraping for journalists e de Finding stories with spreadsheets; e Nicolas Kayser-Bril, fundador da agência Journalism++.

O programa inclui:

  • Módulo 1 — Jornalismo guiado por dados na redação
  • Módulo 2 — Encontrando dados para embasar notícias
  • Módulo 3 — Desenvolvendo ideias de pauta com análise de dados
  • Módulo 4 — Como limpar dados bagunçados
  • Módulo 5 — Contando histórias com visualizações

Os inscritos poderão participar do grupo de estudos gratuito organizado por mim na Famecos/PUCRS, em Porto Alegre, a convite da Escola de Dados. O grupo terá quatro encontros ao longo do curso, sempre entre 16 e 19h, em quatro sextas-feiras:

  • 23 de maio
  • 6 de junho
  • 13 de junho
  • 20 de junho

A proposta do grupo de estudos é trocar experiências e tirar dúvidas de forma colaborativa. Isto significa que não vou dar aulas sobre jornalismo guiado por dados, mas oferecer um espaço para as discussões e — tomara! — aprender com os outros participantes.

Os interessados podem entrar em contato pelo correio eletrônico professortrasel [arroba] gmail [ponto] com.

De onde vem a potência do jornalismo guiado por dados?

Em 2011, a jornalista e acadêmica alemã Mercedes Bunz publicou na Berliner Gazette  um resumo de seu artigo “O segredo aberto: sobre a política da verdade no jornalismo de dados”, incluído num livro sobre o WikiLeaks. O texto não se detém muito sobre o caso do WikiLeaks propriamente dito, mas aponta as características principais do jornalismo guiado por dados e suas consequências para a imprensa como um todo.

Para Bunz, o jornalismo guiado por dados se caracteriza por abstrair conhecimento de grandes volumes de dados, levando em conta cinco fatores:

  1. Os dados só preenchem critérios jornalísticos quando é possível obter conhecimento de interesse público a partir dos mesmos;
  2. além disso, é preciso classificar estes dados conforme sua confiabilidade, a partir pergunta “estes dados são confiáveis?”;
  3. assim como montanhas são frequentemente instransponíveis sem mapas, montanhas de dados também o são e o jornalismo deve cumprir seu papel de mediação cartografando-os;
  4. este tipo de jornalismo também se caracteriza pela apresentação visual da informação;
  5. finalmente, a disponibilidade parcial ou total dos dados ao leitor é um aspecto fundamental do jornalismo guiado por dados.

A emergência deste tipo de jornalismo seria um efeito, para Bunz, da digitalização: “Enquanto a industrialização permitiu que o jornalismo atingisse as massas, a digitalização permite que o jornalismo trabalhe com as massas.” Noutras palavras: crowdsourcing. As pessoas, as testemunhas deixam de ser o principal portador de informação para a reportagem e os documentos e meios de comunicação, como as redes sociais, assumem também o papel de fontes legítimas. Noutras palavras: algoritmos. O jornalismo guiado por dados seria também uma reação à crise do jornalismo investigativo, como propõem Lovink e Riemens na quinta de suas doze teses sobre o WikiLeaks.

A autora reconhece que a maioria dos dados divulgados pelo WikiLeaks não traz informação necessariamente nova. Assim como a Papelada do Pentágono não dizia nada de novo sobre a tragédia e o fracasso da Guerra do Vietnã, ninguém que acompanhe a política internacional pode se declarar realmente surpreso com o teor dos relatórios diplomáticos de embaixadas americanas vazados pelo WikiLeaks. Bunz se pergunta, então, de onde vem a força destas duas denúncias, que causaram comoção na imprensa e uma forte reação dos governos envolvidos?

O segredo estaria no caráter mesmo de materiais originais: “O material original é particularmente explosivo, uma força explosiva que ele empresta da realidade, do conhecimento e de sua materialidade.”  Verdade e realidade são termos problemáticos do ponto de vista filosófico, pois algo pode nos parecer verdadeiro ou real sem de fato o ser, podem haver erros em nossa interpretação dos dados disponíveis no mundo. Os dados precisam ser, então, validados através da produção de conhecimento, do método científico:

Na medida em que o material original é verificado, os dados de tornam fatos. Não existem fatos incorretos, no máximo fatos incongruentes, isto é, fatos colocados no lugar errado. O fato, ele não é inverídico, ele não pode ser inverídico, no máximo falsificado — por isso ele precisa ser estabilizado através do conhecimento. A realidade do material original é atestada como genuína e se torna fato através do conhecimento — o segundo momento da força explosiva do material original.

Porém, isso que é atestado pelo processo de validação não é a informação contida no material original, mas a autenticidade do material. Os dados se tornam as testemunhas dos fatos — testemunhas muito melhores do que as humanas, aliás, porque não são mortais e não podem ser pressionados ou assassinados. Seu juízo não se modifica ao longo do tempo. “O material original é caracterizado por três momentos: ele documenta a realidade, é atestado como fato através do conhecimento e, devido à sua materialidade, permanece com substancial tenacidade.”

Bunz encerra o texto com uma discussão sobre o problema da despolitização e a transparência do poder. Ela acredita que o poder segue sendo poder, despolitizado ou não, e que o jornalismo guiado por dados, em sua forma explosiva de apresentação de material original, é uma das formas restantes de se revelar e responsabilizar o poder. Os dados são, hoje, um problema político.

O jornalismo guiado por dados de acordo com Giannina Segnigni

O jornal El País divulgou uma palestra sobre jornalismo guiado por dados proferida pela repórter costa-riquenha Giannina Segnigni. A jornalista recebeu recentemente o prêmio Gabriel García Márquez e é especializada em investigação de tráfico e contrabando.

Segnini divide o jornalismo guiado por dados (JGD) em cinco etapas:

  1. Obtenção dos dados — Por um lado, é preciso conhecer os tipos de formatos e arquivos usados para a armazenagem de dados pelo setor público, para poder fazer pedidos de acesso à informação eficazes. Por outro, é preciso conhecer o marco jurídico que rege o a disponibilidade dos bancos de dados governamentais.
  2. Limpeza dos dados — É essencial, porque dados com ruído inviabilizam ou engendram erros na etapa seguinte, de análise.
  3. Análise dos dados — Para Segnini, esta é a etapa eminentemente jornalística do JGD. Envolve comparar, cruzar e correlacionar dados para encontrar tendências, padrões, comportamentos atípicos e explicações de fenômenos sociais.
  4. Verificação dos dados — O fato de uma base de dados ser produzida por uma instituição pública não garante a consistência da informação. É preciso tratar os dados com ceticismo, como se faz com qualquer outra fonte.
  5. Visualização dos dados — “Entrevistar” os dados e encontrar informação pode não ser suficiente, em geral é preciso apresentar as descobertas de forma atrativa para o leitor.

Durante a palestra, ela critica o que Paul Bradshaw chama de “data porn”: visualizações com muita pirotecnia, mas que não oferecem ao leitor a possibilidade de explorar ou comparar dados, ou mesmo apresentam pouco valor informativo. A seu ver, uma boa peça de JGD não deixa perguntas no ar — porque encontrar respostas é, afinal, o trabalho dos jornalistas — e não deixa o leitor perdido num oceano de dados.

A principal vantagem do JGD para o jornalismo, para Segnini, é a criação de informação inteligente, diferenciada, num mundo em que a maior parte da informação é agregada de terceiros e muito pouco contextualizada.

Ao final, a costa-riquenha lembra o adágio sobre ver o bosque e não se focar nas árvores, para dizer que, com o JGD, é possível ver as duas coisas ao mesmo tempo. O leitor comum pode desfrutar das visualizações, enquanto os nerds podem ter acesso às bases de dados completas e explorá-las por si mesmos. Com isso, aumenta a transparência da reportagem, mas do jornalista passa a ser exigida uma abdicação do controle total sobre a narrativa.