electionsBR 0.3.1: novos dados e funcionalidades

Nessa versão, é possível extrair todos os dados da eleição de 2018

Depois de alguns meses sem novidades, hoje lançamos um nova atualização do electionsBR, o nosso pacote no R criado para extrair dados eleitorais do Repositório do TSE. Para além de tudo que o software já fazia, agora adicionamos a ele suporte para extração de todos os dados da última eleição, de 2018, além de correções que devem torná-lo mais estável e maduro. Esperamos que essa seja, digamos, a sua versão definitiva.

Obtendo dados eleitorais com o electionsBR

Para quem não o conhece ou nunca o usou, o electionsBR faz essencialmente três tarefas:

  • 1) Conectar o R ao Repositório do TSE para baixar as informações eleitorais, fazendo o gerenciamento de diretórios e de arquivos;

  • 2) Extrair e carregar as diversas planilhas dentro de cada arquivo compactado (tarefa que, feita de forma manual, pode levar horas);

  • 3) Unir, limpar e consolidar as diversas informações em um banco de dados pronto para análise, que pode ser exportado diretamente para análise em softwares como Stata e SPSS (basta habilitar o argumento export disponível na maioria das funções).

Essas tarefas são realizadas por algumas funções, uma para cada tipo de informação eleitoral. Assim, para obter dados sobre as candidaturas individuais nas eleições de 2014, por exemplo, basta usar a função candidate_fed; para eleições municipais, a função correspondente é candidate_local.

Ao todo, o pacote passa a contar com 21 funções nessa versão, que permitem extrair e limpar em segundos tanto resultados desagregados por seções eleitorais quanto informações sobre as declarações de bens de cada candidatura. Para além disso, ampliamos a já extensa documentação do pacote, em inglês, sobre a origem e a natureza de cada informação extraída por meio dele.

Para saber mais detalhes sobre como usar o electionsBR, as seguintes referências podem ajudar:

Novas funcionalidades

A principal funcionalidade que adicionamos, para além das pequenas melhorias de código, foi um argumento chamado br_archive na maioria das funções do pacote. Quando ele é colocado como TRUE, as funções do pacote retornam apenas o conteúdo de arquivos com sufixo _BR, que contém dados nacionais de uma determinada eleição – o que economiza tempo no processamento dos dados quando alguém deseja, por exemplo, obter apenas resultados de eleições presidenciais. Quando deixado como FALSE, o electionsBR usa todas as planilhas baixadas do TSE para construir o banco demandado pela(o) usuária(o).

Na prática, o uso dessa opção pode trazer problemas, como dados insuficientes ou duplicados. Infelizmente, isso ocorre porque o próprio TSE mantém em seu repositório oficial arquivos que são incompletos ou duplicados. Por conta disso, nossa recomendação é usar cada função dos dois modos.

Outras alterações

Entre outras coisas, essa versão corrige pequenos problemas apontados por diversas pessoas ao longo do último ano (fica aqui, novamente, o nosso agradecimento a todas).

Talvez mais importante, alteramos a forma com que o electionsBR carregava os dados. Até a última versão, esse trabalho era feito pela fread do data.table em pouquíssimo tempo. Por conta da inclusão de dados no TSE, especialmente em formato diferente dos que eram públicos até então, tivemos que alterar a API de leitura do pacote para evitar erros. A partir de agora, o electionsBR é movido por read_delim do tidyverse, mais flexível.

Dados das eleições de 2018

A partir dessa versão, o electionsBR passa a contar, de forma estável, com todos os dados das eleições de 2018. Como o TSE ampliou a cobertura de informações registradas de seus dados mais recentes, isso significa que o electionsBR retorna agora bases maiores – com mais variáveis – para esses pleitos. Ao mesmo tempo, também atualizamos a documentação das funções usadas para extrair dados de eleições gerais (i.e., as funções com sufixo _fed) para descrever o conteúdo das novas colunas.

A título de exemplo, quem coletar dados sobre as candidaturas à Câmara dos Deputados de 2018, obtidas com candidate_fed(2018), poderá notar que, agora, existe um variável chamada SITUACAO_REELEICAO. Como o nome sugere, essa variável indica quais candidaturas foram realizadas por pessoas que já foram eleitas para o mesmo cargo anteriormente. Como dá para ver no gráfico abaixo, pouco mais de 400 incumbentes tentaram suas reeleições ano passado.

Para saber quais informações estão disponíveis para as eleições de 2018, basta consultar a documentação das funções _fed (usando help(candidate_fed), por exemplo).

Instalação

A nova versão do electionsBR já está disponível no repositório oficial de pacotes para R, o CRAN. Para instalá-lo diretamente, rode:

install.packages("electionsBR")

Eventualmente, uma nova versão pre-release ficará disponível no GitHub do pacote (onde também é possível postar dúvidas e sugestões). Para instalar essa, é possível executar:

if(!require("devtools")) install.packages("devtools")
devtools::install_github("silvadenisson/electionsBR")