electionsBR 0.3.1: novos dados e funcionalidades
Nessa versão, é possível extrair todos os dados da eleição de 2018
Depois de alguns meses sem novidades, hoje lançamos um nova atualização do electionsBR, o nosso pacote no R criado para extrair dados eleitorais do Repositório do TSE. Para além de tudo que o software já fazia, agora adicionamos a ele suporte para extração de todos os dados da última eleição, de 2018, além de correções que devem torná-lo mais estável e maduro. Esperamos que essa seja, digamos, a sua versão definitiva.
Obtendo dados eleitorais com o electionsBR
Para quem não o conhece ou nunca o usou, o electionsBR
faz
essencialmente três tarefas:
-
- Conectar o R ao Repositório do TSE para baixar as informações eleitorais, fazendo o gerenciamento de diretórios e de arquivos;
-
- Extrair e carregar as diversas planilhas dentro de cada arquivo compactado (tarefa que, feita de forma manual, pode levar horas);
-
- Unir, limpar e consolidar as diversas informações em um banco de
dados pronto para análise, que pode ser exportado diretamente
para análise em softwares como Stata e SPSS (basta habilitar o
argumento
export
disponível na maioria das funções).
- Unir, limpar e consolidar as diversas informações em um banco de
dados pronto para análise, que pode ser exportado diretamente
para análise em softwares como Stata e SPSS (basta habilitar o
argumento
Essas tarefas são realizadas por algumas
funções, uma para cada
tipo de informação eleitoral. Assim, para obter dados sobre as
candidaturas individuais nas eleições de 2014, por exemplo, basta usar a
função candidate_fed
; para eleições municipais, a função
correspondente é candidate_local
.
Ao todo, o pacote passa a contar com 21 funções nessa versão, que permitem extrair e limpar em segundos tanto resultados desagregados por seções eleitorais quanto informações sobre as declarações de bens de cada candidatura. Para além disso, ampliamos a já extensa documentação do pacote, em inglês, sobre a origem e a natureza de cada informação extraída por meio dele.
Para saber mais detalhes sobre como usar o electionsBR
, as seguintes
referências podem ajudar:
- electionsbr.com;
- electionsBR: uma nova versão;
- electionsBR (blog post);
- Introduction to the electionsBR package (tutorial em inglês).
Novas funcionalidades
A principal funcionalidade que adicionamos, para além das pequenas
melhorias de código, foi um argumento chamado br_archive
na maioria
das funções do pacote. Quando ele é colocado como TRUE
, as funções do
pacote retornam apenas o conteúdo de arquivos com sufixo _BR
, que
contém dados nacionais de uma determinada eleição – o que economiza
tempo no processamento dos dados quando alguém deseja, por exemplo,
obter apenas resultados de eleições presidenciais. Quando deixado como
FALSE
, o electionsBR
usa todas as planilhas baixadas do TSE para
construir o banco demandado pela(o) usuária(o).
Na prática, o uso dessa opção pode trazer problemas, como dados insuficientes ou duplicados. Infelizmente, isso ocorre porque o próprio TSE mantém em seu repositório oficial arquivos que são incompletos ou duplicados. Por conta disso, nossa recomendação é usar cada função dos dois modos.
Outras alterações
Entre outras coisas, essa versão corrige pequenos problemas apontados por diversas pessoas ao longo do último ano (fica aqui, novamente, o nosso agradecimento a todas).
Talvez mais importante, alteramos a forma com que o electionsBR
carregava os dados. Até a última versão, esse trabalho era feito pela
fread
do
data.table
em pouquíssimo tempo. Por conta da inclusão de dados no TSE,
especialmente em formato diferente dos que eram públicos até então,
tivemos que alterar a API de leitura do pacote para evitar erros. A
partir de agora, o electionsBR
é movido por read_delim
do
tidyverse, mais flexível.
Dados das eleições de 2018
A partir dessa versão, o electionsBR
passa a contar, de forma estável,
com todos os dados das eleições de 2018. Como o TSE ampliou a cobertura
de informações registradas de seus dados mais recentes, isso significa
que o electionsBR
retorna agora bases maiores – com mais variáveis –
para esses pleitos. Ao mesmo tempo, também atualizamos a documentação
das funções usadas para extrair dados de eleições gerais (i.e., as
funções com sufixo _fed
) para descrever o conteúdo das novas
colunas.
A título de exemplo, quem coletar dados sobre as candidaturas à Câmara
dos Deputados de 2018, obtidas com candidate_fed(2018)
, poderá notar
que, agora, existe um variável chamada SITUACAO_REELEICAO
. Como o nome
sugere, essa variável indica quais candidaturas foram realizadas por
pessoas que já foram eleitas para o mesmo cargo anteriormente. Como dá
para ver no gráfico abaixo, pouco mais de 400 incumbentes tentaram suas
reeleições ano
passado.
Para saber quais informações estão disponíveis para as eleições de 2018,
basta consultar a documentação das funções _fed
(usando
help(candidate_fed)
, por exemplo).
Instalação
A nova versão do electionsBR
já está disponível no repositório oficial
de pacotes para R, o CRAN. Para
instalá-lo diretamente, rode:
install.packages("electionsBR")
Eventualmente, uma nova versão pre-release ficará disponível no GitHub do pacote (onde também é possível postar dúvidas e sugestões). Para instalar essa, é possível executar:
if(!require("devtools")) install.packages("devtools")
devtools::install_github("silvadenisson/electionsBR")