Projeto 1
Nosso primeiro projeto avaliativo, consistindo em 15% da nota final no curso, será uma aplicação de aprendizado supervisionado: classificar discursos presidenciais feitos para audiências internacionais. Ao todo, são 350
discursos proferidos por Lula, Dilma e Temer que poderão ser utilizados para teste e treino de modelos. Neste trabalho, vocês poderão aplicar o pré-processamento que julgarem mais adequado.
Dados
Para essa tarefa, vocês terão duas bases de dados: uma com os 350
discursos presidenciais e, outra, com 25
discursos sem indicação de autoria que deverá ser utilizada como amostra de validação.
Para carregar os dados, basta usar:
<- "https://github.com/FLS-6497/datasets/blob/main/projeto1/discursos_pres_internacionais.csv?raw=true"
link <- readr::read_csv2(link)
discursos
<- "https://github.com/FLS-6497/datasets/blob/main/projeto1/discursos_pres_internacionais_validacao.csv?raw=true"
link <- readr::read_csv2(link) validacao
import pandas as pd
= 'https://github.com/FLS-6497/datasets/blob/main/projeto1/discursos_pres_internacionais.csv?raw=true'
link = pd.read_csv(link, sep=';')
discursos
= 'https://github.com/FLS-6497/datasets/blob/main/projeto1/discursos_pres_internacionais_validacao.csv?raw=true'
link = pd.read_csv(link, sep=';') validacao
Objetivo
O objetivo central dessa atividade é treinar um modelo que performe bem na classificação da autoria dos discursos presidenciais. Para isso, é importante registrar métricas de validação e reportá-las, bem como fazer predições para a amostra de validação
que poderemos conferir posteriormente.
Entrega
A entrega deverá ser feita na pasta do GitHub de cada um contendo:
Um notebook ou script com o código utilizado;
Um documento (pode ser um PDF compilado pelo notebook, mas também pode ser um
README.md
) detalhando a metodologia utilizada:- Modelos testados
- Pré-processamento do texto usado
- Estratégia de validação (e.g. ratio no holdout, quantas vezes foi gerada uma nova amostra)
- Resumo dos resultados obtidos em alguma métrica de validação (e.g., precisão, recall, F1, etc.)
- Predição para a base de validação com
25
discursos sem indicação de autoria
Em aula, poderemos tirar dúvidas sobre o formato da entrega. O importante a notar é que a avaliação não recairá sobre o desempenho dos modelos de vocês na amostra de validação
– ela será utilizada apenas para discutirmos os trabalhos de vocês em aula.