Projeto 1

Nosso primeiro projeto avaliativo, consistindo em 15% da nota final no curso, será uma aplicação de aprendizado supervisionado: classificar discursos presidenciais feitos para audiências internacionais. Ao todo, são 350 discursos proferidos por Lula, Dilma e Temer que poderão ser utilizados para teste e treino de modelos. Neste trabalho, vocês poderão aplicar o pré-processamento que julgarem mais adequado.

Dados

Para essa tarefa, vocês terão duas bases de dados: uma com os 350 discursos presidenciais e, outra, com 25 discursos sem indicação de autoria que deverá ser utilizada como amostra de validação.

Para carregar os dados, basta usar:

link <- "https://github.com/FLS-6497/datasets/blob/main/projeto1/discursos_pres_internacionais.csv?raw=true"
discursos <- readr::read_csv2(link)

link <- "https://github.com/FLS-6497/datasets/blob/main/projeto1/discursos_pres_internacionais_validacao.csv?raw=true"
validacao <- readr::read_csv2(link)
import pandas as pd

link = 'https://github.com/FLS-6497/datasets/blob/main/projeto1/discursos_pres_internacionais.csv?raw=true'
discursos = pd.read_csv(link, sep=';')

link = 'https://github.com/FLS-6497/datasets/blob/main/projeto1/discursos_pres_internacionais_validacao.csv?raw=true'
validacao = pd.read_csv(link, sep=';')

Objetivo

O objetivo central dessa atividade é treinar um modelo que performe bem na classificação da autoria dos discursos presidenciais. Para isso, é importante registrar métricas de validação e reportá-las, bem como fazer predições para a amostra de validação que poderemos conferir posteriormente.

Entrega

A entrega deverá ser feita na pasta do GitHub de cada um contendo:

  • Um notebook ou script com o código utilizado;

  • Um documento (pode ser um PDF compilado pelo notebook, mas também pode ser um README.md) detalhando a metodologia utilizada:

    • Modelos testados
    • Pré-processamento do texto usado
    • Estratégia de validação (e.g. ratio no holdout, quantas vezes foi gerada uma nova amostra)
    • Resumo dos resultados obtidos em alguma métrica de validação (e.g., precisão, recall, F1, etc.)
    • Predição para a base de validação com 25 discursos sem indicação de autoria

Em aula, poderemos tirar dúvidas sobre o formato da entrega. O importante a notar é que a avaliação não recairá sobre o desempenho dos modelos de vocês na amostra de validação – ela será utilizada apenas para discutirmos os trabalhos de vocês em aula.