Ata 4 – 29/04/2025¶
Informações Gerais¶
Data: 29 de abril de 2025
Horário: 20h às 20h40
Plataforma: app.gather.town
Próxima reunião: 06 de maio de 2025
Responsável pelo registro: Letícia Paiva
Participantes¶
- Amanda Campos
- Fause Carlos
- Raissa Andrade
- Luis Miranda
- Vinicius Vieira
- Vinicius Martins
- Tiago Lima
- Letícia Paiva
- Philipe Barbosa
Pautas da Reunião¶
Reunião para esclarecimento de dúvidas com o monitor.
- Acesso à infraestrutura: não será total, por se tratar de uma estrutura interna do laboratório. Permissões específicas serão concedidas conforme necessidade.
- Apresentação da arquitetura geral do projeto.
- Pontos discutidos:
- Acesso ao Airflow (ainda pendente);
- Elaboração de scripts para o pipeline de dados;
- Ferramentas previstas: Spark ou Pandas.
Etapa Inicial¶
A primeira fase será focada em atividades de engenharia de dados.
Tarefas previstas:
- Criação de scripts para extração de dados dos jornais;
- Inserção dos dados crus no banco de dados;
- Limpeza e tratamento dos dados;
- Estruturação em formato JSON;
- Armazenamento no MinIO;
- Definição do método de extração;
- Implementação de rotina de coleta diária (notícias do dia anterior).
Obs.: enquanto o Airflow não estiver operacional, os scripts serão executados localmente.
Ambiente de Desenvolvimento¶
- Configuração do ambiente será realizada durante a semana, para uso pela equipe.
Próximos Passos¶
- Liberação de acesso ao Airflow;
- Organização das tasks e definição do método de extração;
- Estudo e prática com as ferramentas definidas.