Skip to content

Tutorial about basics of ETL using python for my presentation at Python Brasil 2020.

Notifications You must be signed in to change notification settings

matheusbsilva/python-etl

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ETL em python: trabalhando com dados abertos no mundo real(Python Brasil 2020)

Nesse tutorial vamos aprender o básico sobre as etapas de uma rotina de ETL(extract, transform and load). A ideia aqui é utilizar um dataset público da CVM para demonstrar como implementar as diferentes etapas dessa rotina. Vamos explorar alguns conceitos básicos da Engenharia de dados, como implementar rotinas para extração de arquivos e como manipular dados tabulares com o Pandas. Lembrando que toda a implementação aqui é focada em small data.

O arquivo ETL_open_data.ipynb é o arquivo base para a implementação do tutorial, o resultado final, para quem quiser spoilers, está no arquivo Result-ETL_open_data.ipynb.

Configurar ambiente

Requisitos:

  1. Inicialize um ambiente virtual na raiz do projeto:
python3 -m venv etl-env
  1. Ative o ambiente virtual:
source etl-env/bin/activate
  1. Instale as dependências executando na raiz do projeto:
pip install -r requirements.txt
  1. Inicie o jupyter notebook executando:
python -m jupyter notebook

About

Tutorial about basics of ETL using python for my presentation at Python Brasil 2020.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published