Ciência de dados é a disciplina preocupada com a análise e extração de conhecimento e informação a partir de bases de dados. A etapa de pré-processamento, onde as bases de dados relevantes devem ser reunidas e adequadamente formatadas, costuma ser a mais trabalhosa, ocupando tipicamente 80% do tempo consumido. É nesta fase que são realizadas as tarefas de seleção, limpeza e transformação dos dados, comumente referenciadas como atividades de data wrangling. Este minicurso possui como objetivo apresentar as principais informações necessárias para que o aluno possa conduzir processos práticos de data wrangling utilizando a biblioteca 'pandas' − um software livre, do tipo open source, que ao longo dos últimos anos se consolidou como a biblioteca para ciência de dados mais utilizada no ambiente Python.
Conheça também o livro "Pandas Python: Data Wrangling para Ciência de Dados", lançado pela editora Casa do Código. Informações completas em: https://www.casadocodigo.com.br/products/livro-pandas-python.