Name		Name	Last commit message	Last commit date
parent directory ..
dados		dados
img		img
Bootcamp_DataScience_projeto_final.ipynb		Bootcamp_DataScience_projeto_final.ipynb
README.md		README.md
funcoes.py		funcoes.py
projeto_final_hiperparametros.ipynb		projeto_final_hiperparametros.ipynb
projeto_final_tratamento_dados.ipynb		projeto_final_tratamento_dados.ipynb

README.md

Projeto de Data Science Aplicada 2

Projeto Final de conclusão de Curso

Apresentação do projeto final do Bootcamp de Data Science Aplicada 2 da Alura - Plataforma do Bootcamp

Sumário

Introdução
Dados
Objetivo
Metodologia
Referências

1. Introdução

Bem vindo ao projeto final de conclusão do Bootcamp de Data Science Aplicada, segunda turma, by Alura!

Nesse projeto trabalharemos com informações do Hospital Sírio Libanês (HSL) – São Paulo/Brasília - com o objetivo de prever quais pacientes precisarão ser admitidos na unidade de terapia intensiva (UTI) e assim, definir qual a necessidade de leitos de UTI do hospital, a partir dos dados clínicos individuais disponíveis. Definindo a quantidade de leitos necessários em um determinado hospital, é possível evitar rupturas, visto que, caso outra pessoa procure ajuda e eventualmente precise de cuidados intensivos, o modelo preditivo já conseguirá detectar essa necessidade e, desta forma, a remoção e transferência deste paciente pode ser organizada antecipadamente.

2. Dados

As informações para o desenvolvimento desse projeto foram disponibilizadas no repositório do Kaggle. Nela, encontramos diversos tipos de informações que foram separadas em 4 grupos:

Informação demográfica - 3 variáveis
Doenças pré-existentes - 9 variáveis
Resultados do exame de sangue - 36 variáveis
Sinais vitais - 6 variáveis

Serão aplicados as técnicas de obtenção, limpeza e tratamento dos dados buscando deixar as informações mais significativas para a análise, e esse tratamento pode ser visualizado no notebook projeto_final_tratamento_dados.ipynb.

3. Objetivo

A pandemia de covid-19 sobrecarregou o Sistema de Saúde Brasileiro, afetando principalmente a disponibilidade de leitos de UTI. É evidente que a obtenção de dados precisos é necessária para evitar colapsos e a sobrecarga dos hospitais, já que muitos estiveram com leitos de UTIs lotados. Com base nesses dados, será possível prever o que acontecerá com os próximos pacientes.

O problema proposto envolve duas tarefas (conforme descrito no site Kaggle):

Tarefa 01

Prever admissão na UTI de casos confirmados de COVID-19. Com base nos dados disponíveis, é viável prever quais pacientes precisarão de suporte em unidade de terapia intensiva? O objetivo é fornecer aos hospitais terciários e quaternários a resposta mais precisa, para que os recursos da UTI possam ser arranjados ou a transferência do paciente possa ser agendada.

Tarefa 02

Prever NÃO admissão à UTI de casos COVID-19 confirmados. Com base nos dados disponíveis, é possível prever quais pacientes precisarão de suporte de unidade de terapia intensiva? O objetivo é fornecer aos hospitais locais e temporários uma resposta boa o suficiente, para que os médicos de linha de frente possam dar alta com segurança e acompanhar remotamente esses pacientes.

4. Metodologia

Serão aplicados modelos de Machine Learning para o problema de Classificação Binária (a UTI é necessária? Sim ou não) proposto pelo Hospital Sírio Libanês. Formalmente o Machine Learning é definido como:

Aprendizado de máquina é definido por um sistema computacional que busca realizar uma tarefa T, aprendendo a partir de uma experiência E, procurando melhorar uma performance P.

Como os dados utilizados para treinar nosso modelo contém a resposta desejada, será aplicado o Aprendizado Supervisionado. Os modelos mais conhecidas são Regressão Linear, Regressão Logística, Redes Neurais Artificiais, Máquina de Suporte Vetorial (ou máquinas kernel), Árvores de Decisão, K-Vizinhos mais próximos e Bayes ingênuo.

Para tal, um array com alguns modelos de Machine Learning foi utilizado e foi aplicado os conceitos apresentados nas aulas, clonando e ajustando o código python que foi encontrado nas pesquisas necessárias para a conclusão desse projeto.

Estrutura

O projeto está organizado da seguinte forma:

A análise principal está no arquivo Bootcamp_DataScience_projeto_final.ipynb
O arquivo projeto_final_hiperparametros.ipynb contém os teste de hiperparâmetros dos modelos e foi separado da análise principal pois requer tempo de processamento
O arquivo projeto_final_tratamento_dados.ipynb faz o tratamento dos dados originais fornecido pelo HSL
o arquivo funcoes.py tem o código fonte das funções utilizadas pelos 3 notebooks deixando-os mais claros.
pasta dados contém as planilhas utilizadas, uma cópia do dataFrame resultante do processamento de otimização (arquivos: dfmodelosHP) e o nosso modelo salvo (modelo_hsl)
pasta img contém as imagens utilizadas no projeto

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

projeto-final

projeto-final

README.md

Projeto de Data Science Aplicada 2

Projeto Final de conclusão de Curso

Sumário

1. Introdução

2. Dados

3. Objetivo

4. Metodologia

Estrutura

5. Referências

Files

projeto-final

Directory actions

More options

Directory actions

More options

Latest commit

History

projeto-final

Folders and files

parent directory

README.md

Projeto de Data Science Aplicada 2

Projeto Final de conclusão de Curso

Sumário

1. Introdução

2. Dados

3. Objetivo

4. Metodologia

Estrutura

5. Referências