data_science_bootcamp/modulo_final at main · souzajvp/data_science_bootcamp

History

Name		Name	Last commit message	Last commit date
parent directory ..
João_Vítor_Perez_de_Souza_Projeto_final_24_02.ipynb		João_Vítor_Perez_de_Souza_Projeto_final_24_02.ipynb
Kaggle_Sirio_Libanes_ICU_Prediction.xlsx		Kaggle_Sirio_Libanes_ICU_Prediction.xlsx
Prancheta 5.png		Prancheta 5.png
graphical-abstract-bootcamp.png		graphical-abstract-bootcamp.png
readme.md		readme.md

readme.md

Alvo de estudo: O banco de dados utilizado para este projeto está depositado no Kaggle, e é aberto para todos.

Dataset Kaggle

Problema

Classificar os pacientes internados com COVID-19 no hospital Sírio Libanês (Brasília-DF e São Paulo-SP) de acordo com a necessidade ou não as instalações das Unidades de Terapia Intensiva (UTIs).

Objetivos/Tarefas:

Prever quais pacientes necessitarão de UTI;
Prever quais pacientes NÃO necessitarão de UTI.

Variável de interesse e Janela:

UTI ou não - ICU - (0,1);
Janela de tempo - WINDOW - ['0-2', '2-4', '6-12', 'Above-12');

Critérios obrigatórios

Não se pode utilizar os dados quando o paciente deu entrada na UTI -> ICU = 1

Aspectos dos dados

Os dados foram anonimizados e escalados para manterem-se entre 0 e 1 de acordo com valores máximos e mínimos;

Entendendo as variáveis disponíveis:

Informações demgráficas (03);
Agrupamento de doenças (09);
Resultados de exames de sangue (36);
Sinais vitais (06).

Diversas variáveis foram expandidas para versões média, mediana, máximo, mínimo, diff e diff relativo.

diff = valor máximo - valor mínimo;
diff relativo = diff / mediana

Entendendo a estrutura dos dados:

Neste desafio, temos dados de pacientes positivos para COVID-19 internados no Hospital Sírio Libânes de São Paulo-SP e Brasília-DF. De forma geral, temos até 5 entradas que representam dados de um mesmo paciente. Essas entradas são referentes à diferentes janelas de tempo (0-2, 2-4, 4-6, 6-12, >12) em que os pacientes foram acompanhados. Para cada uma das janelas, foram dosados diversos marcadores biológicos e sinais vitais.
Resumidamente, a estrutura do banco é a seguinte:

Tabela 1. Estrutura de repetição dos dados no banco usado no desafio.

Paciente	Janela	Exame_1	Exame_2	...	UTI
A	0-2	1	4	...	0
A	2-4	1	3.5	...	0
A	4-6	1,1	3.7	...	0
A	6-12	1,2	3.8	...	0
A	>12	1,3	4.1	...	1

B	0-2	2	2	...	0
B	2-4	1,9	2.5	...	1

Essa estrutura de repetição para cada paciente representa um problema de medições repetidas (do inglês multiple measures ou repeated measures), que é comum para bancos ou estudos na área da saúde. Nesse tipo de dados temos uma dependência entre as amostras de cada paciente. Ou seja, os dados da janela 2-4 do paciente A são muito dependentes dos dados da janela anterior (0-2) desse mesmo paciente A.
Em situações assim, podem ser empregados modelos lineares mistos ou modelos para análise de sobrevivência que consideram esse agrupamento dos pacientes:

Apesar de entender que esses modelos seriam úteis, a complexidade dos nossos dados e desses modelos mais refinados me impediu de seguir com a implementação e testes. Desta forma segui com uma abordagem mais "convencional".

Deste modo, percebemos que escolha da conduta para trabalhar com os dados não é trivial.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

modulo_final

modulo_final

readme.md

Problema

Objetivos/Tarefas:

Variável de interesse e Janela:

Critérios obrigatórios

Aspectos dos dados

Entendendo as variáveis disponíveis:

Entendendo a estrutura dos dados:

Files

modulo_final

Directory actions

More options

Directory actions

More options

Latest commit

History

modulo_final

Folders and files

parent directory

readme.md

Problema

Objetivos/Tarefas:

Variável de interesse e Janela:

Critérios obrigatórios

Aspectos dos dados

Entendendo as variáveis disponíveis:

Entendendo a estrutura dos dados: