kaggle-titanic

Minha primeira participação em uma competição no Kaggle, nada mais justo de ser na classica competição do Titanic.

Notebooks

Fiz dois notebooks da seguinte forma:

Pelo notebook titanic_explore_data analisei as informações dos arquivos test.csv e train.csv, optei por tratar os NaN values com a média do db.

Para o classifier usei Random Forest Classifier utilizando as seguintes colunas: Pclass, Fare, C, Q, S, female e male. As colunas C, Q e S correspondem a one hot enconding da coluna Embarke e as colunas female e male correspondem ao mesmo da coluna sex.

Podemos considerar essa abordagem a mais tradicional, olhando alguns notebooks no Kaggle observamos que diversos competidores utilizaram essa forma para tratar os dados.

Obtive o public score de 0.76555, nada expressivo possuindo margem para melhorar o modelo e assim a pontuação.

Já o notebook exploring_name_titanic fui por uma abordagem totalmente diferente, utilizei apenas os nomes para tentar prever se a pessoa morre ou vive ao naufrágio, algo interessante sobre os nomes é que conseguimos tirar deles o Sexo, classe Social, títulos e ate mesmo aproximar a data de nascimento (É natural ter anos em que mais pessoas são registradas com um nome, Enzo por exemplo) além é claro de dizer se há algum grau de parentesco das pessoas a bordo.

Aqui estou assumindo que nosso modelo conseguirar retirar todas essas informações, abstrair de uma forma que consiga dizer a chance de sobrevivência.

O public score desse notebook foi de 0.77511, superando o Random Florest Classifier, pouco, mais superando.

É claro que realizei essa abordagem, principalmente, para colocar em prática tudo que apendi, mas uma tentativa de ver o comportamento do modelo em um uso que não seria o mais intuitivo.

Por conta disso temos a principal barreira, quantidade de dados, o nosso banco de dados para treinamento possui apenas 891 entradas, para um modelo de DL isso representa pouquíssimo dado sendo muito fácil overfit, tentando evitar isso tive que usar dropout com uma rate bem alta (> 0,65).

Tentarei, no futuro, melhorar a arquitetura do modelo e buscar melhores resultado, mas dado a escasses das informações acho extremamente dfícil melhorar muito.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.ipynb_checkpoints		.ipynb_checkpoints
README.md		README.md
exploring_name_titanic.ipynb		exploring_name_titanic.ipynb
gender_submission.csv		gender_submission.csv
submission.csv		submission.csv
submission2.csv		submission2.csv
submission3.csv		submission3.csv
test.csv		test.csv
titanic.zip		titanic.zip
titanic_explore_data.ipynb		titanic_explore_data.ipynb
train.csv		train.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

kaggle-titanic

Notebooks

About

Releases

Packages

Languages

Yuri-MRQ/kaggle-titanic

Folders and files

Latest commit

History

Repository files navigation

kaggle-titanic

Notebooks

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages