EDA (incl. KNN) & CatBoost & Optuna for giving the most accurate scores for the object success prediction task.
Repo for VK Internship Data Science task.
.zip
archive included.
Instruction:
- Install
requirements.txt
viapip install -r requirements.txt
(no junk :)) - Launch
generate_submission.py
- Get final
submission.csv
(it has already been generated in the folderoutput
for fast reference).
Other files description:
classifier.cbm
- Trained CatBoost model (regressor, not classifier)do_eda.py
- Script used ingenerate_submission.py
for given datasets preparationdatasets
- Folder containing datasetscols_to-drop.pkl
- Columns to-be-dropped causing multicollinearity (dict).
Инструкция:
- Установите
requirements.txt
черезpip install -r requirements.txt
- Запустите
generate_submission.py
- Получите окончательный
submission.csv
(он уже сгенерирован в папкеoutput
для быстрого референса).
Описание других файлов:
classifier.cbm
- Обученный регрессор CatBoostdo_eda.py
- скрипт, используемый вgenerate_submission.py
для подготовки датасетов и фичейdatasets
- Папка, содержащая наборы данныхcols_to-drop.pkl
- Столбцы, подлежащие удалению, вызывающие мультиколлинеарность и по факту не дающие полезной информации.