Проект в рамках предмета Анализ Данных, ключающий парсинг данных об автомобилях, EDA и ML построение моделей на основе денных
Так как Парсинг был достаточно сложным и объемным из-за блокировок со стороны Авито, то он вынесен в отдельный файл parcing_data.ipynb
Этап EDA также занял много места из-за большо числа признаков – 28 (и 23 после обработки), поэтому обработка признаков вынесена в файл – eda.ipynb
Этап визуализации находится в файле visualisation.ipynb (возможно также часть будет вынесена в отдельный блок)
Основные этапы гипотез, формирования новых признаков, матстата и мл находится в файле hypothesis and ml.ipynb
Помимо желания получить 10 и успешно закрыть данный курс, цель данного проекта состоит в анализе цен на автомобили на сайте Авито и поиска основных признаков, влияющих на стоимость авто.
Было проанализировано около 1500 автомобилей и выделено 18 основных признаков (после обработки и создания новых признаков). В результате были выделенны основные переменные, влияющие на цену – год выпуска, пробег, число лошадиных сил и объем двигателя. Также интересным наблюдением является отсутствие явной корреляции между ценой и цветом или числом предыдущих владельцев. Стоит отметить, что проект получился довольно интересным, а также на практике подтвердилась ЦПТ (при логарифмическом распределение цен, которое было практически идеально нормальным).