Skip to content

Проект в рамках предмета Анализ Данных, ключающий парсинг  данных об автомобилях, EDA и ML построение моделей на основе денных

License

Notifications You must be signed in to change notification settings

Natasha-rare/parcing_andan_hw

Repository files navigation

parcing_andan_hw

Проект в рамках предмета Анализ Данных, ключающий парсинг  данных об автомобилях, EDA и ML построение моделей на основе денных

Пару слов о том, как здесь все устроено

Так как Парсинг был достаточно сложным и объемным из-за блокировок со стороны Авито, то он вынесен в отдельный файл parcing_data.ipynb

Этап EDA также занял много места из-за большо числа признаков – 28 (и 23 после обработки), поэтому обработка признаков вынесена в файл – eda.ipynb

Этап визуализации находится в файле visualisation.ipynb (возможно также часть будет вынесена в отдельный блок)

Основные этапы гипотез, формирования новых признаков, матстата и мл находится в файле hypothesis and ml.ipynb

К целям

Помимо желания получить 10 и успешно закрыть данный курс, цель данного проекта состоит в анализе цен на автомобили на сайте Авито и поиска основных признаков, влияющих на стоимость авто.

основные моменты из исследования

Было проанализировано около 1500 автомобилей и выделено 18 основных признаков (после обработки и создания новых признаков). В результате были выделенны основные переменные, влияющие на цену – год выпуска, пробег, число лошадиных сил и объем двигателя. Также интересным наблюдением является отсутствие явной корреляции между ценой и цветом или числом предыдущих владельцев. Стоит отметить, что проект получился довольно интересным, а также на практике подтвердилась ЦПТ (при логарифмическом распределение цен, которое было практически идеально нормальным).

About

Проект в рамках предмета Анализ Данных, ключающий парсинг  данных об автомобилях, EDA и ML построение моделей на основе денных

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published