hczs / data-mining Public

Notifications You must be signed in to change notification settings
Fork 2
Star 6

使用python的numpy库以及sklearn库进行的数据挖掘以及分析的项目，对美国华盛顿的共享单车使用量分析以及建模。

6 stars 2 forks Branches Tags Activity

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
Untitled Diagram.drawio		Untitled Diagram.drawio
train.csv		train.csv
特征重要性可视化.png		特征重要性可视化.png
自行车租赁数量预测.ipynb		自行车租赁数量预测.ipynb
随机森林预测结果.png		随机森林预测结果.png

Repository files navigation

data-mining

介绍

对kaggle数据挖掘大赛中的Bike Sharing Demand（自行车共享需求）数据进行分析，并进行了数据预处理，建模比较相关操作，最终得出一个随机森林模型，根据时间，季节，温度等特征可以不错的预测自行车的租赁数量。

数据来源：https://www.kaggle.com/c/bike-sharing-demand/data

具体步骤

步骤一：数据理解，对样本的数据理解，分析一下数据的各个字段的意义，以及数据的分布，对数据集的一个大概的描述。
步骤二：数据预处理，对样本数据的一些列进行处理，处理日期数据，缺失值处理以及异常值处理。
步骤三：建模，对预处理完毕的数据集进行划分训练集和测试集，用两种算法分别建模。
步骤四：进行模型评估比较。
步骤五：对模型的预测情况进行可视化分析特征重要性。