Skip to content

使用python的numpy库以及sklearn库进行的数据挖掘以及分析的项目,对美国华盛顿的共享单车使用量分析以及建模。

Notifications You must be signed in to change notification settings

hczs/data-mining

Repository files navigation

data-mining

介绍

对kaggle数据挖掘大赛中的Bike Sharing Demand(自行车共享需求)数据进行分析,并进行了数据预处理,建模比较相关操作,最终得出一个随机森林模型,根据时间,季节,温度等特征可以不错的预测自行车的租赁数量。

数据来源:https://www.kaggle.com/c/bike-sharing-demand/data

具体步骤

  • 步骤一:数据理解,对样本的数据理解,分析一下数据的各个字段的意义,以及数据的分布,对数据集的一个大概的描述。
  • 步骤二:数据预处理,对样本数据的一些列进行处理,处理日期数据,缺失值处理以及异常值处理。
  • 步骤三:建模,对预处理完毕的数据集进行划分训练集和测试集,用两种算法分别建模。
  • 步骤四:进行模型评估比较。
  • 步骤五:对模型的预测情况进行可视化分析特征重要性。

About

使用python的numpy库以及sklearn库进行的数据挖掘以及分析的项目,对美国华盛顿的共享单车使用量分析以及建模。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published