Kaggle

欢迎任何人参与和完善：一个人可以走的很快，但是一群人却可以走的更远

Kaggle 是一个流行的数据科学竞赛平台。
GitHub 入门操作指南和 Kaggle 入门操作指南，适合于学习过 MachineLearning(机器学习实战) 的小盆友
Kaggle 已被 Google 收购，请参阅《谷歌收购 Kaggle 为什么会震动三界（AI、机器学习、数据科学界）》
关于 ApacheCN: 一边学习和整理，一边录制项目视频，希望能组建一个开源的公益团队对国内机器学习社区做一些贡献，同时也为装逼做准备!!
号外号外 kaggle组队开始啦

竞赛

机器学习比赛，奖金很高，业界承认分数。
现在我们已经准备好尝试 Kaggle 竞赛了，这些竞赛分成以下几个类别。

第1部分：课业比赛 InClass

课业比赛 InClass 是学校教授机器学习的老师留作业的地方，这里的竞赛有些会向public开放参赛，也有些仅仅是学校内部教学使用。

第2部分：入门比赛 Getting Started

入门比赛 Getting Started 给萌新们一个试水的机会，没有奖金，但有非常多的前辈经验可供学习。很久以前Kaggle这个栏目名称是101的时候，比赛题目还很多，但是现在只保留了4个最经典的入门竞赛：手写数字识别、沉船事故幸存估计、脸部识别、Julia语言入门。

数字识别: 使用著名的 MNIST 数据来学习计算机视觉基础原理

第3部分：训练场 Playground

训练场 Playground里的题目以有趣为主，比如猫狗照片分类的问题。现在这个分类下的题目不算多，但是热度很高。

第4部分：研究项目(少奖金) Research

研究型 Research 竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金，也有一部分以会议邀请、发表论文的形式奖励。

第5部分：人才征募 Recruitment

人才征募 Recruitment 竞赛是赞助企业寻求数据科学家、算法设计人才的渠道。只允许个人参赛，不接受团队报名。

第6部分：大型组织比赛(大奖金) Featured

推荐比赛 Featured 是瞄准商业问题带有奖金的公开竞赛。如果有幸赢得比赛，不但可以获得奖金，模型也可能会被竞赛赞助商应用到商业实践中呢。

其他部分

数据集: 数据集，可直接用于机器学习。
核心思想: 在线编程。（猜测，基于 jupyter 实现）
论坛: 发帖回帖讨论的平台
招聘: 企业招聘数据科学家的位置

机器学习算法

常用算法选择

常用工具选择

解决问题的流程

链接场景和目标
链接评估准则
认识数据
数据预处理（清洗、调权）
特征工程
模型调参
模型状态分析
模型融合

数据预处理

数据清洗
- 去掉样本数据中的垃圾
- 取出缺失大量数据的特征
数据采样
- 下/上采样（假设正负样本比例1:100，把正样本的数量重复100次，这就叫上采样，也就是把比例小的样本放大。下采样同理，把比例大的数据抽取一部分，从而使比例变得接近于1；1）
- 保证样本均衡
工具 sql、pandas等

特征工程

特征处理

数值型：连续型数据离散化或者归一化、数据变化（log、指数、box-cox）
类别型：做编码，eg：one-hot编码，如果类别数据有缺失，把缺失也作为一个类别即可。
时间类：间隔化（距离某个节日多少天）、与其他特征（eg：次数）融合，变成一周登陆几次、离散化（eg：外卖，把时间分为【饭店、非饭店】）
文本类：N-gram、Bag-of-words、TF-IDF
统计型：与业务强关联
组合特征

活动时间

时间段：2017-11-15 ～ 2017-11-30

联系方式

项目负责人

@jiangzhonglian（片刻）

项目发起人

@jiangzhonglian（片刻）
@wangyangting（那伊抹微笑）
@chenyyx（瑶妹）

项目贡献者（请手动添加）

@jiangzhonglian（片刻）
@wangyangting（那伊抹微笑）
@chenyyx（瑶妹）
@zehuichen(loveSnowBest)
@谈笑风生（谈笑风生）

加入方式

有任何建议反馈, 或想参与文档翻译, 麻烦联系下面的企鹅

企鹅: 529815144(片刻) 1042658081(那伊抹微笑) 190442212(瑶妹)
ApacheCN - 学习机器学习群【629470233】
Kaggle (数据科学竞赛平台) | ApacheCN(apache中文网)

ApacheCN 组织资源

kaggle: 机器学习竞赛

深度学习	机器学习	大数据	运维工具
TensorFlow R1.2 中文文档	Sklearn 0.19 中文文档	Spark 2.2.0和2.0.2 中文文档	Zeppelin 0.7.2 中文文档
pytorch 计划中	机器学习实战-教学版	Storm 1.1.0和1.0.1 中文文档	Kibana 5.2 中文文档
		Kudu 1.4.0 中文文档
		Elasticsearch 5.4 中文文档
		Beam 中文文档

Name		Name	Last commit message	Last commit date
Latest commit History 121 Commits
competitions/getting-started		competitions/getting-started
datasets/getting-started		datasets/getting-started
docs		docs
src/python/getting-started		src/python/getting-started
static/images		static/images
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Kaggle

竞赛

第1部分：课业比赛 InClass

第2部分：入门比赛 Getting Started

第3部分：训练场 Playground

第4部分：研究项目(少奖金) Research

第5部分：人才征募 Recruitment

第6部分：大型组织比赛(大奖金) Featured

其他部分

机器学习算法

活动时间

联系方式

ApacheCN 组织资源

About

Releases

Packages

Languages

License

wudahht/kaggle

Folders and files

Latest commit

History

Repository files navigation

Kaggle

其他部分

机器学习算法

活动时间

联系方式

About

Resources

License

Stars

Watchers

Forks

Languages