Skip to content
forked from KXCY-AI/MLVP

可视编程机器学习平台 - 『人人可做的机器学习』-《智能数据挖掘》实战系列视频演示实验数据集与数据分析流

Notifications You must be signed in to change notification settings

CottontailBunny/MLVP

 
 

Repository files navigation

人人可做的机器学习 -《智能数据挖掘》实战系列视频

智能数据挖掘演示平台,是广州跨象乘云软件技术有限公司基于 Orange 的本地化扩展开发的版本,视频内所演示的全部实验均与 Orange 原始发布平台完全兼容,均可重现。借助交互式可视化界面,提供人工智能模型训练的全流程支撑智能化平台。支持从:面向多源、多格式数据融合,在线预处理,特征工程、智能统计;到模型训练、非监督学习、深度学习、强化学习;到模型评估、模型教学、预测、模型管理及交互式数据可视化发布等端到端功能。平台高效易用,开放支持 Python 模型代入;同时将数据科学中复杂的数据操作、机器学习算法、交互式数据可视化脚本,设置为流程组件,通过鼠标拖放,即能实现基于工作流的人工智能模型训练 —— 助力高校经管学院,统计数理学院等非计算机类专业师生,实现数据挖掘与机器学习的教学与科研工作。

Orange 原版下载(Windows):https://orange.biolab.si/download/#windows
Orange 原版下载(MacOS):https://orange.biolab.si/download/#macos
Orange 原版下载(Linux):https://orange.biolab.si/download/#linux

第1集 - 又一个鸢尾花分类(数据分类) (Lab-1)

Orange 是一款高效灵活的数据挖据工具,没有编程与统计学领域知识背景的学生,在职人士与科研人员,一样能实现机器学习算法模型的高级操作,把机器学习工具应用自如,就如同:Word, Excel 一样。在本集中,你将学习到:

  1. 如何创建数据挖掘工作流 ?
  2. 如何使用数据通道连接组件 ?
  3. 如何使用『文件』组件加载数据 ?
  4. 如何使用『散点图』组件以及“信息投影”实现数据分类 ?
  5. 如何实现通过拖放实现简单的数据过滤 ?

第2集 - 从安斯库姆四重奏到心脏病例(数据探索)(Lab-2)

弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造安斯库姆四重奏,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。通过数据探索实现数据的初步了解,称为探索性数据分析(EDA),它提供了一套系统的方法,帮助我们获得关于早期阶段的数据直觉,了解数据的模式,并输出代表数据的近似统计模型。数据源为 UCI 开源数据集 heart_disease.包含了 303 条相关病人因为胸痛来找医生的体检测试数据。在测试完成后,一些患者发现他们的动脉变窄(Diameter Narrowing)。我们使用源数据集内的其中 14 个特征(其中 14 列)。在本集中,你将学习到:

  1. 为什么初期数据探索非常重要 ?
  2. 如何进行基于『行』/ 『列』的数据过滤?
  3. 如何管理数据通道中数据流量?
  4. 如何使用『分布图』图表进行数据探索?
  5. 如何保存工作流并输出数据探索报告?

第3集 - 出海捕鱼?先看下决策树模型(决策树)(Lab-3)

什么是机器学习?机器学习,是计算机通过学习海量数据,获取对现实的认知模型,并对新数据进行推断。决策树是附加概率结果的一个树状的决策图,是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。在本集中,你将学习到:

  1. 什么是机器学习?机器最终学到的是什么?
  2. 决策树模型基本逻辑。
  3. 如何实现决策树模型?
  4. 配合『查看树』与『数据表格』组件,分析各因素影响下的目标几率。
  5. 通过『排名』组件,找到数据集的最佳特性。
  6. 决策树模型最佳应用场景。

第4集 - 泰坦尼克生存预测(决策树预测)(Lab-4)

泰坦尼克号是一艘英国皇家邮轮,归属于白星航运公司,是当时全世界最大的海上船舶,号称『永不沉没的梦幻之船』。1912 年 4 月 10 日,泰坦尼克号展开首航,自南安普敦,经瑟堡、皇后镇,最终目的地为纽约。1912 年 4 月 15 日,在中途发生擦撞冰山后沉没的严重灾难。2,224 名船上人员中有 1,514 人罹难,成为近代史上最严重的和平时期船难。

在本节中,你将学习到:

  1. 什么是机器学习中的训练集与测试集?
  2. 如何验证预测结果?
  3. 如何查看机器学习模型预测准确率?
  4. 如何导出并保存数据?
  5. 如何开始参加 Kaggle 数据科学竞赛。

第5集 - 班主任的个性化学习策略(层次聚类)(Lab-5)

监督式学习最大的特点,是它的数据都会带有一列标签列,作为每一行数据用于识别的目标。相对于监督式学习,无监督学习最大的特征是在于他的数据不具有标签列,或者被设置目标属性。完全依赖算法模型,去挖掘并发现数据内部所隐藏的各种规律。其实,无监督学习更符合大数据时代的需求,我们总说大数据应用很大程度上是沙里淘金,需要通过创新和想象,才能挖掘出尘封在海量数据下的真正价值。另外,你逐渐可以看到,通过理解机器的学习原理,同时,也是在不断的重新认识我们自己。因为在理解机器学习的过程中,我们会不断的审视自己固化的思维弱点。

今天,我们会给大家介绍聚类的其中一种算法模型,层次聚类。我们通过一位班主任,需要通过将学生分配到特定的学习小组,从而为他们安排个性化学习计划这样一个案例,来解析层次聚类的基本逻辑。

在本节中,你将学习到:

  1. 什么是监督式学习与无监督学习?
  2. 聚类算法的作用?
  3. 如何通过『数据集』组件下载数据。
  4. 欧几里德距离计算。
  5. 『层次聚类』算法模型基本逻辑。
  6. 如何使用『箱线图』观察数据分布。

第6集 - 智能快递柜安装选址(K均值聚类)(Lab-6)

层次聚类并不是一种非常高效的算法模型,它采用的是距离矩阵的运算机制,几乎每一个数据点都要跟其他数据点进行距离运算。假设,我们的数据集里面有3万个数据点的时候,将造成有近 10 亿次的连接运算。所以,在大数据环境中,我们很少使用层次聚类算法模型。K均值聚类,是另外一种聚类算法模型,它与层次聚类相比,具有更高的效率,即便是有数百万数据点的大数据集,通常也只需要几十,到几百次迭代便能够完成收敛。

在本节中,你将学习到:

  1. 层次聚类的优势与局限。
  2. K 均值聚类的基本逻辑与模型优化考量点。
  3. 使用『绘制数据』与『交互式 K-Means』实现 K 均值模型仿真。
  4. 使用『K均值』组件实现 K-Means 聚类模型。
  5. 使用『轮廓图』中的轮廓系数评估集群质量。

第7集 - 新冠肺炎疫情数据预处理(Lab-7)

山川异域,风月同天。在全球蔓延的新型冠状病毒肺炎,已成为全世界关注的焦点,全球数据科学家,人工智能专业团队,都在通过不同的途径,从不同的角度支援这场全人类的抗疫战争,包括:对新冠疫情趋势进行分析和预测;对病毒基因进行解构,加速疫苗研发;对肺炎病患X光片进行智能甄别;对行人是否佩戴口罩进行识别。因此,我们专门开辟了针对新冠病毒Covid-19的数据分析系列,跟大家一起,对新冠病毒的相关数据进行深入探讨。

在之前的机器学习实验当中,我们一直是把数据直接和相关的算法模型,或者可视化组件进行连接,然而,在实际工作中的数据并没有那么完美,我们在把原始数据导入到机器学习模型或者形成数据可视化仪表盘之前,还有一个很重要的环节,就是:数据预处理。在过去,数据预处理主要是指数据清洗,包括,检查数据是否完整,有没有缺失值;数据是否采用同样的标准;数据字段有没有乱码或者重复,以及是否采用标准的结构化格式。而在大数据和人工智能时代,数据清洗,数据标记很多时候已成为一项“众包”的业务,所以,现在数据预处理主要就集中在:数据合并,第三方数据库匹配融合,特征工程以及过滤掉无用的特征列等等。今天,我们会使用霍普金斯大学的新冠肺炎仪表盘背后的数据,来对它进行预处理。

数据链接地址:https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv

在本节中,你将学习到:

  1. 从互联网下载新冠疫情数据。
  2. 从开放数据网站下载宏观基础数据。
  3. 使用『合并数据』组件实现数据合并。
  4. 使用『编辑域』组件修改字段值,实现匹配。
  5. 使用『特征构造器』自定义新的数据特征。

第8集 - 新冠肺炎时间轴疫情地图 (Lab-8)

自新冠疫情开始在全球蔓延,各个数据科学机构,新闻媒体,都在互联网上发布了新冠病毒疫情地图。譬如,由中国国家基础地理信息中心发布的,新型冠状病毒肺炎疫情分布图。特点是除了在地图上标识了各个地区的确诊病例数量以外,还提供时间轴工具,让我们可以根据时间线索,来看到新冠疫情在全球的感染过程。今天,我们会跟大家一起,利用霍普金斯大学的新冠疫情数据,在我们的可视编程机器学习平台上,制作类似的新冠肺炎时间轴疫情地图。

如果您是第一次观看我们的系列视频,友情提示:本课程为纯公益的知识科普讲座,旨在让没有任何编程和统计学基础的人士,理解并掌握各种机器学习核心概念,工作流程,算法模型以及技术工具,并且,应用到日常的工作和生活当中。我们的操作演示平台源自于免费的数据科学平台 Orange,我们做了本地化和扩展性开发。同时,系列视频内所有的实验操作步骤,与实验结果,您都可以在原版的 Orange 平台上去重现。您可以在全球开源代码网站 GitHub 上找到实验平台、实验演示数据集与机器学习工作流的下载链接。你甚至不需要注册,更不需要填写申请表格,无广告,无引流,无套路。

在本节中,你将学习到:

  1. 如何下载并安装扩展组件。
  2. 使用『散点图』『GEO 地图』实现简易地图。
  3. 使用『转置』组件实现行列转置。
  4. 使用『编辑域』组件修改字段名称与数据属性。
  5. 使用『时间切片』组件定义时间跨度区间,分批读取数据。
  6. 使用『分集统计地图』/『GEO 地图』实现时间轴疫情地图演示。

第9集 - 新冠肺炎疫情趋势探索 (Lab-9)

时间序列,一直是用来作为趋势预测的一个最重要工具。时间,他作为极少数人类无法影响的自然定律,恰恰能让我们以此作为标尺,去发掘时间所缠绕的事物内部,那些隐藏的,非显性的发展趋势,或者是季节性变动,循环周期以及不规则运动等规律。当新冠肺炎刚开始在国内蔓延,众多高校与科研机构,就不断的跟进并发布关于疫情发展趋势的预测以及论文。其中,对时间序列进行移动平均分析,是最为常用的预测手段。今天,我们会跟大家一起,利用移动平均对霍普金斯大学的时间序列新冠疫情数据,进行趋势探索。

在开始实验之前,你需要确认安装了Orange的最新版本,并且加载了时间序列扩展插件。如果你不清楚相关的插件安装方式,可以参照我们上一期的视频。

移动平均交易教程:https://www.youtube.com/watch?v=4R2CD...

在本节中,你将学习到:

  1. 使用『时序处理』组件为数据行排序。
  2. 使用『Python 脚本』组件引入外部代码。
  3. 使用『差分模型』组件实现增量/增速差分运算。
  4. 使用『移动转换』组件制作平滑化移动均线(滤波)。
  5. 使用『趋势图』组件实现趋势探索。

第10集 - 线性回归与房价预测 (Lab-10)

我们借助真实的房地产交易数据,包含了2011到2017年接近32万条网签交易记录,提供了超过20项房产交易的数据特征。跟大家介绍线性回归在平台上的实现方式,另外,继续用人人能听得懂的方式,向大家进一步介绍机器学习里面的其它基本概念。

在本节中,你将学习到:

  1. 线性回归的基本逻辑。
  2. 什么是损失函数与梯度下降。
  3. 如何运用特征组合,以及运用正则化,防止过拟合。
  4. 使用『线性回归』与『多项式回归』组件实现正则化回归模型。
  5. 使用『数据采样器』自动分割原始数据为测试集与训练集。
  6. 使用『测试与评分』实现交叉验证,并对模型进行评估。

第11集 - 线性回归与房价预测 (Lab-11)

『强基计划』取代了过去的高校『自主招生』模式,从『自主招生』采取降分录取的方式,升级为将考生高考成绩、高校综合考核结果,和综合素质评价结合在一起,换算为综合成绩,并且从高到低顺序录取,从而,对学生进行更加全面的考查。其实,这种双分制评判,在国外高校招生中,已经非常普遍。譬如,美国很多学校,便采用GPA成绩和SAT/ACT也就是美国高考成绩作为录取依据。然而,由于各校之间的依据不统一,到目前为止,美国高校如何选拔新生依然属于魔幻操作。以致有网站专门根据你的GPA与SAT成绩,来预测你被某所高校录取的概率。

我们使用一份从 Kaggle 下载回来的,非常有趣的美国考生GPA/SAT成绩数据,分别使用:逻辑回归、神经网络以及随机森林算法模型,来尝试对录取概率进行分析。看看你是否能利用机器学习,在同样是双分制评判的『强基计划』中占据先机。

在本集中,你将学习到:

  1. 逻辑回归的基本逻辑。
  2. 什么是学习率、超参数、感知机算法与激活函数。
  3. 如何理解逻辑回归函数:Sigmoid。
  4. 如何结合『混淆矩阵』与『散点图』检验分类误差。
  5. 如何实现并验证逻辑回归、神经网络、随机森林模型。

第12集 - App推荐系统与随机森林 (Lab-12)

随机森林属于集成学习方式,但并不集成其他的机器学习模型,只采用单一的决策树模型。然而,每个决策树模型,使用不同的随机采样数据进行训练。训练集中的数据样本,会被随机的抽取到某一棵决策树模型的训练中,称作数据样本随机性。每一棵树分别在随机抽取小部分数据特征进行训练,并得出模型,称作特征随机性。经过两次随机性的决策树模型中,每棵决策树运算出它的分类结果,汇总结果,通过投票,得出最终分类结果,并且与验证集中的答案匹对。

在本集中,你将学习到 ——

  1. 基于决策树的推荐系统基本逻辑
  2. 使用毕达哥斯拉斯树分析决策树模型样本数据分裂状态
  3. 决策树模型的局限性
  4. 集成学习基本原理
  5. 随机森林基本原理
  6. 决策树与随机森林分类准确率对比

========================================================

视频原创制作:广州跨象乘云软件技术有限公司
公司网站:https://www.080910t.com/
演示数据集下载:https://github.com/kxcy-ai
Youtube 频道:https://www.youtube.com/channel/UCuaxh_Zcvyf-5Hbi6dBoatQ
国内镜像:https://space.bilibili.com/189064479
Orange 原版下载:https://orange.biolab.si/

About

可视编程机器学习平台 - 『人人可做的机器学习』-《智能数据挖掘》实战系列视频演示实验数据集与数据分析流

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published