爱吧机器人网 » 技术 > 机器学习 > 正文

如何在机器学习项目中使用统计方法的示例

\
 
统计学和机器学习是两个密切相关的领域。两者的界限有时非常模糊,例如有一些明显属于统计学领域的方法可以很好地处理机器学习项目中的问题。事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。
 
在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。这将证明,统计学的有效知识对解决预测建模问题是必不可少的。
 
1、问题框架
 
在预测建模问题中,影响最大的可能就是问题框架了。它要对问题类型做不同的选择,例如选择回归或分类,以及问题的输入输出的结构和类型。
 
问题框架并不总是显而易见的。对于该领域的初入门者,需要对领域的观察发现结果进行深入研究。而对于那些总是从传统角度看待问题的领域专家来说,则需要从多角度考虑数据。
 
在构思问题框架时统计学方法能够帮助探索数据,包括:
 
·探索性数据分析:通过总结和可视化探索数据的ad hoc视图。
 
·数据挖掘:自动发现数据中的结构化关系和模式。
 
2、数据理解
 
数据理解意味着要对变量的分布和变量之间的关系有一个深入的了解。这些知识有些来自领域的专业知识,或者需要专业知识来解释。然而,不论是领域专家还是新手都是从这个领域的观察资料中获益。
 
统计方法的两大分支可用于帮助理解数据:
 
·汇总统计:该方法使用统计量总结变量之间的分布和关系。
 
·数据可视化:该方法使用可视化方法(如图解、散点图、曲线图)来总结变量之间的分布和关系。
 
3、数据清理
 
通过直接观察发现的成果,往往不能作为最原始的数据。因为尽管数据是数字化的,它还是会受到进程的影响损害数据保真度,并且反过来这些数据还会对下游进程或模型造成影响。
 
一些例子包括:
 
·数据损坏。
 
·数据错误。
 
·数据丢失。
 
识别和修复数据问题的过程被称为数据清理。
 
统计学中有些方法可用来进行数据清理,例如:
 
·异常点检测:识别分布中远离预期值的异常值。
 
·归责:修复或填充观察结果中的损坏值或缺失值。
 
4、数据选择
 
在建模时,并非所有的观察值或所有的变量都是相关的。
 
将数据范围不断缩小,直到剩余元素对预测结果最有效的过程称为数据选择。
 
用于数据选择的两种统计方法为:
 
·数据样本:系统地从较大数据集中创建小的具有代表性的样本。
 
·特征选择:自动识别与输出结果最相关的变量。
 
5、数据准备
 
通常数据是不能直接用于建模的。所以为了匹配已选好的问题框架或学习算法,要对数据进行一些转换来改变数据的形状或结构。
 
可使用以下统计方法进行数据准备:
 
·扩展:如标准化、规范化等方法。
 
·编码:类似整数编码和热编码的方法。
 
·变换:类似Box-Cox方法那样的功率转换方法。
 
6、模型评估
 
预测建模问题的关键是评估学习方法,当在训练模型中对没见过的数据进行预测时,需要对模型的技能进行评估。这种训练和评估预测模型的过程称为实验设计。
 
·实验设计:该方法能够通过设计系统实验来比较独立变量对输出结果的影响,如机器学习算法的选择对预测精度的影响。
 
有些实验设计的方法可以重新采样数据集,从而更经济的使用数据来预估模型技能。
 
·重采样方法:为了训练和评估预测模型,系统地将数据集分成子集的方法。
 
7、模型配置
 
一个给定的机器学习算法通常具有一套超参数,通过超参数实现对特定问题量身定制学习方法。超参数的配置本质上是经验性的而不是分析性的,所以需要大量实验来评估不同超参数值对模型技能的影响。
 
使用统计的两个子领域之一对不同超参数配置之间的结果进行解释和比较,即:
 
·统计假设检验:该方法能在给定结果的假设或预期的情况下,量化观察结果的可能性。
 
·估算统计:能够用置信区间量化结果的不确定性。
 
8、模型选择
 
众多机器学习算法中的某一个也许刚好适用于给定的预测建模问题。所以,选择一种方法作为解决方案的过程称为模型选择。这可能会涉及到一套标准,不仅要考虑项目利益相关方,还有对问题评估方法预测技巧的要求。
 
可以使用与模型配置一样的两类统计方法来解释不同模型的估算技能,即:统计假设检验和估算统计方法,从而实现模型选择。
 
9、模型表示
 
一旦最终模型得到训练,那它基于真实数据部署后就可以进行实际预测,并呈现出最终结果。
 
最终,模型表示的一部分包括展示模型的评估技能。
 
估计统计领域的一些方法可以通过使用容忍区间和置信区间,达到量化机器学习模型评估技能的不确定性。
 
·估计统计。该方法通过置信区间量化模型技能的不确定性。
 
10、模型的预测
 
最后,是时候使用最终模型对我们不知道的真实结果预测新数据了。预测中非常重要的一部分是量化预测的可信度。
 
我们可以使用与模型表示一样的估计统计方法来量化这种不确定性。
 
总结
 
通过本文,你应该了解到了统计方法在整个预测建模项目过程中的重要性。


上一篇:开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人
下一篇:机器学习:加快电镜缺陷分析
精选推荐
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来使消费者受益
改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08]  市场研究公司IHS Markit预测,到2020年,专业无人机市场将通过农业,能源和建筑等行业利用测量,制图,规划等技术实现77 1%的复合年增长率(CAGR)。与此同时,消费者无人......

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...