机器学习集成算法：XGBoost思想-机器学习-技术-爱吧机器人网

机器学习集成算法：XGBoost思想

2017-12-12 IT技术之家浏览量：

XGBoost和随机森林虽然用的基础模型都是决策树，但是它们在本质上是不同的，XGBoost是串行的组合决策树，也就是先有了第一个，然后根据某个算法计算出要不要第二棵树，如果要，才有了第二个，依次类推，不可能并行地同时处理3个；而随机森林是并行的组合，意思是可以并行计算，一次并行处理多个。

1、回顾

这几天推送了机器学习的降维算法，总结了特征值分解法，奇异值分解法，通过这两种方法做主成分分析（PCA）。大家有想了解的，可以参考：

数据预处理：PCA原理推导

数据降维处理：PCA之特征值分解法例子解析

数据降维处理：PCA之奇异值分解（SVD）介绍

数据降维：特征值分解和奇异值分解的实战分析

至此，已经总结了机器学习部分常用的回归，分类，聚类算法，接下来，介绍一种非常经典的，在工业界应用广泛的集成算法：XGBoost。

2、从随机森林说到XGBoost

随机森林是在决策树的基础上，放入许多棵决策树，并行的，独立的构造出每棵决策树，树与树之间没有关系，通过这种方式达到优化提升的目的。

随机森林算法，再加入第 k 棵树时，没有考虑前面的 k - 1 棵，只是随机的往森林里加一棵。与之相对的是，每次往森林里扔第 k 棵树的时候，要考虑前面的 k-1 棵树，并且加入这 k 棵树后，预测的效果必须要好才行，不好的话，就不能放入这 k 棵树，关于如何选择第 k 棵树以达到优化提升的过程，就是 XGBoost 的精华所在。

3、XGBoost选择第 k 棵树的思想

XGBoost算法解决的核心问题：如何选择第 k 棵树，而不是像随机森林那样随便往里面扔树。

下面举个例子先说明下问题的背景，要预测某个群体玩电脑游戏的可能性大小，在此我们要构建了 tree1，根据 age 和 male 这两个特征，得到了tree1，每个叶子节点不是简单的给出玩还是不玩电脑游戏，而是给出它的得分值（概率值相关），这是比较有意义的，之前，说到过，高斯混合模型（GMM）在做聚类任务时，最后也是给出每个样本属于每个分类的得分值，这就比KNN算法简单的给出每个样本属于某个簇，而不能给出属于每个簇的概率值，有时候要有意义的多。

根据 tree1，可以判断小男孩这个样本，玩电脑游戏的得分值为 +2，而小女孩呢得分值为 +0.1 ，爷爷奶奶们得分为 -1 。而根据实际的样本值得出小男孩玩游戏的得分值为+3，爷爷玩游戏的得分值为 +0.1 ，奶奶玩游戏的得分值为 -3 。

现在又来了 tree2，也就是说树的结构已经知道了，可以看出小男孩和爷爷的得分值都为 +0.9 。

所以，根据这两颗树，我们得出，小男孩玩电脑游戏的得分值为 +2.9，爷爷玩电脑游戏的得分值为 -0.1 。

问题来了，那么根据 tree2这个树的决策结构，我们是否该选择 tree2 呢？我们可以这样构思这个问题，tree1和tree2 我们可以综合起来看成一颗决策树来考虑，这样可以借用决策树的一些思想，比如加入 tree2 后，综合考虑得出的信息增益是否大于我们不加入tree2时的好，如果没有满足，那么还是不要这颗 tree2，如果能大于阈值，就可以说它提升了模型的预测精度，要！

可以看到加入tree2后，小男孩的最终得分值更接近 +3了，而爷爷的得分也更接近了目标值。所以tree2 要加入进来。

以上就是XGBoost在做优化时主要思想。

精选推荐

国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20] 视网膜静脉阻塞，简称RVO，对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块，这可能导致视力严重下降，在某些情况下，病 ...

2017年：AI渗入云端

[2017-12-29] 云中的人工智能不仅仅是科技巨头的权力游戏，它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

基于生物启发的机器人很容易适应丢失附属器官

[2017-12-17] 很多机器人被设计应用在危险环境，如灾难现场。在这些地方，他们的运动系统完全有可能被损坏。那这样会吓跑这些机器人吗？也许不是，如果它们像日本的东北和北海道大学创造的......

CES 2018：英特尔推出49量子位芯片争夺量子霸权

[2018-01-10] 在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中，英特尔通过了一个关键的里程碑。近日，这个科技巨头已经推出了一个49个量子位 ...

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14] 英伟达（Nvidia）和伦敦国王学院（King’s College London）的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络， ...

助力卷积神经网络时空特征学习史上最大行人重识别视频数据集被提出

[2017-12-25] 本文提出了一个大型的、长序列的、用于行人重识别的视频数据集，简称LVreID。与现有的同类数据集相比，该数据集具有以下特点：1）长序列：平均每段视频序列长为200帧，包含丰......

2022年全球工业机器人市场将达到790亿美元

[2017-09-04] 预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03] 软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用，而不会杀死他们，并拿起像西红柿这样柔软的物体。” 从长远来看，布鲁塞尔大学队伍正在努力创建一个类似的材......

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01] 　　人工智能（AI）研究现正迅速发展，如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法（BP）原理推导及代码实现

[2017-12-19] 分析了手写字数据集分类的原理，利用神经网络模型，编写了SGD算法的代码，分多个epochs，每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中，非常重要的一个步骤，......

如何在机器学习项目中使用统计方法的示例

[2018-07-23] 事实上，机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中，我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

Machine Learning-感知器分类算法详解

[2018-05-31] 今天我们来讲解的内容是感知器分类算法，本文的结构如下：什么是感知器分类算法，在Python中实现感知器学习算法，在iris（鸢尾花）数据集上训练一个感知器模型，自适应线性神......

模拟退火算法（SAA）

[2017-08-28] 模拟退火（Simulated Annealing，简称SA）是一种通用概率算法，用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理：将固体加温 ...