从基础概念到数学公式，这是一份520页的机器学习笔记（图文并茂）-机器学习-技术-爱吧机器人网

从基础概念到数学公式，这是一份520页的机器学习笔记（图文并茂）

2018-06-21 人工智能笔记浏览量：

机器之心整理
笔记作者：Jim Liang

近日，来自SAP（全球第一大商业软件公司）的梁劲（Jim Liang）公开了自己所写的一份 520 页的学习教程（英文版），详细、明了地介绍了机器学习中的相关概念、数学知识和各种经典算法。机器之心看到后，也迫不及待的推广给更多的读者。完整的 PDF 请从文后作者公开的链接下载。

在介绍中，Jim Liang 写到：

人工智能是这两年风头正劲的领域，也是未来具有颠覆性可能的新领域。不少人尝试去学习机器学习相关的知识。然而，一旦越过最初的 overview 阶段，很多人就开始打退堂鼓了，然后迅速放弃。

为什么会这样？

极高的学习曲线

首当其冲就是数学，涉及统计学、微积分、概率、线性代数等，大家虽然都学过高等数学，但如果你还记得里面的细节，算你牛。更可能的情况是，多数人都对高等数学忘记了，面对各种算法里的大量公式，感到厌恶，甚至恐惧。
其次因为机器学习本身是一个综合性学科，而且是一个快速发展的学科，知识点散乱，缺乏系统性。
市面上的机器学习/深度学习书籍、文章、教程，遍地开花，但能以清晰的方式表达、循序渐进地讲解的教程，其实不多，大量的教程没有考虑到学习者的基础，使得初学者感到挫败和困惑。

图解机器学习

正是对机器学习的过程中的痛苦有切身体会，我希望能做一份教程，以浅显易懂的方式去讲解它，降低大家的学习门槛。我为此花费了数月时间，经常做到深夜，把自己的学习笔记整理成了这份教程。

从结构来看，全部教程包含两部分：

Part 1 介绍了基本概念，包括：

机器学习的流程
数据处理
建模
评估指标（如 MSE、ROC 曲线）
模型部署
过度拟合
正则化等

在第一部分，作者先介绍了如今应用普遍的机器学习：从自动驾驶、语音助手到机器人。其中有些思想，也是众多读者们了解过的，例如：为何机器学习在这个时候会火（大数据、计算力、更好的算法）；机器学习、人工智能、深度学习三者的关系等。

除了这些基础概念，这份教程也对机器学习模型的开发流程做了图像化展示（如下图），即使对此不太了解的读者，也能通过这种流程展示有所学习。

建立机器学习解决方案的步骤

在 Part1 的其他小节，作者以类似的图像展示，对数据、建模、模型部署等内容做了详细介绍，这里就不一一列举，可以从原报告查看。

在 Part2，作者介绍了常用的算法，包括：

线性回归
逻辑回归
神经网络
SVM
Knn
K-Means
决策树
随机森林
AdaBoost
朴素贝叶斯
梯度下降
主成分分析

这部分包含了大量的数学公式，但作者尽力注解了其中的每个公式，从而充分、清晰地表达了众多数学概念。

例如在「神经网络」部分，作者整理了 59 页的笔记（从 311 页到 369 页）。作者从人脑中的神经元架构说起，介绍了人工神经网络（ANN）、人工神经元工作的原理。这份笔记非常注重图像化的概念解释，理解起来非常直观。

例如，下图中的概念解释很形象地展现了生物神经元和人工神经元工作方式的相似性。

生物神经元的树突输入-轴突输出模式和人工神经元的输入输出模式对比。

过拟合的解释。

人工神经元的基础结构。

在涉及到数学公式时，作者会在旁边有详细的注解，如下图所示：

对于并列的可选项（如激活函数、常用神经网络架构等），也会有全面的列表：

常用的激活函数。

然后会有每个激活函数的单独介绍：

Sigmoid 激活函数。

用神经网络分类手写数字的前向传播示例（softmax 激活函数）。

对于神经网络中较为复杂的概念（如求导、反向传播），几张图就能解释清楚：

关于神经网络的完整训练过程，作者用简略流程图+计算细节展开的方式呈现：

反向传播算法完整流程。

前向传播部分的计算细节。

就像前面提到的，这部分除了「神经网络」的介绍，还包括随机森林、梯度下降等概念的介绍，读者们可查看原教程。

总结

看完这份教程之后，小编觉得这是一份包罗万象的学习笔记，既适合非专业人士了解有关机器学习的基础概念，又适合有专业背景的学生进一步学习。

写教程是为了自己持续学习，分享教程是为了帮助更多人学习。就像作者所说，「Learning by doing/teaching, 写这个教程主要是强迫自己持续学习，另外，也想分享给他人，希望能帮助到更多想学习 Machine Learning 的人，降低大家的学习痛苦。」

教程文档下载地址（百度云）：https://pan.baidu.com/s/1tNXYQNadAsDGfPvuuj7_Tw

本文为机器之心整理，转载请联系原作者获得授权。

精选推荐

这个外科手术机器人可以为患者“量身定制”

[2019-07-12] 世界首创，来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界，他们创造了可定制的、小型化的手术机器人，能够唯一地 ...

谷歌在中国成立一个新的人工智能（AI）研究中心

[2017-12-13] 谷歌正在中国建立一个新的人工智能（AI）研究中心，希望进一步扩展到中国，以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一，亚马逊，微软......

智能农业：种地的事儿未来全交给这些机器人吧

[2019-12-07] SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC（Small Robot Company），正在 ...

人工智能民主化能否实现取决于科技巨头

[2017-12-29] 我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词，民主化。但这些公司如何界定“民主化”还不清楚，像AI本身一样，它似乎有点炒作的味道...

Crossbar将电阻式RAM推入嵌入式AI

[2018-05-17] 电阻RAM技术开发商Crossbar表示，它已与航空航天芯片制造商Microsemi达成协议，允许后者在未来的芯片中嵌入Crossbar的非易失性存储器。此举是在先进制造业节点的领先代工厂选......

苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11] 苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点，但今年似乎正在加速。 4月份，公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证，而在6月份，苹果公司首席执行官库......

集群机器人领域最新研究：一种用于探测未知环境的微型无人机群

[2019-10-26] （图：无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向，它将试图飞到另一个方向。若首选方向冲突，低优先 ...

2018年企业数字化转型的五大趋势

[2017-12-16] 据2016年哈佛商学院研究表明，选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升，相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊，也曾是收入处于......

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01] 　　人工智能（AI）研究现正迅速发展，如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法（BP）原理推导及代码实现

[2017-12-19] 分析了手写字数据集分类的原理，利用神经网络模型，编写了SGD算法的代码，分多个epochs，每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中，非常重要的一个步骤，......

如何在机器学习项目中使用统计方法的示例

[2018-07-23] 事实上，机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中，我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

模拟退火算法（SAA）

[2017-08-28] 模拟退火（Simulated Annealing，简称SA）是一种通用概率算法，用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理：将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31] 今天我们来讲解的内容是感知器分类算法，本文的结构如下：什么是感知器分类算法，在Python中实现感知器学习算法，在iris（鸢尾花）数据集上训练一个感知器模型，自适应线性神......