我们将解释的基本特性和应用领域下面所有这些算法。然而,我们必须事先解释机器学习的基本原则。
所有的机器学习模型旨在学习一些函数(f),提供最精确的输入值之间的相关性(x)和输出值(y)y = f(x)。最常见的情况是,当我们有一些历史数据X和Y和AI模型部署到可以提供最好的这些值之间的映射。结果不能100%准确,否则,这将是一个简单的数学计算不需要机器学习。相反,f函数我们训练可以用来预测新的Y使用新的X,从而使预测分析。各种毫升模型实现这个结果采用不同的方法,然而上面的主要概念保持不变。
线性回归 Linear Regression
线性回归中使用数理统计超过200年了。算法的目的是找到这样的系数值(B),提供最影响精度的函数f我们正在努力训练。最简单的例子是y= B0 + B1 * x,其中B0 + B1是相关功能
通过调整这些系数的权重,数据科学家得到不同结果的训练。该算法成功的核心要求是有明确的数据没有太多噪音(低价值信息)和删除输入的变量具有相似值(相关输入值)。
这允许使用线性回归算法梯度下降优化金融统计数据的银行、保险、医疗、营销、等行业。
逻辑回归 Logistic Regression
逻辑回归是另一种流行的人工智能算法,能够提供二进制的结果。这意味着该模型预测结果和可以指定一个y值的两个类。函数也是基于改变权重的算法,但由于不同非线性逻辑函数是用于转换结果。这个函数可以表示成一个s形线分离从虚假的真实值。
成功的需求是一样的线性回归-删除相同的值输入样本和减少噪音(低价值数据)。这是一个相当简单的函数,可以比较快地掌握,对执行二进制分类非常有用。
线性判别分析 Linear Discriminant Analysis (LDA)
这是一个逻辑回归模型的分支时,可以使用超过2类可以存在于输出。数据的统计特性,如均值分别为每一个类和总方差总结类,计算模型。预测允许计算每个类和确定类的值最值。这个模型是正确的,需要分布式的数据根据高斯钟形曲线,所以所有主要的异常值应该事先被移除。这是一个伟大的和非常简单的模型进行数据分类和构建预测模型。
决策树 Decision Trees
这是一个最古老,最常用、最简单和最有效的ML模型。它是一个典型的二叉树是或否决定每个分裂,直到模型达到结果节点
这个模型是简单的学习,它不需要数据规范化和可以帮助解决多种类型的问题。
Naive Bayes 贝叶斯
朴素贝叶斯算法是一个简单,但非常强大的模型来解决各种复杂的问题。它可以计算2种可能性:
1、每个类出现的机会
2、条件概率为一个独立的类,因为有一个额外的x修饰符。
模型被称为天真的操作时,假设所有输入数据值都与彼此无关。虽然这不能发生在现实世界中,这种简单的算法可以应用于多种规范化数据流预测结果与一个伟大的精确度。
K-Nearest Neighbors
这是非常简单的和非常强大的ML模式,使用整个训练数据集作为代表。计算结果的预测价值通过检查整个数据集K数据节点具有相似的价值观(所谓的邻居)和使用欧式数量(这可以很容易地计算基于价值差异)来确定结果值。
这样的数据集需要大量计算资源的存储和处理数据,受到精度损失当有多个属性,必须不断策划。然而,他们的工作非常快,非常准确和有效地发现在大型数据集所需的值。
学习矢量量化 Learning Vector Quantization
KNN的唯一主要缺点是需要存储和更新大型数据集。学习矢量量化或LVQ资讯进化模型,神经网络,使用码向量来定义所需的训练数据集和整理结果。因此说,向量是随机的,和学习的过程涉及到调整值最大化的预测精度。
因此说,找到最相似的价值观的结果的向量的最高精确度预测结果的价值。
支持向量机Support Vector Machines
该算法是一种最广泛讨论的数据科学家之一,因为它提供了非常强大的功能进行数据分类。所谓的超平面是一条直线,把数据输入节点有不同的价值观,和这些点到超平面的向量可以支持它(当同一类的实例的所有数据都在同一侧的超平面)或藐视它(当数据点在平面上的类)。
最好的超平面是最大的积极的向量和分离的数据节点。这是一个非常强大的分类机,可以应用于广泛的数据归一化问题。
随机决策森林 Random Decision Forests or Bagging
随机决策森林形成决策树,多个样本数据处理通过决策树和结果汇总(喜欢收集许多样品袋)找到更准确的输出值。
找到一个最优的路线,而是多重次优路由定义,从而使总的结果更精确。如果决策树解决问题之后,随机森林是一个调整的方法,提供了一个更好的结果。
深度神经网络 Deep Neural Networks
DNNs 是最广泛使用的人工智能和ML算法。有显著改善深上优于文本和语音应用程序,机器感知和OCR深层神经网络,以及使用深度学习赋予强化学习和机器人运动,连同其他杂款的应用程序。
正如你所看到的,有一个充足的各种人工智能算法和ML模式。一些更适合数据分类、excel在其他领域。没有模型适合所有大小,所以为你选择最好的情况是至关重要的。
如何知道这个模型是正确的吗?考虑以下因素:
1、3 V的大数据需要处理(输入的数量、种类和速度)
2、计算资源的数量在你的处置
3、时间可以花在数据处理
4、数据处理的目的
因此说,如果一些模型提供了94%的预测精度为代价的两次延长处理时间,相比86%准确的算法——各种各样的选择大大增加。
然而,最大的问题通常是高层的普遍缺乏专业技能来设计和实现数据分析和机器学习解决方案。这就是为什么大多数企业选择托管服务提供商之一,专门从事大数据和人工智能的解决方案。