由于我们现在采用的方法已经基本上变为是基于概率的方法,所以我们便需要有大量的数据集对我们的系统进行训练,以完成监督学习。而现在的互联网环境让这种极大数据集的获得变得越来越方便和容易。就如我们所熟知的ImageNet,ImageNet是一个带有标记信息的图片库,里面的图片均已经由人对图片内容进行了标记。它就好比是一个用于测试计算机视觉系统识别能力的“题库”,包含超过百万道“题目”。 题目由图像和对应的单词(80%为名词)组成,考察的方式是计算机视觉系统能否识别图像中的物体并返回正确的单词。ImageNet使用训练题对计算机视觉系统进行“培训”,然后用测试题测试其识别能力。
(ImageNet数据集)
又如AlphaGo,在DeepMind的主页里,AlphaGo是这样被介绍的:它是一种计算机玩围棋的新方法,这种方法运用了基于深度神经网络的蒙特卡洛搜索树,而这个深度神经网络一方面是通过运用人类专家级围棋棋局进行监督学习来训练,另一方面还通过程序通过电脑自己与自己博弈的增强学习来进行训练,可见AlphaGo的成果也离不开通过学习人类专家级棋谱进行监督学习的这个大量数据集的使用。
(DeepMind的主页里AlphaGo的页面)
今天这篇文章,我们从人工智能的萌芽一直到今天AlphaGo打败击败欧洲冠军樊麾职业二段这个里程碑式的事件截止,介绍了人工智能能走到今天这个成就的一路的艰难险阻与大风大浪。我相信,随着计算机运算能力以及更加优化的算法,以及大数据集和数据挖掘等技术的帮助,人工智能的路一定会继续高歌猛进。