(Bengio all-seeing eye:From artificial intelligence to the human collective)
我们来看一下Bengio两篇很民科,但很重要的论文。一篇是《Evolving Culture vs Local Minima》,讲meme,一篇是《Consciousness Prior》,讲意识。
如此重要的思想是如何涌现出来的呢?是借助冥想(或类似的杀时间的方式)。
我不是社会科学家或心理学家,因此我对这些主题的看法应该是这样的。我的观点是,许多个体常常固守自己的信念,因为这些信念已经成为他们身份的一部分,代表了他们对自己的定义。改变信念是困难而可怕的。我相信,我们大脑的很大一部分工作,都是为了让我们的所有经验能够更加连贯,以便构建一个更好的世界模型。从计算的角度来讲 ,可能和有效局部最小值的概念有关(优化过程被卡住了)。从数学的角度来讲,这可能和推理(Inference)问题有关,即学习者通过观察到的数据,来寻找合理的解释(隐变量)。在随机模型中,推理是通过一种对配置进行随机探索的形式完成的(比如马尔科夫链真的看起来像一系列自由的关联)。
冥想等并没有任何指向,只是思考而已,但可能有助于我们这种方式的探索。有时灵光一闪,我们会发现一个具有普适意义的解释。这恰恰是科学思想涌现的方式(至少对我而言)。by Y. Bengio
本文资料均有张恩文兄搜集整理,错误的请归于我,偶尔正确的,请归于他。
1,民科
我们来看对于Ali Rahimi在2017年NIPS上的“
机器学习是炼金术”的回应(以及与之相关的责难,比如“DL有效但没有理论”的回应)。
LeCun:炼金术的
观点是侮辱性的。实践本就先于理论。Ali Rahimi随后轻飘飘的回:If you don't like what's happening, fix it。这是理呆。
有人说DL没道理,Hinton说我performance第一,可能它是有点道理的。Alex Smola问你们是不是发展发展稳固的理论,Hinton说,我觉得你会做这事儿的。这是战神。
Schmidhuber:自指哥德尔机器 | 终极认知 | 最优通用问题解决者 | AI成为一种形式科学 AI becoming a formal science。这是朋克。
Bengio:有一种非常简单的方法,让我们无需证明,就能够得到学科的严谨性,大家都经常用到:叫做科学方法论,它依赖实验、假设和验证。There is a simple way that you get scientific rigor without proof, and it's used throughout science: it's called the scientific method, and it relies and experiments and hypothesis-testing ;-) 。这是民科。中文翻译由Bengio的粉丝吴甘沙老师翻译。
吴老师你补的好刀。
还是看Hinton如何基于科学的严谨性,又能阐明形式,回答我们不用理解DL是怎么工作的。
他说,一个好的类比是,风中有一棵树,一片叶子从树上落下,物理学家不能告诉你它落在地上的准确位置,即便你将所有的事情都告诉他。但他会告诉你Navier-Stokes equations(一组描述流体的方程式),如果迭代运行它们,足够的初始条件就会得到准确的落地位置,但他不能告诉你每一片叶子的具体位置。我认为就是这是我们得到的那种理解,我们想要的是Navier-Stokes equations,但我们不会理解这个方程式所带来的东西。
即,虽然现在我们不会理解AI内部具体是怎么工作的,但仍然可以用类似Navier-Stokes方程的方式来描述它。DL也许已经有了他的Navier-Stokes方程,也许暂时还没有,但即便是已经有了,我们也不能精确的理解AI内部到底如何工作的。就像不能精确预测每一片叶子落地的具体位置一样。叶子落地位置不是hypothesis-testing。
波普尔曾经对进化论有过一个经典的论述:达尔文进化论,是一个试探和排除错误的理论,它并非是一个可检验的科学理论,而是一个供可检验的科学理论使用的框架,一个形而上学纲领。试探-排除错误,是hypothesis-testing。
2,社会习得Social Learning
当然,Bengio的“试探-排除错误”的论文很重要。
meme论文由8个主要的假说hypothesis构成,分别是:
优化假说
局部下降假说
局部最小值假说
深度抽象假说
深-难对应假说
难度抽象假说
引导学习假说
模因分治假说
让我们跟随着这八大假说,逐步分解Bengio的主要思想,试图去发现假说为何如此提出、理念为何如此宣说的原因,可能部分源于论文之外。
优化假说:当单个生物代理的大脑学习时,它就某些内生目标进行近似优化。Optimization Hypothesis. When the brain of a single biological agent learns, it performs an approximate optimization with respect to some endogenous objective. by Y. Bengio
每个有大脑的生物,都是天生的学习者,我们称之为“代理”(近年来AI大热后,通常也称agent为“智能体”IA)。而AI早期的愿景,就是希望能建立一个IA代理,能自主学习,learner of learning。这也是为什么“无监督学习”如此重要,即,没有人参与的机器学习。无需调参的AI。
代理通过观察(来自现实世界的传感设备)来构建观察到的东西之间的关系(可以看做变量之间的函数)。这可以看做是一个数据压缩过程,其(观察)结果可以建立未来的预测。对感官进行建模,即,改善对给定输入的预测,并在给定过去观察的情况下改善未来观察的预测。在数学上,是概率模型。或者近似模型。
感官建模可以看做生存这个内生目标的分解,生物进化来“看”和“运动”,否则早就被吃eaten了。所以定义学习的训练标准,它的最终标准涉及未来的奖励,如生存、繁殖,和预先内定的奖励信号,如饥饿、口渴、睡眠,这些的总和。它总可以分解为多样化的中间标准。
大脑优化了什么?代理面临所有任务共享一个围绕在代理周围的潜在“世界”,大脑充分的利用这些共性。而且,生物从来不是单一目标,同一大脑必须在多种训练标准影响下决策,这些标准不能分离,但可以集中到具有适当权重的单一标准中(天生的、或是进化选择的)。Bengio区分了其中两种动力,预测和奖赏,前者来自于Rumelhart,后者就来自于Sutton。前者解释了好奇心和我们理解观察能力并从中学习的能力,即使我们没有即时的或可预见的利益或损失。后者显然对生存至关重要,因为生物大脑需要将他们的模拟工作集中在对生存最重要的事情上。
注意到,生存和繁殖(可能是某种进化中有意义的目标)其实没有被明确定义:它依赖于其他生物的行为,或者在生态关系的位置。某个生物或物种通过“学习”或是进化而“改善”,目标就会改变。基因也可以看作是某种自存储的程序,而生态群体也可以看做某种学习的代理。我们可以从其中得出一个更为稳定的目标:理解世界如何发展。它也可以作为无监督学习的最终目标。
局部下降假说:当单个生物代理的大脑学习时,它依赖于近似的局部下降以逐步改善自身。Local Descent Hypothesis. When the brain of a single biological agent learns, it relies on approximate local descent in order to gradually improve itself. by Y. Bengio
这里就开始为神经网络NN正名了。主要考察代理在学习中的改善方法。随机梯度下降是局部下降的多种优化技术之一,从特定参数开始,比如大脑初始突触配置,逐渐进行调整,倾向于平均改善预期误差。
Bengio梳理了NN研究中的五个观察,提出局部下降是逐步改善自身的基础,不关心技术细节的可以直接跳到下一假说。
注意到,Bengio的hypothesis-testing假说-验证,但对于局部下降假说,验证是相对困难的。因为目前还没有很好的测量突触强度变化的方法,不过,即便我们的心理状态(神经元的发射模式)变化很快,但突触强度和神经元连接只会逐渐改变。突触强度在形式上的稳定性是通过微小变化进行优化的充分条件。这种强度变化可以是优化的底层表示,通过测量奖励相关的神经元变化得出。当然其中还需要更严谨的论证,以保证确切的推论。而后面局部最小值假说、难度抽象假说是优化和局部下降两者的推论,同样,需要更严谨的论证。
观察一:如果提供中间级计算函数的提示,深层结构的训练更容易。
观察二:监督学习(即在多样化示例中提供了概念何时存在、何时不存在),而不是预期无监督学习中发现这个概念(也可能发生的,但表现较差)。
观察三:同时直接训练所有层,不仅难以利用深层网络的强大建模能力,反而随着层数的增加性能会更差。
观察四:没有两个轨迹同时陷入相同的局部最小值。这表明,函数局部最小值的数量一定是巨大的。对应于不同的函数,每个函数可能对应参数空间中的许多实例。
观察五:改变梯度下降进程初始条件的花招(无监督预先训练)可以达到更好的局部最小值,而且不是依靠运气。(对比随机和预训练花招,两个函数空间没有一丁点重叠,它们在高维函数空间互相甚至接近90度)。
学习是这样一个过程,开始可能进展很快,然后进入一种训练饱和状态,即尽管不断给出额外的示例,但是仍然没什么进展。我们称之为局部最小值,Local Minima。生物代理可能一生也无法真正接近局部最小值,但也有进展极其缓慢的情况。学习者似乎被困在局部最小值附近,所以学习中优化的关键,在于“如何逃离局部最小值”。
Bengio在AI学习深层架构的论文中谈到过,Vapnik的SVM本质上使用一种叫做Smooth的先在策略巧妙越过了这个问题,KNN其实也是,用距离来评价,本质上也是Smooth。所以,2000年左右效果比NN要好。统计派一直炮轰NN的局部最小值的问题,直到使用了一种叫梯度下降的方法。
当神经元的维数很高时,局部最小值会变成鞍点(Bengio 2014),或者是Hinton的Dropout,将NN变成一个动态平衡的结构,加以稀疏和屏蔽,可以避免瞬间的结构风险。而且,潜在层关联的随机推断,通过内在的迭代发生,学习是渐进的,随机推断可以从一种思维模式跳到另一种思维模式,我们不应混淆突触权重中的局部最小值和随机推理中的局部最小值(看起来是被卡住的)混淆。随机性或与新刺激的关联可以改变我们对过去输入的推断状态,由此逃离局部最小值。
但Bengio仍然强调,对于NN的不同学习算法在标准细节以及如何优化它之上有所区分,通常是因为没有分析方案和精确的解决方案。所以,即便如此,局部最小值仍可能是无法避免的。这就是Bengio的局部最小值假说。
局部最小值假说:单个人类学习者的学习,受有效的局部最小值限制。Local Minima Hypothesis. Learning of a single human learner is limited by effective local minima. by Y. Bengio
LeCun曾在Reddit上说过,目前我们还不清楚,大脑是否最小化了某种目标函数。但如果确实如此,我可以断定这个函数是非凸的。否则学习东西的顺序就无关紧要了。显然,我们学习事物的顺序很重要,这就是目前教育存在的原因。Jean Piaget认为:儿童在学习更复杂或者抽象的概念之前,必须先学习简单的概念。
单个个体经常以某种方式陷入困境,即使可能从远处观察问题的观察者可以看出他们被卡住了。
*个人觉得,这应该是Bengio最核心的假说了。几十年后,我们再忆起Bengio大神,会将这作为他的代表学说。
深度抽象假说:大脑中更高级别的抽象通过更深层次的计算来表示(经历更多区域,或是在相同区域上按顺序经历进行更多计算步骤)。Deep Abstractions Hypothesis. Higher-level abstractions in brains are represented by deeper computations (going through more areas or more computational steps in sequence over the same areas). by Y. Bengio
Bengio在采访中说,“深度学习在所有的机器学习方法中显得非常独特,它受到人类大脑结构的一点启发。它可以让计算机学会多层次的抽象概念和表示,这是这些系统成功的原因”。
深度抽象假说将它归结为“更深层次的计算”。我们以前一直纠结,在进行特征选择的时候,应该保留哪些特征,又将哪些特征剔除,因为几乎每一个特征都或多或少的包含一些我们关心或者需要的信息,它们都可能为最终解决问题带来一些线索。然而完全保留在现实情况中是不可能的,此时,患得患失的“特征选择困难症”就会发作,你难以在大量特征中做出数量有限的选择,而深度学习就是给“纠结症”患者的一剂良药。实际上,它不是靠减少维数提高泛化能力,而是保留更多参数,它通过提高更多隐藏层来保留特征和提高泛化能力。
这些概念或特征,高级抽象,仅通过深层结构才能有效计算,即通过几种连续变换,每个变换都与大脑区域或大量神经元关联。考虑组建更复杂的特征的层次结构,构建高度抽象概念的检测器,每当呈现非常大的一组可能的输入的刺激集合中的任何刺激时,这些概念被激活。
对于更高级别的抽象,这个刺激集合代表了高度复杂的点集,高复杂度的流形。
深-难对应假说:当训练更深层的架构时(通过基于迭代下降训练标准的优化方法),局部最小值的不利影响往往更加明显。Deeper Harder Hypothesis. The detrimental effect of local minima tends to be more pronounced when training deeper architectures (by an optimization method based on iteratively descending the training criterion). by Y. Bengio
这是从之前的“观察三”中得出的。
难度抽象假说:单个人类学习者不太可能偶然发现高级抽象,因为这些抽象是由大脑中的深层子网表示的。Abstractions Harder Hypothesis. A single human learner is unlikely to discover high-level abstractions by chance because these are represented by a deep sub-network in the brain. by Y. Bengio
假定深层架构比浅层架构有更加容易表示高级抽象的能力,这个假说改进了局部最小值假说。
引导学习假说:如果由其他人产生的信号引导,人的大脑可以更容易地学习高级抽象,这些符号可以作为高级抽象的暗示或间接超视图。Guided Learning Hypothesis. A human brain can much more easily learn high-level abstractions if guided by the signals produced by other humans, which act as hints or indirect supervision for these high-level abstractions. by Y. Bengio
论文到了这里才进入关键环节。Bengio提出了个体无法避免局部最小值的局部最小值假说,并用难度抽象假说解释其成因,就是为了引出不同个体之间的引导学习。因为如果上述假说成立,那么不同个体之间的信息转移,代理和代理之间、大脑和大脑之间的信息转移,是从根本上逃离局部最小值的选择。生物DNA中存储的信息也可以提供良好起点和架构约束以帮助学习某些抽象。
需要注意的是,在不同的个体之间的交流,DNA和文化是两种不同的信息传递通道。Bengio应该并没有区分。
Bengio注意到,我们可以掌握的抽象只是最近(考虑到进化尺度)出现在人类文化中。与DNA不同的是,每个抽象由一个个人在过去发明出来,然后传播、改进,代代相传。个体之间在共享感知的情况下交换信息。
(两个学习者都看到共享输入X,其中A产生一个高级抽象表示,与A的高级意识状态相关,作为X的表示。B也将这种话语,虽然是窄带的、吵杂的通道,作为输入。设置为B的当前语言表征,试图从X的内部预测。接下来的轮次可能是B说而A听,两者都能理解对方各自形成的对X的高级意识状态)
Bengio也分析了,语言的成因,因为交换突触状态,是不可能的。
有意思的是,交换的双方并非是交换语言,而是交换思想。每一句语言后面,激发的都是一种思想。详细框架参见下一节意识论文。
那么有趣的一个问题是,机器学习对于任何输入,也是在思考吗?对于这个问题,Hinton回答是,是的,这可能会激怒某些哲学家,不过是的,他们就是在思考。
在不同语言的翻译中,可以某种程度上,观察到这个过程的雏形。若要将一句英语翻译成法语,比较简单的做法是,将英语单词的序列送到编码器,编码器的最终隐藏状态是句子所表达的“思想向量”,即神经网络的表征。然后,让这个思想向量成为语法解码器的初始状态。解码器输出句子的法语单词。从这个概率分布中挑选一个词,然后为解码器送入下一个输入,它将产生第二个词的概率分布。继续挑字,然后直到向量最后停止。Hinton相信编码器-解码器系统将接管所有的机器翻译,它将学会独立于每种语言的方式表示思想,可以在任意语对之间翻译,而不必以英语作为桥接。甚至,如果有一种小芯片,你甚至可以将它放到耳朵里。从Google Translate目前的进展看,除了最后一句,其他都实现了。
模因分治假说:语言、个体学习、模因重组构成了一个有效的进化重组算子,这使得模因空间中快速搜索成为可能,这有助于人建立他们世界的更好的高级内部表征。Memes Divide-and-Conquer Hypothesis. Language, individual learning, and the recombination of memes constitute an efficient evolutionary recombination operator, and this gives rise to rapid search in the space of memes, that helps humans build up better high-level internal representations of their world. by Y. Bengio
在上一个假说中,Bengio提出了一种通用机制,通过这种机制,知识可以在大脑之间传递,而不必复制实际的突触强度,而是利用大脑的学习能力,通过一种图中所示的一种示例传递概念。Bengio假设,当学习者受到其他代理人相关提示的引导时,这种机制可以帮助个体学习者逃离局部最小值,从而构建更好的现实模型model of reality。但知识必须来源于另一个代理。这些知识首先出现在哪里呢?
Bengio从道金斯借来模因meme的概念,即有意义的重新组合形成新知识的文化信息单位。语言在不同的个体之间传播,个体通过语言所包含抽象概念进行学习,在每一次传递后,语言中包含的meme会在个体学习者进行重组,成为一种交叉算子。
全新的思想从哪里来呢?这里有两种相互交织的效应,一方面,大脑可以通过语言交流和模仿,很容易地将从他人传递而来的不同模因组合成新的模因。另一方面,这种重组和创造来自于在单个学习大脑中发生的优化过程。这个过程试图将所接收的所有信息来源与某种统一理论相协调。该搜索在参数空间(突触权重)中是局部的,但可以涉及在神经元发射模式(心理状态)的空间中的随机搜索。考虑到当前的突触强度,寻找可以产生最有益结果的一系列决策的未来行动。在这种随机探索中,神经元激活的新配置可以随机出现,如果这些更好地解释数据(所做的观察),那么突触强度将稍微改变,以使这些配置在未来更有可能。
这两种相互交织的效应,是全局搜索(进化)与局部搜索(个人学习)相结合。这是一种新的Smooth函数。
如果人是在知识海洋中大海捞针,这种方式提供了一种定位器,如同黑暗海洋中那闪烁的微光。
*meme传播,请参考《when ideas have sex》一文。
3,意识
如果说,Bengio的meme论文,试图从神经网络出发解释语言和meme,或者从meme出发,解释一种更早流行的、却还没有理论化的概念,社会化学习,social learning。
那么,Bengio的关于意识的论文,就是由此出发,解释这种学习机制。他将意识,解释为一种思想向量,对应从关于现实的陈述,可以在抽象空间中预测。同时,代理人可以将这种状态映射到自然语言。
注意到,意识允许代理在抽象空间预测,而不是在感官空间进行预测。我个人判断,这其实是跟Hinton不一致的思路,Hinton坚持大脑中只有类比analogy,而符号(象征)只存在输入输出。
Bengio深度学习捕获公式
ht=F(st,ht-1)
其中,F代表RNN,这个函数F封装了大脑中所有神经连结的权重,s是输入,h是输出,一种表示状态,t是时刻,上一个时刻的输出和当前时刻的输入,经过封装,获得当前时刻的表示状态。
Bengio意识公式
ct=C(st,ct-1,zt)
其中,C表示意识函数,意识状态c定义为一个低维向量,通过
应用于h的注意机制从高维向量h中导出的。认知解释是c的值对应于思想内容,是我们无意识获得的所有信息的一小部分,但通过一种特定的形式引起了我们的注意,这种注意力从h中挑选了几个元素或投影。
我们把Bengio这个想法与上一篇论文对照看,就可以理解,意识,在这里是一种工具,隔离高级抽象,并提取有关它的信息(其价值,它的不确定性,或者未被观察到的事实)。或者可以看做一种更复杂的运算,一种预测的计算,意识通常将刚刚提到一些因素,聚合成一个更复杂、更优雅的思想。
Bengio将C定义一个奖励函数,量化和优化参与元素(即意识)的值。NN被训练以优化这个目标函数。有两种不同的机制在起作用。一是注意机制,选择并组合高级状态进入低维的子状态(即意识)。二是从子状态的序列中得出预测或行为。
总的来说,意识投射是一个大向量(大脑中意识和无意识的所有事物)的一个稀疏投射,即意识可能只关注其中部分的状态。
然后,Bengio将意识状态的向量映射到自然语言,假设意识状态是比说出的句子更为丰富的对象,即从意识状态到句子映射有信息丢失。建立另一个RNN,在语言或话语上重建更丰富的意识状态。例如教师的话语,或是符号化的术语、公式。它们可以引出更加深刻的意识状态。Bengio以此为基础,重新定义“知识”,从传统的符号表示,改进成更为复杂的意识状态。而推理,是意识状态(低维向量)的序列,由此回到Hinton。
Bengio的框架是,共享现实输入>表示状态(高维向量)>意识状态(低维向量)>语言(符号)。其中包含的信息逐步减少,抽象程度逐步增加。考虑对深度学习捕获的表示状态,进一步导出的意识状态,它保留着更丰富的信息,其中有世界之中的不确定性、非离散的属性,可以为推理所用,
总之,我们可以看做是引导学习假说的一种实例化。它连结深度学习和作为符号表示的传统“知识”。在网络中某处或者其他地方进行全局压缩,就像Schmidhuber一直这么说。
4,理论梳理
Bengio教授是少数“深度”思考social-learning的AI专家了。
虽然social-learning已经在其他被广泛讨论,但Bengio的论文第一次将它与局部最小值这个学习中基本观察事实联系起来(也可能囿于我的眼界,还没注意到)。至于学习的本性,也脱离了Chomsky和Vygotsky的二基之争(请自行补充,这里就不展开了),把抽象和深度计算联系起来,抽象难度和计算难度联系起来,建立了一种脑脑交流的通用机制,在此基础上重新定义了意识。
社会习得social-learning,其实也可以算是一个基本观察事实,只是我们得做一个简单的抽象,从不同尺度来考察。大约从1万年开始,地球上突然发生了一个物种的爆发,人,从一种只占2%的普通脊椎动物,成为了一种占据整个星球98%的主要生命(Steven Gould)。这不仅仅是基因在起作用。1万年,不过是500代遗传,对基因的信息传递以及生命通过适应环境所带来自身的改变来说,这是一段非常短的时间。而是父母到后代之间,建立的第二条连接,Dan Dennett称之为第二条信息高速公路,“文化”。最初,也是有一些传播的障碍,与基因一样,文化也是从父母传给后代(Pete Richerdson和Rob Boyd)。但后来,产生了一系列的倾斜传递(oblique transmission),信息由社会化的网络传递而来,就是更为广泛的社会习得Social Learning。(参考链接:一、二)
在complexgenesis的讨论(参考链接)中,我们引入了两种方法,一是观察法,一是类比法,后者称为局域模型。我们在这里也可以引入这两种方法。
生命个体需要一些稳定的东西(也可以称之为不变性),随着时间的变化,并不脱离的东西,我们恰好有一个单独的形体(身体),不是两个,也不是三个,这就是开端,它是一个参考点,由此形成了自我(a self)。而在身体内部,时刻发生着变化,它有一个内建的系统,如果这个系统偏离那些接近生命存活范围中线的参数太多,你就会生病或者死亡(Antonio Damasio)。我们可以把这种系统,称为生命局域,对它的研究,可以建立生命的局域模型,通过对局域模型的研究,来开启一种生命发生学organogenesis。大脑研究,是局域模型中的圣杯。
(Hinton:我的主要研究计划是理解人脑如何计算)
神经科学家已经知道一些大脑运行的事实,却还不了解其计算原理。如果我们真的理解大脑是如何学习的,到底是什么回事,以便我们真正理解它,不是那些心理学家的模糊的模型,而是懂得如何制造它,理解到那种程度,它就会产生跟DNA结构在分子生物学中的那种影响。
Neuroscientists know a lot of facts about how the brain works but they don't understand the computational principles yet. If we could understand how the brain actually learns, what really goes on, so that we really understood it, not some sort of vague model like psychologists have, but really understanding how you could build one, understanding it that well, then it would have an impact similar to the impact of understanding the structure of DNA, and what that did for molecular biology. by Hinton on NSERC
几个基本假设,
-目前可观测宇宙中物理规律一致。构成生命的不存在物理规律之外的规则(如David Chalmers的φ)。
-生命是这些简单规律长时间相互作用的结果。
-学习的特性(局部改善,且形成局部最小值)的设计使得宇宙各个局域独立发展,结构相似。
-多个分离个体相互作用(一致性变形后的相互作用)的设计使得初始状态微小改变,会使得生命总体上呈现不同的结果。
-多个分离个体相互作用的设计使得初始状态微小不同,会使得生命局域上呈现不同的状态。
-总体和局域表现为相对的不同层次scale。
局域模型获得的局域在生命总体中是Stand Alone的,局域的初始化是“一致性变形”,生命总体是多个一致性变形的局域的Complex。
5,不完善的地方
Bengio建立这么宏观的框架,总有一些不太完善的地方。当然,我的能力其实不足以指出他框架的不完善之处,不过姑妄言之。
Bengio虽然提出了一个social learning框架来描述当前现实状况,但并没有考虑到AI发展带来的修正。比如脑脑交流,不一定需要语言,交换思维向量就可以了。Hinton在一次采访中被问及AI是否是需要一个身体时,他回答,我不认为AI可能需要一个物理身体。AI的发展并一定遵循当前现实状况。
Bengio虽然试图用科学来解释现象,但并没有考虑到科学的进展。例如,他觉得我们无法约束突触强度,但其实是有可能的,只是这些方法大部分还不是很成熟。比如Optogenetics,MIT的Ed Boyden和Stanford的Karl Deisseroth,利用海藻中提取的蛋白将神经元变成光敏元件,可以控制单个或成组的神经元。虽然神经科学方面的尝试仍然在起步阶段,但没有理由相信建立一种大脑的协处理器的方法是完全不可行的。
6,结语
Bengio将他的“人类群体”(从AI到人类群体)的想法,称为“消遣的猜测”。
然后这么说:从群体的观点来看,人的过于冒险的探索性选择会变成一个好的策略,一千个人中一个疯狂但成功的想法,可能推动人类前进。
通俗的说,对群体而言,假设-验证hypothesis-testing,错了有什么关系呢,大不了被吃掉eaten几个而已。
Bengio在说这句话的时候,肯定露出了他的迷之微笑。