人工智能(AI)可以像人类孩子一样,通过观察环境、与周围的环境互动了周世界吗?关于这个问题,我们已经展开了许多的认知心理实验,研究者发现了人类和电脑在观察图像时有一些重要的不同点。
研究者首先要测试人类和电脑视觉的局限性,检查两者识别物体(比如飞机、鹰、马、汽车、眼镜)局部图像或者模糊图像的能力。一点也不意外,人类大脑在识别细小图像方面比电脑强很多,当图像变小、变得难以识别时也是一样的。研究结果还为我们了解神奇的人类视觉打开了一条通道,它还暗示我们可以改进计算机算法,让人工智能像孩子一样去理解世界。
“研究显示,与当前的模型相比,人类识别的能力是不同的,表现也更好。”以色列魏茨曼科学研究所计算机科学家Shimon Ullman说,“我觉得正是这种差异解释了为什么当前模型在自动分析复杂场景时不管用,例如,了解图片中人物动作的细节、理解人与人之间的社交互动。”
Ullman解释说,人类大脑可以根据已知物体的“构件(Building Block)”特点来识别局部、模糊图片,电脑视觉模型或者算法却没有这样的能力——它们不懂“构件”知识。
研究共邀请了14000人参加,测试了3553张图片片断。由于参与者太多,根本不可能将每个人都带到实验室。Ullman和同事利用Amazon Mechanical Turk将实验众包给线上工作者。研究者在实验室测试了一小部分自愿者,然后用测试的结果来验证线上结果。
测试发现人类大脑轻松超过了电脑视觉算法。稍作调整却发现人类大脑和计算机视觉算法在解码图像时存在很大的区别。当小小的改变导致图像太小、太模糊难以识别时,人类识别小图像的能力迅速下降。人类自愿者识别基本小图片的成功率为65%,当图片更小更模糊时,识别概率下降到20%。电脑却不一样,总的来说电脑算法的表现比人类糟糕,但是当图片变小变模糊时,电脑的识别能力不会出现这么大的悬殊。
结果说明人类大脑依赖于特定学习和识别机制,这点正是电脑算法所缺乏的。
今天的电脑视觉模型采用的是“由下而上”的方法,在识别复杂特点之前先要尽可能过滤图片最简单的特点。人类视觉不同,它并不依赖于“由下而上”的方法。人类大脑采用的是“由下而上”的方法,它会将特定物体的标准模型与需要识别的物体进行对比。
“也就是说,大脑会将每个物体类型的模型存储到大脑中,然后利用内部模型来确认图像,它会寻找具体特征和特征之间的关系,从而识别图片中的具体物件到底是什么。” Ullman解释说,“由下而上和由上而下两种处理方式相互作用,我们就可以感知到更丰富的细节。”
受到人类“由上而下”认知方式的启发,新的电脑模型和算法也许可以通过观察更好地理解世界。为了达到这个目标,Ullman的研发项目“数字宝宝”(Digital Baby)获得了一些投资。最终Ullman希望能开发出更强大的人工智能,它诞生时对世界一无所知,但通过视觉和互动可以提高学习能力。和孩子一样,最开始时他们对世界也是一无所知的,但是通过吸收信息他们对世界形成了丰富的认知。