非科幻思考(第4/17页)
你也许会说,这是因为机器缺少生活经验,输入经验就可以了。我们这一次当然可以给机器输入酒的含义、超市的含义、超市的购买规则、小偷的含义、店员的职责,但好不容易输入了所有这些信息,会发现下一句话涉及大量有关街头和交通的常识,依然要手动输入。到了最后,整个世界的无数知识碎片我们都需要输入,如何调用又成了问题。
“常识”经常被认为是区别AI和人的重要分野。“常识”是把各个门类信息汇集到一起、形成广泛知识背景网的能力。这种能力我们人人都有,因而并不觉得稀奇,然而机器没有,我们才知道其可贵。
为什么机器难以具有常识?有多重原因,目前人们仍在尝试去理解。首先的直接原因是,机器缺少物理世界的生活经验,所处理的是人类的二手信息,对于周围的物理世界没有真实接触,不知道什么是可能的,什么是不可能的。例如,“石头放在鸡蛋上”还是“鸡蛋放在石头上”只是词语游戏,对于AI没有真实意义。AI也不知道人绕房子一周会回到原点。
对于这个原因,我们可以想出技术上的解决方案,一个是制造更精细的真实的机器人,让机器人在物理世界里不断探索,最终把物理世界的常识都记录到心里,这种可能性的问题在于机器人本身制造的困难(具体有哪些困难后面再说);另一个可能的方案是让人工智能的虚拟人物在虚拟世界里生活,只要虚拟世界本身的物理特性完美仿照真实世界,虚拟人是有可能学会知识的。只是,这个方案首先需要一个能够完美感知和识别虚拟世界物体的虚拟大脑,目前的人工智能“仿脑”技术还做不到这一步。
除了缺乏直接的物理世界的经历,还有可能是更核心的原因,那就是人工智能目前还缺少建立“世界模型”的综合能力。
人类拥有“完形”认知的心理能力,能让我们把碎片信息编制完整。这是一种高度统合的能力,我们能把躯体五感统合起来,共同构成对世界的感觉。同样,人从各个方面得到的碎片知识也有一种统合的能力,大脑会把碎片粘贴起来,把碎片之间的部分补齐,以期构成一个完整的知识世界。
事实上,人的“完形”并不仅是“拼凑”碎片信息,而是建立一个模型,然后用模型来理解碎片信息。“完形”是把信息连接成可以理解的图景。中间有大片空白我们要“脑补”。我们能从验证码的碎点图片中看出连贯的字母,而计算机程序做不到。我们能把没有关系的人连接在同一个故事里,只需要想象一两重关系,就能组成复杂的阴谋论。
所有研究人类视觉和认知的心理学家都清楚,人类的视觉包含大脑的建构。人类视网膜得到的是二维图像,就像相机的照片一样。但人类的视觉体验绝不仅仅停留在一堆“视网膜照片”上。我们眼前看到的世界直接是三维立体视觉,我们感觉自己清清楚楚“看到”一个三维立体的杯子,“看到”具有纵深的房间,“看到”他人离自己的距离。但实际上,我们是不可能直接“看到”三维物体的,我们眼睛接收的只是平面图,是大脑后台计算还原出的三维立体效果。
我们的眼睛在我们注意不到的情况下不断快速转动,拍摄四面八方的图像,而随着我们身体移动,视网膜上的投影照片也在不断变化。可是我们的感觉接收到的并不是一张张分离的照片,而是一个恒常稳定的周围世界。这是如何做到的?答案并不难,正如“人工智能之父”马文·明斯基所说的:“我们不需要不断‘看见’所有事物,因为我们在大脑中建构了视觉的虚拟世界。”神经学家威廉·卡尔文也曾说过:“你通常观察到的看似稳定的场景实际上是你所建构的一个精神模型。”事实上,我们居住在大脑制造的虚拟现实中。
这个虚拟的模型,就是我们每个人头脑中的“世界模型”。
而很少有人讨论的是,我们心中对这个世界的知识,也像视觉一样,有整体的模型进行综合。
我们对物理环境的理解、对世界运行规律的理解、对社会的理解、对正义的理解,全都交织在一起,构成我们思维的背景。大脑把所有社会感知信号也构造成完整的“世界模型”。我们人与人有很多共享的常识和语境,例如谁是美国总统、被石头砸到会怎样;我们每个人也有独特的“个人世界模型”,例如“男人都是不可靠的”“命运会善待有恒心的人”。这些是我们大脑把各个领域所有知识汇集之后得到的结果,它是思维的语境,就像视觉背景,也是人与世界打交道、沟通的前提。我们的决策是在这样的模型中形成的。