编者按:《连线》杂志在其最近发布的12月刊上,以封面故事的形式报道了人工智能的发展状况。现在,深度学习面临着无法进行推理的困境,这也就意味着,它无法让机器具备像人一样的智能。但是真正的推理在机器中是什么样子的呢?如果深度学习不能帮助我们达到目的,那什么可以呢?文章作者为克莱夫·汤普森(@pomeranian99),原标题为“How to Teach Artificial Intelligence Some Common Sense”。
一、
五年前,总部位于伦敦的人工智能公司DeepMind的程序员,兴奋地看着人工智能自学玩一款经典的街机游戏。他们在一项看似“异想天开”的任务上使用了当今最热门的技术——深度学习——掌握了Breakout。
这是一款雅达利(Atari)开发的游戏,在游戏中,你需要用移动下方的平板,把球弹起,然后把上方的所有砖块都打消失。
深度学习,是机器进行自我教育的一种方式;你给人工智能提供大量的数据,它会自己识别模式。在这个游戏中,数据就是屏幕上的活动——代表砖块、球和玩家平板的块状像素。
DeepMind的人工智能,一个由分层算法组成的神经网络,并不知道任何关于Breakout的工作原理、规则、目标,甚至如何发挥它都不清楚。编码器只是让神经网络检查每个动作的结果,每次球的弹起轨迹。这会导致什么?
事实证明,它会掌握一些令人印象深刻的技能。在最初的几场游戏中,人工智能只是控制下方的平板四处乱晃。但是玩了几百次之后,它已经开始准确地将球弹起了。到了第600场比赛时,神经网络使用了一种专业的人类Breakout游戏玩家使用的动作,凿穿整排砖块,让球沿着墙顶不停跳跃。
“这对我们来说,是一个很大的惊喜,”DeepMind的首席执行官德米斯·哈萨比斯(Demis Hassabis)当时说道。“这一策略完全来自底层系统。”
人工智能,已经显示出它能够像人类一样进行异常微妙的思考,掌握Breakout背后的内在概念。因为神经网络松散地反映了人脑的结构,所以从理论上说,它们应该在某些方面模仿我们自己的认知方式。这一刻似乎证明了这个理论是正确的。
去年,位于旧金山的一家人工智能公司Vicorance的计算机科学家,提供了一个有趣的现实检验。他们采用了一种类似DeepMind所用的人工智能,并在Breakout上进行了训练。
结果很棒。但随后,他们稍微调整了游戏的布局。在一次迭代中,他们将平板提得更高了;另一次迭代中,他们在上方增加了一个牢不可破的区域。
人类玩家可以快速适应这些变化,但神经网络却不能。 这个看起来很聪明的人工智能,只能打出它花了数百场比赛掌握的Breakout的方法。 它不能应对新变化。
“我们人类不仅仅是模式识别器,”Vicarious的共同创始人之一、计算机科学家迪利普·乔治(Dileep George)告诉我。“我们也在为我们看到的东西建立模型。这些是因果模型——有我们对因果关系的理解。”
人类能够推理,也会对我们周围的世界进行逻辑推理,我们有大量的常识知识来帮助我们发现新的情况。当我们看到一款与我们刚刚玩的游戏略有不同的Breakout游戏时,我们会意识到,它可能有着大致相同的规则和目标。
但另一方面,神经网络对Breakout一无所知。它所能做的就是遵循这个模式。当模式改变时,它无能为力。
深度学习是人工智能的主宰。在它成为主流以来的六年里,它已经成为帮助机器感知和识别周围世界的主要方式。
它为Alexa的语音识别、Waymo的自动驾驶汽车和谷歌的即时翻译提供了动力。从某些方面来说,Uber的网络也是一个巨大的优化问题,它利用机器学习来找出乘客需要汽车的地方。中国科技巨头百度,有2000多名工程师在神经网络人工智能上努力工作。
多年来,深度学习看上去越来越好,不可阻挡地让机器拥有像人一样流畅、灵活的智力。
但是一些人认为,深度学习正在面临困境。他们说,单凭这一点,它永远不会产生广义上的智能,因为真正像人类一样的智能,不仅仅是模式识别。
我们需要开始弄清楚如何让人工智能具备常识。他们警告说,如果我们不这样做,我们将会不断地触及深度学习的极限,就像视觉识别系统,只要改变一些输入,就会很容易被愚弄,比如,让深度学习模型认为乌龟就是一杆枪。
但他们说,如果我们成功了,我们将见证更安全、更有用的设备爆炸式增长——比如在杂乱的家中自由行动的医疗机器人、不会误报的欺诈检测系统等等。
但是,真正的推理在机器中是什么样子的呢?如果深度学习不能帮助我们达到目的,那什么可以呢?
二、
加里·马库斯(Gary Marcus)是纽约大学的心理学和神经科学教授,现年48岁,戴着眼镜,忧心忡忡。他可能是最著名的深度学习反对者。
马库斯第一次对人工智能感兴趣,是在20世纪80年代和90年代,当时神经网络还处于实验阶段,从那以后,他就一直在做同样的论证。
“我不只是来晚了,而且还想在派对上撒尿,”当我在纽约大学附近的公寓遇见他时,马库斯告诉我。(我们也是私人朋友。)“深度学习刚开始爆发的时候,我就说‘方向错了,伙计们!’”
那时,深度学习背后的策略和现在是一样的。比方说,你想要一台机器来自己学习识别雏菊。首先,你需要编写一些算法“神经元”,像三明治一样,将它们层层连接起来(当你使用多层时,三明治会变得更厚或更深——因此是“深度”学习)。
你在第一层输入一个雏菊的图像,它的神经元会根据图像是否像它以前看到的雏菊的例子而进行判断。然后,信号将移动到下一层,在那里循环这个过程。最终,这些层会得出一个结论。
起初,神经网络只是盲目猜测;它或多或少地让生活从一张白纸开始。关键是建立一个有用的反馈回路。每当人工智能没有识别出雏菊时,那组神经连接就会削弱导致错误猜测的链接;如果它成功了,它会加强。
给定足够的时间和足够多的雏菊样本,神经网络会变得更加精确。它学会了通过直觉来识别一些雏菊的模式,让它每次都能识别出雏菊(而不是向日葵或菊花)。
随着时间的推移,这一核心理念——从一个简单的网络开始,通过重复训练——得到了改进,似乎可以应用到几乎任何地方。
但是马库斯从未被说服。对他来说,问题就在于一张白纸:它假设人类纯粹通过观察周围的世界来建立他们的智力,机器也可以。
但是马库斯不认为人类就是这样工作的。他认可诺姆·乔姆斯基( Noam Chomsky )的智力发展理论,他认为人类天生就有学习的天赋,能够掌握语言和解释物质世界,而不是一张白纸。
他指出,尽管有很多人认为神经网络是智能的,但它似乎不像人类大脑那样工作。首先,它们太需要数据了。
在大多数情况下,每个神经网络都需要数千或数百万个样本来学习。更糟糕的是,每次你想让神经网络识别一种新的项目,你都必须从头开始训练。一个识别金丝雀的神经网络在识别鸟鸣或人类语言方面没有任丝毫用处。
“我们不需要大量的数据来学习,”马库斯说。他的孩子不需要看一百万辆车就能认出车辆来。更好的是,他们可以“抽象化”,当他们第一次看到拖拉机时,他们会知道它有点像汽车。他们也可以进行反事实的工作。
谷歌翻译可以将法语翻译成英语。但是它不知道这些话是什么意思。马库斯指出,人类不仅掌握语法模式,还掌握语法背后的逻辑。你可以给一个小孩一个假动词,比如pilk,她很可能会推断过去式是 pilked。当然,她以前没见过这个词。她没有接受过这方面的“训练”。她只是凭直觉知道了语言运作的一些逻辑,并能将其应用到一个新的情况中。
“这些深度学习系统不知道如何整合抽象知识,”马库斯说,他创立了一家公司,创造了用更少的数据进行学习的人工智能(并在2022年将公司卖给了Uber)。
今年早些时候,马库斯发表了一份关于arXiv的白皮书,认为如果没有一些新的方法,深度学习可能永远不会突破目前的局限。它需要的是一种推动力——补充或内置的规则,以帮助它对世界进行推理。
三、
奥伦·埃齐奥尼(Oren Etzioni)经常面带微笑。他是一位计算机科学家,在西雅图经营着艾伦人工智能研究所(Allen Institute for Artificial Intelligence)。
在他明亮的办公室里向我打招呼,领我走过一块白板,上面潦草地写着对机器智能的思考。(“定义成功”,“任务是什么?”)在外面,年轻的人工智能研究员戴着耳机,敲击着键盘。
埃茨奥尼和他的团队正在研究常识问题。他将此定义为两个传奇的人工智能时刻——1997年 IBM 的深蓝(Deep Blue)击败象棋大师加里·卡斯帕罗夫(Garry Kasparov) ,以及去年DeepMind的AlphaGo击败世界顶尖围棋选手李世石。(谷歌在2014年收购了DeepMind。)
“有了深蓝,当房间着火的时候,我们的程序可以做出超人一般的象棋棋步。”埃茨奥尼开玩笑说。“对吧?完全缺乏背景。快进20年,当房间着火的时候,我们有了一台电脑,可以下出超人一般的围棋棋步。”
当然,人类没有这个限制。如果发生火灾,人们会拉响警报,奔向大门。
换句话说,人类拥有关于这个世界的基本知识(火会烧东西) ,同时还有推理的能力(你应该试着远离失控的火)。
为了让人工智能真正像人类一样思考,我们需要教它所有人都知道的东西,比如物理学(抛向空中的球会落下)或相对大小的东西(大象无法被放进浴缸)。 在人工智能拥有这些基本概念之前,埃茨奥尼认为人工智能无法进行推理。
随着保罗·艾伦(Paul Allen)投入了数亿美元,埃茨奥尼和他的团队正在努力开发一个常识推理层,以适应现有的神经网络。(艾伦研究所是一个非营利组织,所以他们发现的一切都将被公开,任何人都可以使用。)
他们面临的第一个问题,就是回答一个问题:什么是常识?
埃茨奥尼把它描述为我们认为理所当然,但很少大声说出的关于世界的所有知识。他和他的同事创造了一系列基准问题,一个真正理性的人工智能应该能够回答:如果我把袜子放在抽屉里,它们明天会在那里吗?如果我踩了别人的脚趾,他们会生气吗?
获取这种知识的一种方法,是从人类那里提取。埃茨奥尼的实验室正在付费给亚马逊土耳其机器人上的众包人员,以帮助他们制作常识性的陈述。
然后,研究团队会使用各种机器学习技术——一些老式的统计分析,一些深度学习的神经网络——基于这些陈述进行训练。如果他们做得对,埃茨奥尼相信他们可以生产出可重复使用的计算机推理“乐高积木”:一套能够理解文字,一套能够掌握物理知识,等等。
崔叶金 (Yejin Choi)是埃茨奥尼团队研究常识的科学家之一,她负责了几次众包工作。 在一个项目中,她想开发一种人工智能,能够理解一个人的行为,或陈述出来其隐含的意图或情感。
她首先研究了成千上万个 Wiktionary 中的在线故事、博客和习语条目,提取出“短语事件”,比如“杰夫(Jeff)把罗杰(Roger)打昏了” 。然后,她会匿名记录每个短语——“X把Y打昏”——并要求土耳其机器人平台上的众包人员描述X的意图:他们为什么这样做?
当她收集了25000个这样的标记句子后,她用它们训练一个机器学习系统,来分析它从未见过的句子,并推断出句子的情绪或意图。
充其量,新系统运行的时候,只有一半时间是正常的。但是当它正式运行的时候,它展示了一些非常人性化的感知:给它一句像“奥伦(Oren)做了感恩节晚餐”这样的话,它预测奥伦试图给家人留下深刻印象。
“我们也可以对其他人的反应进行推理,即使他们没有被提及,”崔说。“所以X的家人可能会感到印象深刻和被爱。”
她的团队建立的另一个系统使用土耳其机器人平台上的众包人员在故事中标记人们的心理状态;当给定一个新的情况时,由此产生的系统也可以得出一些“尖锐”的推论。
例如,有人告诉我,一名音乐教练对他的乐队糟糕的表演感到愤怒,并说“教练很生气,把他的椅子扔了。人工智能会预测他们会“事后感到恐惧”,尽管这个故事没有明确说明这一点。
崔叶金、埃茨奥尼和他们的同事并没有放弃深度学习。事实上,他们认为这是一个非常有用的工具。但是,他们不认为有捷径,可以说服人们明确陈述我们所有人都拥有的怪异、无形、隐含的知识。
深度学习是垃圾输入,垃圾输出。仅仅给一个神经网络提供大量新闻文章是不够的,因为它不会吸取未陈述的知识,这是作家们不愿提及的显而易见的事情。
正如崔叶金所说,“人们不会说‘我的房子比我大’。”为了帮助解决这个问题,她让土耳其机器人平台上的众包人员分析了1100个常见动词所隐含的物理关系,例如“X扔了Y”。这反过来又提供了一个简单的统计模型,可以用“奥伦扔了一个球”这个句子来推断球一定比奥伦小。
另一个挑战是视觉推理。阿尼鲁达·凯姆巴维(Aniruddha Kembhavi)是埃茨奥尼团队中的另一位人工智能科学家,他向我展示了一个在屏幕上漫步的虚拟机器人。 艾伦研究所的其他科学家建造了类似模拟人生的房子,里面装满了日常用品——厨房橱柜里装满了碗碟,沙发可以随意摆放,并符合现实世界中的物理定律。
然后他们设计了这个机器人,它看起来像是一个有手臂的深灰色垃圾筒,研究人员告诉它,让它搜寻某些物品。在完成数千项任务后,这个神经网络获得了在现实生活中生活的基础。
“当你问它‘我有西红柿吗?它不会打开所有的橱柜。它更倾向去打开冰箱,”凯姆巴韦说。“或者,如果你说‘给我找我的钥匙’,它不会试图拿起电视。它会去看电视机后面。它已经知道,电视机通常不会被拿走。”
埃茨奥尼和他的同事希望这些不同的组成部分——崔叶金的语言推理、视觉思维,以及他们正在做的让人工智能掌握教科书科学信息的其他工作——最终能够结合在一起。
但是需要多长时间,最终的产品会是什么样子?他们不知道。他们正在建立的常识系统仍然会出错,有时甚至超过一半的概率。
崔叶金估计,她将需要大约一百万人工语言来训练她的各种语言解析器。 建立常识似乎异乎寻常地困难。
四、
制造机器还有其他合理的方式,但它们的劳动密集程度更高。 例如,你可以坐下来,用手写出所有要告诉机器世界如何运作的规则。 这就是道格·莱纳特(Doug Lenat)的 Cyc 项目的工作原理。
34年来,莱纳特雇佣了一个工程师和哲学家团队,来编写2500万条常识性规则,比如"“水是湿的”或者“大多数人都知道他们朋友的名字”。这让Cyc能够推断:“如果你的衬衫湿了,所以你可能是在雨中。” 优势在于,莱纳特能够精确地控制输入 Cyc 数据库的内容; 而众包知识并非如此。
这种由粗暴的手动行为做出来的人工智能,在深度学习的世界中已经变得不流行。这在一定程度上是因为它可能“脆弱”:如果没有正确的世界规则,人工智能可能会陷入困境。这就是程式化的聊天机器人如此“智障”的原因;如果如果没有明确告诉它们如何回答一个问题,它们没有办法推理出来。
Cyc的能力比聊天机器人更强,并且已经经过批准,可以用于医疗保健系统、金融服务和军事项目。但是这项工作进展非常缓慢,而且耗资巨大。莱纳特说开发Cyc花费了大约2亿美元。
但是,一点一点地进行手工编程可能只是复制一些固有的知识,根据乔姆斯基(Chomskyite)的观点,这是人类大脑拥有的知识。
这就是迪利普·乔治和研究人员对Breakout所做的事情。为了创造一个不会面对游戏布局变化而变“智障”的人工智能,他们放弃了深入学习,建立了一个包含硬编码基本假设的系统。
乔治告诉我,他们的人工智能不费吹灰之力就学会了“物体是存在的,物体之间有相互作用,一个物体的运动与其和其他物体之间的碰撞有因果关系。”
在Breakout中,这套系统发展出了衡量不同行动过程及其可能结果的能力。但这也起到了相反的作用。如果人工智能想要打破屏幕最左上角的一个砖块,它会理性地将平板放在最右边的角落。
这意味着,当Vicarious改变游戏的规则时——添加新砖块或提升平板——系统会得到补偿。 它似乎抓住了一些关于 Breakout 本身的通用性理解。
显然,这种人工智能在工程中存在权衡。 可以说,精心设计和仔细规划,以精确找出将什么预先设定的逻辑输入到系统中,是一个更艰苦的工作。 在设计一个新系统时,很难在速度和精度之间取得恰当的平衡。
乔治说,他寻找最小的数据集“放入模型,以便它能够快速学习。”你需要的假设越少,机器做决策的效率就越高。
一旦你训练了一个深度学习模型来识别猫,你就可以给它看一只它从未见过的俄罗斯蓝猫,然后它就会立刻给出结论——这是一只猫。 在处理了数百万张照片之后,它不仅知道是什么让一只猫变成了猫,还知道识别一只猫的最快方法。
相比之下,Vicarious的人工智能速度较慢,因为随着时间的推移,它会主动地做出逻辑推论。
当Vicarious的人工智能运行良好时,它可以从更少的数据中学习。乔治的团队通过识别扭曲的字体形象,创造一种人工智能来突破神经网络上“我不是机器人”的障碍。
就像Breakout系统一样,他们预先给人工智能赋予了一些能力,比如帮助它识别字符的知识。随着引导就位,他们只需要在人工智能学会以90.4 %的准确率破解验证码之前,在260张图像上训练人工智能。相比之下,神经网络需要在超过230万张图像上训练,才能破解验证码。
其他人,正在以不同的方式将常识般的结构构建到神经网络中。例如,DeepMind的两名研究人员最近创建了一个混合系统:部分是深度学习,部分是更传统的技术。他们将这个系统称为归纳逻辑编程。目标是创造出能够进行数学推理的东西。
他们用儿童游戏“fizz-buzz”来训练它,在这个游戏中,你从1开始向上数,如果一个数字可以被3整除,就说“fizz”,如果它可以被5整除,就说“buzz”。一个普通的神经网络,只能处理它以前见过的数字;如果把它训练到100分钟,它就会知道99时该“fizz”,100时“buzz”。
但它不知道如何处理105。相比之下,DeepMind的混合深度思维系统似乎理解了这个规则,并在数字超过100时没有出现任何问题。爱德华·格雷芬斯特(Edward Grefenstette)是开发这种混合系统的DeepMind程序员之一,他说,“你可以训练出一些系统,这些系统会以一种深度学习网络无法独自完成的方式进行推理。”
深度学习的先驱、Facebook人工智能研究部门的现任负责人杨立昆(Yann LeCun)对许多针对这个领域的批评表示赞同。他承认,它需要太多的训练数据,不能推理,也不具备常识。
“在过去的四年里,我基本上在一遍又一遍地重复这句话,”他提醒我。但是他仍然坚信,进行正确的深入学习,可以获取答案。他不同意乔姆斯基对人类智力的看法。他认为,人类大脑是通过互动而不是内在的规则来发展出推理能力的。
“如果你思考一下动物和婴儿是如何学习的,在生命的最初几分钟、几小时、几天里,学很多东西都学得很快,以至于看起来像是天生的,”他指出。“但事实上,他们不需要硬编码,因为它们可以很快学会一些东西。”
从这个角度来看,为了了解世界的物理规律,一个婴儿只需要四处移动它的头,对传入的图像进行数据处理,并得出结论,景深就是这么一回事。
尽管如此,杨立昆承认,目前还不清楚哪些途径可以帮助深度学习走出低谷。有可能是“对抗性”神经网络,一种相对新的技术,其中一个神经网络试图用虚假数据欺骗另一个神经网络,迫使第二个神经网络发展出极其微妙的图像、声音和其他输入的内部表征。
它的优势是没有“数据缺乏”的问题。你不需要收集数百万个数据来训练神经网络,因为它们是通过相互学习来学习的。(作者注:一种类似的方法正在被用来制作那些让人深感不安的“深度伪造”(deepfake)视频,在这些视频中,有些人似乎在说或做一些他们没有说或做的事情。)
我在Facebook位于纽约的人工智能实验室的办公室里遇见了杨立昆。马克·扎克伯格(Mark Zuckerberg)在2013年招募了他,承诺实验室的目标将是推动人工智能突破极限,而不仅仅是对Facebook的产品进行微小的调整。像学术实验室一样,杨立昆和他的研究人员可以将他们的研究成果发表出来,供其他人参阅。
杨立昆仍然保留了他的法国本土口音,他站在白板前,精力充沛地勾画出可能推动深入学习进步的理论。对面的墙上挂着一套斯坦利·库布里克(Stanley Kubrick)《2001:太空漫游》(2001: A Space Odyssey)中的华丽画作——漂浮在太空深处的主宇宙飞船,一艘绕地球运行的轮式飞船。“哦,是的,”当我指出他们时,杨立昆说,他们重印了库布里克为这部电影制作的艺术品。
借着周围的图片来讨论类人人工智能,让人感到莫名的不安,因为2001年的HAL 9000,一个类人人工智能,是一个高效的杀手。
这指向了一个更深层次的哲学问题,超越了人工智能发展方向的争论:制造更聪明的人工智能是一个好主意吗?Vicarious的系统破解了验证码,但验证码的意义在于防止机器人模仿人类。
一些人工智能研究者担心,与人类交谈并理解人类心理的能力可能会使恶人工智能变得极其危险。 牛津大学的尼克 · 博斯特龙(Nick Bostrom)敲响了创造"超级智能"(superintelligence)的警钟。超级智能是一种自我改进并快速超越人类的人工智能,能够在各个方面超越我们。 (他认为积聚控制力的一种方式是通过操纵人们——拥有"心智理论"对此会非常有用。)
埃隆·马斯克(Elon Musk)对这种危险深信不疑,他资助了致力于安全人工智能理念的组织OpenAI。
这样的未来不会让埃齐奥尼晚上失眠。他不担心人工智能会变成恶意的超级智能。“我们担心会有什么东西会接管这个世界,”他嘲笑道,“那甚至不能自己决定再下一盘棋。”目前,还不清楚人工智能会如何发展出这些意愿,也不清楚这种意愿软件中会是什么样子。深度学习可以征服国际象棋,但它没有天生的下棋意愿。
令他担忧的是,是目前的人工智能非常无能。因此,虽然我们可能不会创造出具有自我保护智能的HAL,但他说,“致命武器+无能的人工智能很容易杀人。”这也是为什么埃齐奥尼如此坚决地要给人工智能灌输一些常识的部分原因。他认为,最终,这将使人工智能更加安全;不应该大规模屠杀人类,也是一种常识。(艾伦研究所的一部分任务是使人工智能更加合理化,从而使其更加安全。)
埃齐奥尼指出,对人工智能的反乌托邦式的科幻愿景,其风险要小于短期的经济转移。如果人工智能在常识方面做得更好,它就能更快地完成那些目前仅仅是模式匹配深度学习所难以完成的工作:司机、出纳员、经理、各行各业的分析师,甚至是记者。
但真正有理性的人工智能造成的破坏甚至可能会超出经济范围。 想象一下,如果散布虚假政治信息的机器人能够运用常识,在 Twitter、 Facebook 或大量电话中显得与人类毫无区别,那该会是什么样子。
马库斯同意人工智能具备推理能力会有危险。但是,他说,这样带来的好处是巨大的。人工智能可以像人类一样推理和感知,但却能以计算机的速度运算,它可以彻底改变科学,以我们人类不可能的速度找出因果关系。
除了拥有大量的机器人知识之外,它可以像人类一样进行心理实验,可以遵循“if - then”链条,思考反事实。“例如,最终我们可能能够治愈精神疾病,”马库斯补充道。“人工智能或许能够理解这些复杂的蛋白质生物级联,这些蛋白质参与到了大脑的构建中,会让它们正常工作或不正常工作。”
坐在《2001:太空漫游》的照片下面,杨立昆自己提出了一个“异端”观点。当然,让人工智能更加人性化有助于人工智能给我们的世界提供帮助。但是直接复制人类的思维方式呢?没有人清楚这是否有用。我们已经有了像人类一样思考的人;也许智能机器的价值在于它们与我们完全不同。
“如果他们有我们没有的能力,他们会更有用,”他告诉我。“那么他们将成为智力的放大器。所以在某种程度上,你希望他们拥有非人类形式的智力......你希望他们比人类更理性。”换句话说,也许让人工智能有点人工是值得的。
原文链接:https://www.wired.com/story/how-to-teach-artificial-intelligence-common-sense/编译组出品。编辑:郝鹏程