哈希游戏- 哈希游戏平台- 哈希游戏官方网站(Gf-Gc)[13],该理论已成为主导人类认知能力理论的支柱之一,即卡特尔-霍恩-卡罗尔理论(CHC)[62]。它们还与两种对立的人类心智本质观点密切相关,这两种观点自认知科学领域诞生以来对该领域产生了深远影响[85]:一种观点认为,心智是由进化产生的相对静态的专用机制组合,只能学习它被编程获取的东西;另一种观点认为,心智是一个通用的“空白板”,能够将任意经验转化为知识和技能,并可以针对任何问题进行指导。
进化心理学对人类本性的看法是,人类的许多认知功能是专门适应的结果,这些适应是为了解决人类在整个进化过程中遇到的特定问题而产生的(参见例如[19, 74])——这个想法起源于达尔文[21],并在20世纪60年代和70年代逐渐形成。大约在这些想法在认知心理学中逐渐占据主导地位的同时,早期的AI研究人员,也许在电子计算机中看到了心灵的类比,主要倾向于将智能视为一组静态的程序化例程,严重依赖逻辑运算符,并将学到的知识存储在类似数据库的内存中。
这种将心灵视为一系列垂直的、相对静态的程序的观点,这些程序共同实现了“智能”,得到了有影响力的AI先驱马文·明斯基(Marvin Minsky)的大力支持(参见例如《社会的心灵》,1986年[63])。这种观点导致了以任务特定表现为重点的智能定义和智能评估协议的产生。这也许最好地体现在明斯基1968年对AI的定义中:“AI是一门使机器能够执行如果由人类完成则需要智能的任务的科学”2。当时,AI社区普遍认为,只要我们能够将人类技能编码成正式规则,并将人类知识编码成明确的数据库,“智能问题”就能得到解决。
这种对智能的看法曾经如此主导,以至于“学习”(被视为纯粹的死记硬背)在20世纪80年代中期之前的AI教科书中甚至根本不被提及。即使是麦卡锡(McCarthy),一个罕见的AI通用性倡导者,也认为实现通用性的关键是更好的知识库[60]。正如Hernández-Orallo[36]在他2017年的调查中指出的那样,这种完全关注通常由人类处理的狭窄任务的技能的定义和评估哲学导致了一个惊人的悖论:人工智能领域在开发执行这些任务的人工系统方面取得了巨大成功,但这些系统并没有表现出智能,这一趋势一直持续到今天。
图灵在他1950年的论文[91]中首次提出了机器可以通过类似于人类儿童的学习过程来获取新技能的概念。1958年,弗里德伯格敏锐地指出:“如果我们想要制造一台会说话、理解或翻译人类语言、用想象力解决数学问题、从事职业或指导组织的机器,那么我们要么必须将这些活动简化为一门精确的科学,以便我们可以精确地告诉机器如何去做,要么我们必须开发一台不需要精确指示就能做事的机器”[26]。但是,尽管在学习通用性的想法在该领域诞生之初就得到了重要考虑,并且长期以来一直受到像麦卡锡和帕珀特这样的先驱者的支持,但在20世纪80年代机器学习复兴之前,它基本上一直处于休眠状态。
这种对智能的看法呼应了另一种对人类本性的长期观念,这种观念对认知科学的历史产生了深远影响,与进化心理学的观点形成了对比:洛克的Tabula Rasa(白板),将心灵视为一个灵活的、可适应的、高度通用的过程,将经验转化为行为、知识和技能。这种对人类心灵的概念可以追溯到亚里士多德(De Anima,约公元前350年,可能是心理学的第一部论著[3]),并被霍布斯[42]、洛克[56]和卢梭[78]等启蒙思想家接受和普及。最近,它在认知心理学(例如[79])和通过连接主义(例如[41])在人工智能中找到了新的活力。
随着20世纪80年代机器学习的复兴,它在21世纪初成为知识主导,并在2010年代末通过深度学习成为人工智能领域的准垄断,受连接主义启发的Tabula Rasa越来越成为人工智能研究的主导哲学框架。许多研究人员通过“随机初始化的神经网络”的隐喻来隐含地概念化心灵,这个网络开始时是一片空白,并从“训练数据”中获得技能——这种认知谬误呼应了几十年前早期AI研究人员将心灵概念化为一种配备聪明子程序的大型计算机。我们通过我们最熟悉的工具的镜头来看待世界。 今天,越来越明显的是,这两种关于人类智能本质的观点——要么是专用程序的集合,要么是通用的Tabula Rasa——都可能是不正确的,我们在II.1.3中讨论了这一点,以及它对人工智能的影响。
基准测试特别推动了人工智能的发展,因为它们是可复制的(测试集是固定的)、公平的(对每个人来说测试集都是相同的)、可扩展的(多次运行评估的成本很低)、易于设置,并且足够灵活,可以适用于各种可能的任务。基准测试在研究团队之间的竞争中往往最具影响力,例如大规模图像识别(ImageNet)的ILSVRC挑战[22]或自动驾驶的DARPA大挑战[11]。许多私人和社区主导的倡议都基于这样一个前提,即基于基准的竞赛可以加速进步(例如Kaggle(,以及学术替代品,如ChaLearn(、Hutter奖等),而一些政府组织则利用竞赛来故意引发技术突破(例如DARPA、NIST)。
这些成功表明,设定明确目标和采用整个研究社区共享的客观性能衡量标准的重要性。然而,优化单个指标或一组指标通常会导致在一切未被衡量和优化的事物上做出权衡和走捷径(这在Kaggle上是一个众所周知的现象,获奖模型通常过于专注于它们赢得的特定基准,无法在实际问题版本上部署)。在人工智能的情况下,专注于实现特定任务性能而不对系统如何达到这一性能施加任何条件,导致了这样的系统:尽管在执行目标任务方面表现良好,但基本上不具备人工智能领域试图构建的那种人类智能。
这种观点被McCorduck解释为“人工智能效应”,即每当人工智能取得进展时,目标就会发生变化:“每当有人弄清楚如何让计算机做某事——下好跳棋,解决简单但相对非正式的问题——总会有一群批评者说,‘那不是思考’。”[61]。同样,Reed指出:“当我们知道机器是如何做一些‘智能’的事情时,它就不再被认为是智能的了。如果我打败了世界象棋冠军,我会被认为是非常聪明的。”[77]。这种解释源于过于以人类为中心的假设。作为人类,我们只有在具备高效获取技能的能力时,才能在特定任务上表现出高超技能,这与第二部分中描述的智能相对应。没有人天生就会下棋,或者天生就适合下棋。因此,如果一个人下象棋的水平很高,我们可以有把握地认为这个人是聪明的,因为我们隐含地知道他们必须利用他们的通用智能在他们的一生中获取这项特定技能,这反映了他们以同样的方式获取许多其他可能技能的一般能力。但是,同样的假设并不适用于非人类系统,因为它们并不是像人类那样获得能力的。如果智能在于获取技能的过程,那么就没有任务X,使得在X上的技能能证明智能,除非X实际上是一个涉及跨广泛任务的技能获取的元任务。“人工智能效应”的特征混淆了智能的过程(如研究人员创建下棋程序所展示的智能)与这个过程产生的产物(最终的下棋程序),因为在人类的情况下,这两个概念是基本交织在一起的。我们在II.1中进一步讨论这个问题。
如果处理最初指定的任务是系统的最终目标,那么特定任务的性能是一个完全合适且有效的成功衡量标准——换句话说,如果我们的性能衡量标准准确地捕捉到了我们对系统的期望。然而,如果我们需要的系统能够在系统创建者未计划的情况下自主处理情况,能够在无需进一步人工干预的情况下动态适应任务或任务背景的变化,或者可以被重新用于其他任务,那么这种方法就不足够了。同时,鲁棒性和灵活性正日益被视为某些更广泛的AI子领域的重要要求,如L5自动驾驶、家庭机器人或个人助理;甚至对通用性本身也越来越感兴趣(例如,发展型机器人[4]、人工通用智能[28])。这表明我们需要超越基于技能的评估,寻找评估鲁棒性和灵活性的方法,特别是在跨任务环境中,直到通用性。但是,当我们谈论鲁棒性、灵活性和通用性时,我们真正指的是什么?
20世纪80年代机器学习的复兴引发了人们对正式定义、测量和最大化泛化的兴趣。泛化是一个早于机器学习的概念,最初是为了描述一个统计模型在其训练数据之外的输入上的表现。近年来,深度学习的成功[52],以及与其局限性越来越频繁的冲突(例如[51, 16, 59]),在机器学习的背景下引发了人们对泛化理论的新兴趣(例如[102, 67, 45, 70, 17, 49])。泛化的概念可以在各种上下文中正式定义(特别是,统计学习理论[92]提供了一个广泛使用的与机器学习相关的正式定义,我们在II.2中提供了一个更一般的正式化)。我们可以非正式地将任何人工智能系统的“泛化”或“泛化能力”定义为“处理与之前遇到的情况不同的情况(或任务)的能力”。
•局部泛化,或“鲁棒性”:这是系统处理来自单个任务或已知任务范围内已知分布的新点的能力,前提是该分布有足够的密集样本(例如,在固定上下文内对预期扰动的容忍度)。例如,一个图像分类器,在经过许多此类标记图像的训练后,能够区分包含猫和狗的以前未见过的150x150 RGB图像,可以说它执行了局部泛化。可以将其描述为“在单个任务或明确定义的任务集中适应已知未知”。这是从20世纪50年代到今天,机器学习一直关注的一种泛化形式。
•广泛泛化,或“灵活性”:这是系统在没有进一步人工干预的情况下处理广泛类别任务和环境的能力。这包括处理系统创建者无法预见的情况的能力。这可以被认为是反映人类在单一广泛活动领域(例如,家务任务,现实世界中的驾驶)的能力,并且可以描述为“在广泛的相关任务类别中适应未知未知”。例如,一辆L5自动驾驶汽车,或者一个能够通过沃兹尼亚克的咖啡杯测试(进入一个随机厨房并制作一杯咖啡)[99]的家用机器人,可以说展示了广泛的泛化。可以说,即使是最先进的AI系统今天也不属于这一类,尽管越来越多的研究兴趣在于实现这一水平。
•极端泛化:这描述了具有处理与之前遇到的情况只有抽象共同点的新任务的能力的开放式系统,适用于广泛范围内的任何任务和领域。这可以描述为“在未知范围和领域的未知未知之间适应”。生物形式的智能(人类和其他可能的智能物种)是目前这种系统的唯一例子。一种特别引起我们关注的极端泛化版本是以人为中心的极端泛化,它是特定情况下,考虑到的人类经验和领域空间。我们将“以人为中心的极端泛化”称为“通用性”。重要的是,正如我们通过使用人类认知作为参考框架(我们在II.1.2中讨论)来故意定义通用性一样,它只是在有限意义上的“通用”。然而,请注意,人类在系统中心泛化(从小经验中快速适应高度新颖的情况)和开发者意识泛化(当代人类处理进化历史上以前人类从未经历过的情况的能力)方面都表现出极端泛化。
至关重要的是,人工智能的历史一直是沿着这个谱系缓慢攀升的过程,从很大程度上不显示泛化的系统(符号AI)开始,发展到能够局部泛化的稳健系统(机器学习)。我们现在正在进入一个新阶段,我们希望创建能够广泛泛化的灵活系统(例如,混合符号和机器学习系统,如自动驾驶汽车、人工智能助手或认知发展机器人)。针对特定任务的技能评估已经适用于旨在在只存在已知未知的环境中实现稳健性的封闭系统,但开发能够处理未知未知的系统需要在一般意义上评估它们的能力。
重要的是,上面概述的泛化谱系似乎反映了认知心理学中智力结构理论所阐述的人类认知能力的组织。人类智力结构的主要理论(CHC[62],g-VPR[48])都以分层的方式组织认知能力(图1),分为三个层次(在CHC中):顶层的通用智力(g因素),中间的广泛能力,底层的专业技能或测试任务(对于g-VPR,这扩展到4个层次,将广泛能力分为两层),尽管不同理论的能力分类不同。在这里,“极端泛化”对应于g因素,给定领域的“广泛泛化”对应于广泛的认知能力,而“局部泛化”(以及无泛化情况)对应于特定任务技能。
在20世纪初,比奈和西蒙为了寻找一种正式的方法来区分有精神障碍的儿童和有行为问题的儿童,开发了第一个智力测试——比奈-西蒙量表[8],从而创立了心理测量学领域。紧接着,斯皮尔曼观察到,在不同类型、看似无关的智力测试中,个体结果之间存在相关性,并假设存在一个一般智力的单一因素,即g因素[83, 84]。今天,心理测量学是心理学的一个成熟子领域,已经得出了一些最具可重复性的结果。现代智力测试遵循关于可靠性(低测量误差,与可重复性有关)、有效性(测量一个人声称要测量的东西,与统计一致性和预测性有关)、标准化和无偏见的严格标准进行开发——参见经典测试理论(CTT)[20]和项目反应理论(IRT)[34]。
心理测量学的一个基本概念是,智力测试评估的是广泛认知能力,而不是特定任务技能。智力结构理论(如CHC,g-VPR)与心理测量测试共同发展(测试结果出现的统计现象为这些理论提供了信息,而这些理论又为测试设计提供了信息),以分层的方式组织这些能力(图1),与我们之前提出的泛化谱系非常相似。重要的是,能力是一个抽象构造(基于理论和统计现象),而不是直接可测量的、个体思维的客观属性,如特定测试的分数。人工智能中的广泛能力也是构造,与心理测量学的认知能力面临完全相同的评估问题。心理测量学通过使用广泛的测试任务而不是任何单一任务,并通过概率模型分析测试结果来量化能力。重要的是,任务应该对受试者是未知的,也就是说,我们假设受试者不会为智力测试进行练习。这种方法与人工智能评估高度相关。
值得注意的是,与心理测量学类似,人工智能领域最近越来越有兴趣使用广泛的测试任务电池来评估旨在提高灵活性的系统。例如,用于强化学习代理的Arcade Learning Environment [6]、Project Malm ¨O [71]、Behavior Suite [68]或自然语言处理的GLUE [95]和SuperGLUE [94]基准。这些努力的基本逻辑是通过扩大目标任务集来测量比一项特定任务的技能更广泛的东西。然而,在评估灵活性时,这些多任务基准的一个关键缺陷是,任务集仍然是对任何参加考试的系统的开发者已知的,而且完全期望参加考试的系统能够专门为目标任务进行练习,利用从系统开发者那里继承的特定任务的内置先验知识,利用通过预训练获得的外部知识等。因此,这些基准仍然显得非常容易操纵(例如,见II.1.1)——仅仅将特定任务的技能评估扩大到更多任务并不能产生一种质量上不同的评估。与心理测量学方法相比,这些基准仍然关注技能,而不是能力(这并不是说这些基准没有用;只是说这种静态的多任务基准不能直接评估灵活性或通用性)。
除了这些多任务基准之外,过去还提出了一些更具雄心的AI认知能力测试套件,但在实践中并未实施:安德森和勒比耶的纽厄尔测试[2](以[66]为参考命名)、针对发展机器人的BICA“认知十项全能”[65]、图灵奥林匹克[27]和I-Athlon[1]。由于缺乏具体的实现,很难评估这些项目是否能够解决他们试图解决的能力评估问题。另一方面,最近出现了两个类似但更成熟的测试套件,关注的是泛化能力而不是特定任务:Animal-AI奥运会[7](和GVGAI竞赛[72](。两者都认为,应该在未见过的任务或游戏集上评估AI代理,以测试学习或规划能力,而不是特殊用途的技能。两者都有多游戏环境和正在进行的公开比赛。
第一种方法是重用最初为人类开发的现有心理测量智力测试,作为评估人工智能系统智力的方法——如果我们从字面上理解“人工智能”这个词,这可能是一个显而易见的想法。这个想法最早由Green在1964年提出[29],并在大约同一时间由Evans探索[24],他编写了一个名为ANALOGY的LISP程序,能够解决心理测量智力测试中可能出现的几何类比任务。Newell在1973年再次提出了这个想法[66],在他具有开创性的论文《你不能和自然玩20个问题并获胜》中。在2000年代,Bringsjord等人再次提出并完善了这一想法,并将其命名为“心理测量人工智能”(PAI)[9]。 然而,现在已经很明显,人工智能系统开发者有可能操纵人类智力测试,因为这些测试中使用的任务对系统开发者来说是可用的,因此开发者可以直接解决这些问题的抽象形式,并以程序形式硬编码解决方案(例如,参见[23, 80, 44]),就像Evans在20世纪60年代使用ANALOGY程序所做的那样。实际上,在这种情况下,是系统开发者而不是任何人工智能在解决测试问题。心理测量测试设计者对人类受试者的隐含假设在机器的情况下难以执行。
首先,我们注意到一些积极的发展。自2017年以来,人们越来越意识到在评估强化学习(RL)算法时应该寻求建立某种形式的泛化(例如[50, 70, 17, 49]),这在过去是一个严重的问题[76, 35, 101, 70],因为RL代理长期以来一直在训练数据上进行测试。此外,人们越来越关注评估学习算法的数据效率(例如[10]),特别是在Atari游戏或Minecraft等游戏的RL背景下(例如[71, 33])。最后,如I.3.3所述,已经出现了利用多任务基准作为评估鲁棒性和灵活性的一种方式的趋势(例如[6, 71, 68, 95, 94])。
最重要的是,对任何决定性地超越局部泛化的能力的评估仍然是一个绿色领域,很少有人致力于研究它。Hern´andez-Orallo在2017年指出,“面向能力和通用目的的评估方法[...]仍然非常初级,需要更多的研究和讨论”[36]。最近试图通过包含多个任务来扩大特定任务基准的努力并没有衡量开发者意识到的泛化,因为系统开发者事先知道所有任务(如I.3.3所述)。通过在以前未见过的游戏关卡上测试RL系统来评估泛化的尝试,如CoinRun[17]或Obstacle Tower[49],仍然只关注特定任务的局部泛化,通过在已知分布的新样本上评估候选系统,而不是使用实质上的新任务(如III.3所示)。此外,用于生成关卡的程序对AI开发者可用,这意味着可以通过采样任意数量的训练数据来“欺骗”这些基准(参见II.1.1)。
例如,尽管OpenAI的DotA2 AI“Five”接受了45,000年的训练,并能够击败顶级人类玩家[89],但它被证明非常脆弱,因为在AI向公众开放后,非冠军人类玩家能够在几天内找到可靠击败它的策略[90]。此外,Five甚至没有一开始就泛化到DotA2:它只能玩一个受限版本的游戏,有16个角色而不是超过100个。同样,AlphaGo及其继任者AlphaZero,分别于2016年和2017年开发,据我们所知,还没有在棋盘游戏之外找到任何应用。
我们谴责这种矛盾现象:一方面关注在技能测试中超越人类(同时完全忽视实现技能的方法是否具有可泛化性),另一方面又明显对发展广泛能力感兴趣——这是一项与技能本身完全正交的努力。我们假设这种矛盾是由于缺乏对智力、技能和泛化的清晰概念化,以及缺乏对广泛认知能力的适当衡量标准和基准。在接下来的内容中,我们将更详细地揭示使用特定任务的“登月计划”(例如,在视频游戏或棋盘游戏中实现超越人类的表现)作为迈向更通用形式的人工智能的垫脚石的问题,并提出一个旨在追求灵活人工智能和通用人工智能的行动定义。
1973年,心理学家和计算机科学先驱艾伦·纽厄尔(Allen Newell)担心最近的认知心理学进展并未使该领域更接近于全面的认知理论,于是他发表了他的开创性论文《你不能与自然玩20个问题并获胜》[66],这有助于将研究工作集中在认知架构建模上,并为长期以来的追求提供了新的动力,即建立一个能在国际象棋比赛中超越任何人类的人工智能。24年后,1997年,IBM的DeepBlue击败了世界上最好的国际象棋选手加里·卡斯帕罗夫(Gary Kasparov),使这一追求得以结束[12]。当尘埃落定时,研究人员意识到,构建一个人工国际象棋冠军实际上并没有教会他们太多关于人类认知的知识。他们学会了如何构建一个国际象棋AI,但无论是这些知识还是他们构建的AI都不能泛化到除了类似的棋盘游戏之外的任何事物。
从现代的角度来看,一个基于极小化和树搜索的静态国际象棋程序可能对人类智能并无启示,也不能在除了国际象棋之外的任何事情上与人类竞争。但在20世纪70年代,当许多人认为国际象棋能够捕捉并需要整个人类理性思维的范围时,这一点并不明显。也许在2019年不太明显的是,使用现代机器学习方法“解决”复杂视频游戏的努力仍然遵循相同的模式。纽厄尔写道[66]:“我们已经从现有的工作(关于人类的心理学研究)中知道,这项任务(国际象棋)涉及到推理和搜索的形式以及复杂的感知和记忆过程。对于更一般的考虑,我们知道它还涉及到规划、评估、手段-目的分析和情境的重定义,以及各种学习——短期、事后分析、预备分析、从书本学习等”。当时的假设是,解决国际象棋问题需要实现这些一般能力。 国际象棋确实涉及到这些能力——在人类身上。但是,虽然拥有这些一般能力使得解决国际象棋(以及更多问题)成为可能,通过从一般到具体,反过来,从具体到一般却没有明确的路径。国际象棋不需要这些能力中的任何一种,可以通过采取与人类认知正交的极端捷径来解决。
如果一个人的成功衡量标准能够准确地捕捉到他/她所追求的东西(如我们在I.3.1中所述),例如,如果一个人的最终目标是一台国际象棋机器,那么优化单一用途的性能是有用且有效的。但从目标确定的那一刻起,开发解决方案的过程将倾向于采取所有可用的捷径来满足所选目标——无论这个过程是梯度下降还是人类驱动的研究。当涉及到未纳入性能衡量标准的考虑时,这些捷径通常会带来不良的副作用。如果系统运行的环境对于预先定义一个包罗万象的目标函数来说太不可预测(例如,大多数现实世界中的机器人应用,系统面临未知的未知数),或者如果一个人目标是通用人工智能,可以应用于广泛的无需或很少人工工程的问题,那么他/她必须以某种方式直接优化灵活性和通用性,而不仅仅是针对任何特定任务的性能。
这也许是一个被广泛接受的观点,当涉及到静态程序,它硬编码了人类设计的解决方案。当人类工程师通过为每个可能的查询指定答案(通过if/else语句)来实现聊天机器人时,我们不会认为这个聊天机器人是智能的,我们也不期望它能泛化超出工程师的规格。同样,如果一个工程师看了一个特定的智商测试任务,想出了一个解决方案,并以程序的形式写下这个解决方案,我们不会期望这个程序能泛化到新的任务,我们也不相信这个程序展示了智能——这里唯一发挥作用的智能是工程师的。程序只是编码了工程师思维过程的结晶输出——是这个过程,而不是它的输出,实现了智能。智能不是通过输出程序的性能(一种技能)来展示的,而是通过同一个过程可以应用于大量以前未知的问题(一种通用能力)的事实来展示的:工程师的思维能够进行极端的泛化。由于生成的程序只是编码了那个过程的输出,它并不比用来写下定理证明的墨水和纸更智能。
信息处理系统形成了一个介于两个极端之间的光谱:一端是完全由硬编码先验组成的静态系统(如DeepBlue或我们的if/else聊天机器人示例),另一端是包含很少先验并且几乎完全通过接触数据编程的系统(如哈希表或密集连接的神经网络)。正如我们在II.1.3中指出的那样,大多数智能系统,包括人类和动物,都结合了大量的先验和经验。至关重要的是,泛化的能力是一个与先验/经验平面正交的轴。给定一个能够实现一定水平泛化的学习系统,通过整合更多的先验或关于任务的更多训练数据来修改系统,可以在不影响泛化的情况下提高特定任务的性能。在这种情况下,先验和经验都作为一种方式来“游戏”任何给定的技能测试,而不必展示人类依赖的那种通用能力来获得相同的技能。
这可以用一个简单的例子来证明:考虑一个使用局部敏感哈希函数(例如最近邻)将新输入映射到先前看到的输入的哈希表。这样的系统实现了一个能够进行局部泛化的学习算法,其泛化程度是固定的(独立于看到的数据量),只由哈希函数的抽象能力决定。尽管这个系统只具有微量的泛化能力,但它已经足以“解决”任何可以生成无限训练数据的任务,比如任何视频游戏。人们所需要做的就是获取需要覆盖的情况空间的密集采样,并将每种情况与适当的动作向量关联起来。
向一个局部泛化学习系统添加越来越多的数据,如果一个人的最终目标是在所考虑的任务上获得技能,那么这当然是一个公平的战略,但它不会导致超出系统所见数据的泛化(结果系统仍然非常脆弱,例如深度学习模型,如OpenAI Five),而且至关重要的是,开发这样的系统并不能教会我们如何实现灵活性和通用性。“解决”任何给定的任务,通过利用无限的先验或无限的数据达到超越人类的性能水平,并不会使我们更接近广泛的人工智能或通用人工智能,无论任务是国际象棋、足球还是任何电子竞技。
目前的证据(例如[51, 46, 16, 59, 50])表明,当代深度学习模型是局部泛化系统,概念上类似于局部敏感哈希表——它们可能被训练成在任何任务上达到任意水平的技能,但这样做需要对考虑的输入交叉目标空间进行密集采样(如[16]所述),这对于高价值的现实世界应用(如L5自动驾驶)来说是难以获得的(例如,[5]指出,3000万个训练场景对于一个深度学习模型来说不足以在纯监督环境下学会驾驶汽车)。假设性地,未来可能会证明,从深度学习衍生出来的方法可能具有更强的泛化能力,但要证明这一点不能仅仅通过实现高技能来实现,例如在DotA2或星际争霸中击败人类,给定无限的数据或无限的工程;相反,我们应该寻求精确地建立和量化这种系统的泛化强度(例如,通过考虑技能习得中的先验效率和数据效率,以及开发者意识到的任务泛化难度)。本文的一个核心要点是为此提供一个正式的框架(II.2和II.3)。在我们的评估方法中未能考虑到先验、经验和泛化难度,将阻止我们的领域沿着泛化光谱(I.3.2)攀登得更高,并最终达到通用人工智能。
总之,广泛能力(包括一般智力,如II.1.2所述)的标志是适应变化、获取技能和解决以前未见问题的能力——而不是技能本身,技能仅仅是智能过程的结晶输出。测试系统开发人员事先已知的任务的技能(作为当前通用人工智能研究的趋势)可以通过两种方式在没有显示智能的情况下进行游戏:1)无限的先验知识,2)无限的训练数据。为了真正评估广泛的能力,从而在灵活的人工智能和最终的通用人工智能方面取得进展,我们必须以严格和定量的方式控制我们的评估方法中的先验、经验和泛化难度。
认知心理学的一个众所周知的事实是,不同的个体在不同程度上表现出不同的认知能力,尽管所有智力测试的结果都是相关的。这表明认知是一个多维对象,以分层的方式结构化(图1),顶部有一个单一的通用性因素,即g因素。但是,“一般智力”是认知金字塔的绝对顶峰(正如“人工通用智能”的支持者有时假设的那样),还是只是一种更广泛的心智能力,一种相对专业化的能力,与层次结构中较低的其他能力没有质的区别?人类的智力有多普遍?
“没有免费午餐”定理[98, 97]告诉我们,当它们的性能在所有可能的问题上平均时,任何两个优化算法(包括人类智力)都是等价的,也就是说,算法应该针对它们的目标问题进行定制,以实现优于随机的性能。然而,在这个背景下,“每一个可能的问题”指的是问题空间上的均匀分布;与我们宇宙实际相关的问题分布(由于其选择的物理定律,这是一个特殊的环境)并不符合这个定义。因此,我们可以问:人类的g因素是普遍的吗?它会泛化到宇宙中的每一个可能的任务吗?
对于心理测量学来说,这是一个很大程度上无关紧要的问题,因为作为一个心理学的子领域,它隐含地假设它只关注人类和人类经验。但当涉及到人工智能时,这个问题就非常重要了:如果存在所谓的通用智能,而人类智能是其实现方式,那么这个通用智能算法应该是我们领域的最终目标,逆向工程人脑可能是实现它的最短路径。这将使我们的领域成为一个封闭的领域:一个待解的谜题。另一方面,如果人类智能是一种广泛但临时的认知能力,它可以泛化到与人类相关的任务,但不能泛化到其他任务,这意味着人工智能是一种开放式的、以人类为中心的追求,与特定的适用范围相关。这对我们如何衡量它(以人类智能和人类任务为参考)以及我们为实现它而遵循的研究策略产生了影响。
根据定义,g因素代表了在所有智力测试中成功的单一认知能力,这是通过对各种测试和个人的测试结果应用因子分析得出的。但是,智力测试的结构只包括人类可以完成的任务——那些人类可以立即识别和理解的任务(以人类为中心的偏见),因为包括人类无法完成的任务是没有意义的。此外,心理测量学通过展示对人类重视的活动(如学术成功)的预测性来建立测量的有效性:“有效”的智力测量方法的概念只有在人类价值观的参考框架内才有意义。
事实上,对什么具体能力使某人“聪明”的解释因文化而异[100, 86, 18]。更广泛地说,当涉及到将智能归因于他们周围的复杂信息处理代理时,无论是来自其他文化的人还是动物(如章鱼、海豚、大猩猩等),人类在历史上一直表现不佳。我们只是不情愿地接受这样一个可能性,即与我们自己不同的系统可能是“智能的”,如果它们表现出与智能相关的人类行为,如语言或工具使用;具有高内在复杂性和高适应性但不直接相关的行为(如章鱼伪装)不被认为是智能的。这一观察扩展到集体实体(如市场、公司、科学作为一个机构)和自然过程(如生物进化)。尽管它们可以被建模为独立系统,其能力和行为与广泛接受的智能定义相匹配(在广泛的环境中实现目标,展示灵活性和适应性等),但我们不会将这些系统归类为智能,仅仅因为它们不够像人类。
用一个众所周知的跨领域类比[25]:就像“智能”一样,“身体健康”(与体育和其他体育活动有关)的概念是一个直观易懂、非正式但有用的概念。与智力一样,健康不容易归结为任何单一因素(如一个人的年龄或肌肉质量),相反,它似乎是从一系列相互依赖的因素中产生的。如果我们试图严格地测量人类的身体健康,我们会提出一套多样化的测试,如跑100米、跑马拉松、游泳、做仰卧起坐、打篮球等,这与智商测试套件没有什么不同。在测试结果中,我们会观察到相关性集群,对应于与认知能力严格类似的广泛的“身体能力”(例如,肺活量可能是这样一种“能力”,在测试中引起相关性)。就像认知能力的情况一样,专家们可能会对这种广泛能力的确切分类持不同意见并进行辩论(“高大苗条”是一种能力,还是“高”是一个独立的因素?)。至关重要的是,我们应该直觉地期望发现所有的测试结果都是相关的:我们会观察到身体g因素,对应于“身体健康”的一般直观结构。
但这是否意味着人类的形态和运动功能在绝对意义上是“通用的”,一个非常健康的人可以处理任何体力任务?当然不是;我们并不适应宇宙中的大多数环境——从地球的海洋到金星的表面,从木星的大气层到星际空间。然而,值得注意的是,人类的身体能力比引导其进化的有限环境和活动范围更广泛地泛化到环境和任务中。讽刺的是,人类的身体是为了在东非大草原上奔跑而进化的,但它们能够攀登珠穆朗玛峰、横渡湖泊、跳伞、打篮球等。这不是巧合;出于必要,进化优化了适应性,无论是认知适应性还是感觉运动适应性。因此,可以说人类的身体能力是“通用的”,但只是在有限的范围内;从更广泛的角度来看,人类显示出自己是极度专业化的,考虑到他们进化的过程,这是意料之中的。
我们认为,人类的认知严格遵循与人类身体能力相同的模式:两者都是作为特定环境中特定问题的进化解决方案而出现的(通常被称为“四个F”)。重要的是,两者都经过了适应性优化,因此它们被证明适用于超出引导其进化的任务和环境范围的任务和环境(例如弹钢琴、解决线性代数问题或横渡英吉利海峡)——这一显著事实应该引起任何对工程广泛或通用能力感兴趣的人的极大兴趣。两者都是多维概念,可以建模为一个广泛的、以顶层“通用”因素为主导的能力层次结构。至关重要的是,两者最终仍然是高度专业化的(考虑到它们发展的背景,这应该是不足为奇的):就像人类的身体不适合宇宙中几乎全部体积的环境一样,人类的智力也不适合大多数可想象的任务。
这包括明显的问题类别,如需要长期规划超过几年的问题,或需要大量工作记忆的问题(例如,乘以10位数)。这也包括我们的先天认知先验不适应的问题;例如,当这些问题与进化上熟悉的任务(如导航)有认知重叠时,人类可以高效地解决某些小规模的NP难问题(例如,低点数的欧几里得旅行商问题(TSP)可以通过人类在接近线性的最优时间内接近最优地解决[58],使用感知策略),但对于非常大的问题实例或与进化上熟悉的任务认知重叠较少的问题(例如,某些非欧几里得问题),他们的表现很差——通常不比随机搜索好。例如,在TSP中,当目标从“找到最短路径”变为“找到最长路径”时,人类的表现会严重下降[57]——在这种情况下,人类的表现甚至比最简单的启发式方法之一:最远邻居构造还要差。
因此,从概念上讲,将“人工通用智能”设定为绝对意义上的目标(即“通用智能”)是不合理的。要着手构建任何形式的广泛能力,必须从一个目标范围开始,并且必须在这个范围内寻求达到一个明确定义的智能阈值:人工智能是一项深度上下文和开放式的努力,而不是一个需要一次性解决的谜题。然而,理论上可能创建类似人类的人工智能:我们可以逐渐构建跨越与人类智能相同应用范围的系统,并可以逐渐增加它们在这个范围内的泛化能力,直到与人类相匹配。我们甚至可以构建具有更高泛化能力的系统(因为没有先验理由假设人类认知效率是一个上限),或者具有更广泛应用范围的系统。这样的系统将具有超越人类的智能。
总之,我们建议研究开发人工智能系统的广泛性(直到“通用”人工智能,即具有与人类智能相当的泛化程度的人工智能)应该关注定义、测量和开发一种特定的人类智能形式,并应该专门针对人类智能(本身高度专业化)来衡量进展。这并不是因为我们认为与我们自己的智能大相径庭的智能不可能存在或没有价值;相反,我们认识到表征和测量智能是一个必须与明确定义的应用范围联系在一起的过程,而现在,人类相关任务的空间是我们唯一可以有意义地接近和评估的范围。因此,我们不同意通用心理测量学[39]或Legg和Hutter的通用智能[54]的观点,它们完全拒绝人类中心主义,并寻求根据一个绝对的尺度来衡量所有智能。 人类中心的参照系不仅是合法的,而且是必要的。
在我们开始之前,让我们强调,在许多不同的背景下,许多可能的智能定义可能是有效的,我们并不声称上面的定义和下面的代表了“唯一真实”的定义。我们的定义也不是为了达成广泛的共识。相反,我们的定义的目的是可操作的,为研究广泛的认知能力提供一个有用的视角转变,并为新的通用智能基准测试提供一个定量基础,例如我们在第三部分中提出的基准测试。根据乔治·博克斯的格言,“所有模型都是错误的,但有些是有用的”:我们在这里的唯一目标是提供一个灵活的通用人工智能的有用北极星。我们在II.2.3中讨论了我们的有用和可操作的具体方式。
–在实践中,在部分可观察的游戏中,连续的情境非常接近(例如,《魔兽争霸III》中的两个连续屏幕帧),可以假设在t时刻的skillProgramt和t+1时刻的skillProgramt+1实际上并不是从零开始独立生成的,而是会非常接近(即IS对任务的理解会在程序空间中持续演变);由skillProgramt生成的spStatet+1和在t+1时刻由SkillProgramGen生成的spStatet+1也会非常接近。
评估阶段在表面上与训练阶段相似,不同之处在于1)任务从testTaskStatee=0开始,并由一系列独立的情况组成,2)它只涉及一个单一的固定技能程序testSkillProgram,以状态testSPStatee=0开始。关键的是,它不再涉及智能系统。请注意,testTaskStatee=0可以是随机选择的。例如,不同的随机选择的初始testTaskStatee=0可以是游戏中不同的随机生成的关卡。
•任务和技能价值函数:我们在任务空间(注意任务空间可能是无限的)上定义一个价值函数,将一个标量值与任务和任务的技能阈值θ的组合相关联:TaskValue:Task,θ→ωT,θ。假设值为正数或零,并且TaskValue作为θ的函数是单调的(对于给定的任务,更高的技能总是具有更高的价值)。这个价值函数捕捉了每个任务技能的相对重要性,并定义了我们智力定义的主观参考框架(例如,如果我们希望评估类似人类的智力,我们会高度重视在与人类相关的任务上获得高技能,而不会重视与人类经验无关的任务)。选择任务T的技能水平ωT,θ的值,以便在不同任务之间公平地比较数量ωT,θ(即,它应该捕捉到我们在任务T上达到技能θ的价值)。这使我们能够在不同任务之间均匀地聚合技能,而不必担心它们各自评分函数的规模。