非目标探索会带来哪些无限机会？——《为什么伟大不能被计划》

2023-05-22 来源：上海证券报

　　《为什么伟大不能被计划》
　　(美）肯尼斯·斯坦利乔尔·雷曼著
　　彭相珍译
　　中译出版社
　　2023年4月出版

◎潘启雯

怎样教会一个带轮子的机器人独立走出迷宫？大多数计算机程序员可能会这样做：为机器人编制一套名为“走出迷宫”或“直达出口”的程序或AI算法。该程序或AI算法的每一个环节都要将“是否比前一步更接近迷宫出口”作为有效与否的唯一标准，丝毫不敢偏离；然后再按部就班地实现这些精心设计的“目标驱动型搜索”。这一过程，可能会有几次失败，甚至几十次失败，不过没关系，最终机器人会按照AI算法成功走出迷宫。这看似是一个严谨且科学的方法，不过事情的结果真的是这样吗？

这个有趣的前沿实验来自享誉全球的人工智能公司OpenAI（开放式人工智能公司）的两位研究员肯尼斯·斯坦利和乔尔·雷曼早年间的一段特殊的经历。由他们二人合著的《为什么伟大不能被计划》颇为详细地记录了这个实验的全部过程。在40次基于“目标驱动型搜索”的迷宫实验中，机器人只成功了3次。试图找到走出迷宫的行为，在大多数情况下都失败了，而不尝试这个“目标驱动型搜索”的行为却取得了成功，这个结果的确出乎意料。他们在人工智能领域研究过程中的“无心插柳”，意外收获了对人类思维方式的全新颠覆：盲目信奉目标可能是一个错误。多数人的工作方法是盯着一个明确的目标拼命钻研，但是这种策略的重大缺陷是，现实世界中很多看上去能帮助我们实现目标的方法有很大的欺骗性，甚至衡量目标的标杆本身也有问题。

“新奇性”就是放下执念

“目标驱动型搜索”完成任务的成功率如此之低，一定程度上反映出实验思路出现问题。为此，斯坦利和雷曼两位研究员反其道而行之，决定抛弃“目标驱动型搜索”，并在“踏脚石理论”基础上，探索出一项名为“新奇性搜索”的算法，从而绘制了一幅完全不同的全新进阶图景。

该算法的核心是新奇行为事实上是通往更多新奇行为的最佳“踏脚石”，即新的东西可以带来更新的东西。一个带轮子的机器人在迷宫中尝试“新奇性搜索”，总是试图做出一些新举动。比如，计算机程序可以先产生新的“想法”，然后机器人尝试做出相应的行为。如果该行为在机器人尝试时被证明是新奇的，那么程序可以将其认作是一个好主意。因此，在尝试了一系列行为之后，程序决定专注于测试那些看起来有趣的行为。为了做到这一点，程序将采用这些新奇的想法并进行微调，继而观察是否会出现更有趣、更新奇的东西。

这是该实验变得耐人寻味的地方。想象一下，如果机器人不断尝试新的行为并进一步探索最新奇的行为，那么它就会一开始总是撞墙，然后知道了如何避免撞墙，最后学会穿过门洞。随着“新奇性搜索”不断持续，机器人最终会发现一个能破除整个迷宫的行为。换句话说，“新奇性搜索”能驱动机器人从起点顺利走到终点的行为，哪怕走出迷宫并不是它的目标。

“新奇性搜索”在探索走出迷宫的行为方面显然比“目标驱动型搜索”可靠得多：在40次“新奇性搜索”的迷宫实验中，机器人有39次找到了终点。不仅如此，这种“新奇性搜索”算法还会随机生成一组解决方案，通过评估“新奇性”并保留“新奇性”比较高的方案，从而像生物演化一样发生一定的变异，如此往复循环，直到达到预定的迭代次数或者将问题彻底解决。如此说来，让机器人走出迷宫的诀窍，恰恰是放弃让它走出迷宫的“执念”。

从“坎贝尔定律”审视单一指标的弊端

在斯坦利和雷曼两位研究员看来，当社会对进步的追求被打包为一种措施进行衡量时，就会产生目标驱动效应，提升目标表现的驱动力就很可能产生欺骗性，反而阻碍了人们发现最佳结果的能力。借用社会科学中众所周知的“坎贝尔定律”来审视就是：任何量化的社会指标越是被用于社会决策，社会腐败的压力便越大，也就越容易扭曲和腐蚀它所要监测的社会进程。

换句话说，类似学业成绩测试这样的社会指标，当其目标是“让成绩更上一层楼”时，效果往往是最差的。原因在于，单一的指标很难把握人们真正关注的是什么。

以学生的考试成绩为标准来评估教师，会直接迫使教师开展应试型教学，而最终的结果，不是培养出具备丰富知识和实用技能的学生，而是产出擅长记忆和考试的应试型学生。以考试成绩为目标时，学生的成绩可能会提高，但同时也意味着他们真正掌握的实用知识反而变少了。

通过对比研究，斯坦利和雷曼两位研究员还发现，“坎贝尔定律”的另一种更有害、更极端的形式是不当激励，即有时为了使事情变得更好而选择的奖励，实际上会使事情变得更糟。例如，印度在受英国殖民统治时期，英国政府为了消灭毒蛇出台了一项政策，印度公民每上交一条死蛇，就能领取一笔报酬。但这项措施并没有达到预期的效果，反而导致印度公民为了获得赏金而争相饲养眼镜蛇，然后杀死它们牟利。最终，印度的毒蛇数量反而增加了。因此，这项激励政策产生了与预期背道而驰的效果。同样的事情也发生在越南首都河内，但抓捕的对象不是毒蛇，而是老鼠。这最终导致了老鼠养殖场的出现，而非鼠害问题的减轻。

其他不当激励的例子还有很多，比如旨在减少酗酒的运动，可能会导致危害性更高的药物逐渐泛滥；为工人发现的每块恐龙骨碎片支付报酬，会导致工人选择砸碎整块骨头以获取更多奖赏；为提高企业收益而给高管支付奖金，会导致短期逐利行为。这些例子表明，目标的欺骗并不局限于算法和进化领域，而是无处不在，遍及各行各业。

当然，斯坦利和雷曼两位研究员并不是要谴责现代社会的整个基础。他们认为，目标不是，也永远不会是无用的。

发明创造并不是预设的结果

要预测什么道路可以通往最令人满意的结果，本身就很困难。与生活中所有的开放式问题一样，通往成功的“踏脚石”，往往是未知的。然而，进化过程之所以能够带来诸多伟大的发明，是因为自然界就是一个“踏脚石”的收集器。

那些颠覆整个行业或体系的成就，通常不会遵循“预先设定目标”的剧本。正如斯坦利和雷曼两位研究员在本书中指出的那样：任何重大发明的先决条件，几乎都是在没有考虑到该发明的情况下发明的。虽然这个想法听起来很奇怪，即便它并不完全正确，也能引发人们对目标驱动的深刻反思。

比如，真空管是早期计算机的奠基性踏脚石，但是计算的概念并没有提供任何关于真空管需求的线索，也没有提供关于电力需求的线索。现代内燃机的前身是感应线圈，其最初也不是以制造发动机为目的。作为一种简便的高电压触发器，它主要被应用于早期的电气实验。从感应线圈到内燃机，再到飞机的创新链中的每一个环节，其发明者都没有想到下一个环节可能是什么。过去所创造的未来，并不是过去所设想的愿景，而是过去意外促成的结果。

许多纯数学的研究人员也许从未想过要去影响现实世界，他们最尖端的理论，往往被视为纯粹的智力成果，搁置多年而无人问津。著名数学家哈代曾将数学的实际应用称为“数学领域最枯燥和初级的部分”，与纯数学的诗意，即追求真理而不考虑实际应用，形成了鲜明对比。然而，尽管纯数学家们在竭尽全力地保持数学的“纯理论性”，但这些看似“不实用”的理论成果，后来还是被证明支持了物理学的发展，促成实用的计算机算法的出现。深奥的数学还通过公钥密码学的应用，为线上商务的安全性提供了支持，但是其原始动机完全没有考虑到在线商务领域的应用。

人类探索未知的态度可能存在本质的问题，人们惯用的方式似乎无法取得令人满意的结果。日本通商产业省在1982年曾启动了一个长达10年的大规模研究项目，即“第五代计算机系统项目”，旨在推动日本的计算机技术跻身世界领先地位。虽然日本政府投入了大量资金用于定向研发，但人们普遍认为这个项目没有实现其目标：开发出具备商业成功潜力的产品，尽管这个项目的确为日本培养了新一代有潜力的日本计算机研究人员。同样，美国总统尼克松于1971年发起的“抗癌战争”，旨在消灭癌症这一高死亡率的疾病，但也未取得成功，尽管这个项目在研发更有效的癌症治疗方法方面进行了针对性研究，并加深了人们对肿瘤生物学的理解。事实上，类似人类基因组计划等看似不相关的科学研究项目，反而更有希望发现治疗癌症的方法。

实现那些伟大发明的最佳方式可能就是忽略它们，而这种想法似乎违背了常规的直觉。换言之，伟大发明从来都不是按照某个目标刻意计划出来的。而斯坦利和雷曼撰写《为什么伟大不能被计划》的目的或许就是想告诫世人：如果这个世界并不像我们想象的那样运作，那么也许转变思维，就可以让我们捕捉到它真正的运作方式，并为我们所用。“在浓雾中踩着踏脚石穿越湖面，意味着你需要在不知道前路通往何方的情况下，做出很多关键的决定。”

6版书评