OpenAI科学家用实验告诉你: 放弃目标 方能走出迷雾

最新信息

OpenAI科学家用实验告诉你: 放弃目标 方能走出迷雾
2023-06-09 08:15:00
想象一下,如果让你教会一个带轮子的机器人独立走出迷宫,你会怎么做?
  或许很多人会这样做:为机器人编制一套名为“走出迷宫”或“直达出口”的程序。程序的每一个环节都要将“是否比前一步更接近迷宫出口”作为有效与否的唯一标准,丝毫不敢偏离;然后再按部就班地实现这些精心设计的目标。可能会有几次失败,不过没关系,最终机器人会按照精心设计的程序成功走出迷宫。
  这看似是一个十分严谨、科学且励志的方法。不过,事情真的这样简单吗?
  其实,这个实验来自OpenAI的两位科学家肯尼斯·斯坦利(Kenneth Stanley)和他的学生乔尔·雷曼(Joel Lehman)早年间的一段特殊的经历。师生二人合著的新书《为什么伟大不能被计划》非常详细地记录了这个实验的经过。
  首先,他们的实验团队测试了一种传统的、基于目标的探索方法:在这个测试中,一个驱动机器人更接近终点目标的行为被认定为更好的行为。换句话说,计算机将进一步探索那些驱动机器人更靠近目标的行为。这与大多数目标驱动型活动的运作方式相似,即我们不断地将时间和精力投入那些能够使我们更接近目标的行为上。但是,40次基于目标的迷宫实验中,机器人只成功了3次。
  成功率如此之低,一定程度上反映出实验思路的问题。于是,二人反其道而行之,决定抛弃目标,来一场名为“新奇性搜索”的实验。
  这种实验方法究竟怎么玩?它“好”在哪里?
  一个带轮子的机器人在迷宫中尝试新奇性搜索,总是试图做出一些新举动。实验将如何开展?该书作者的基本想法是,计算机程序可以先产生新的“想法”,然后机器人尝试做出相应的行为。如果该行为在机器人尝试时被证明是新奇的,那么该行为可能是有趣的,所以程序可以将其认作一个好主意。需要注意的是,这种判断想法质量的方式,与设定了具体目标的情况不同。例如,如果设定的目标是让机器人从起点位置走到迷宫的终点,那么“好”的行为,就应该是那些让机器人最终会比之前更接近迷宫终点的行为。
  什么行为是好的或坏的是一个很重要的问题,因为程序将只会继续探索被认定为“好”的想法。换句话说,新奇性搜索的希望在于,好的想法可能是通往有趣事物的踏脚石。因此,在尝试了一系列的行为之后,程序决定专注于测试那些看起来有趣的行为。为了做到这一点,程序将采用这些新奇的想法并进行微调,继而观察是否会出现更有趣、更新奇的东西。如果机器人绕过一堵从未绕过的墙,那么对该行为的微调就有可能让机器人走得更远。另一方面,如果机器人做了以前做过很多次的事情(比如撞墙),那么这个行为就会被忽略,不会被进一步探索。这种专注于如何在迷宫中实践更新奇的想法的方式,与任何其他类型的创造性思维相同,即你可能有一个有趣的想法,然后在思考一段时间后,发现它启发了其他有趣的想法。
  这将是实验变得更耐人寻味的地方。想象一下,如果机器人不断尝试新的行为并进一步探索最新奇的行为,它就与前文描述的那个机器人有点像:一开始总撞墙,然后知道了如何避免撞墙,最后学会穿过门洞。问题是,如果持续这样的新奇性搜索过程,机器人最终会不会发现一个能破除整个迷宫的行为(换句话说,一个能驱动机器人从起点顺利走到终点的行为),哪怕走出迷宫并不是它的目标?
  实验结果表明,答案是肯定的——如果运行一段时间的新奇性搜索算法,计算机将持续产生驱动机器人通过整个迷宫的行为。这个实验结果很有趣,因为没有人编写让机器人顺利通过迷宫的程序。更重要的是,穿越迷宫从来都不是一个既定目标,该程序甚至不知道目标的存在。因此,有趣的是,新奇性搜索最终发现了一个看起来相当智能的行为,尽管从来没有人告诉计算机它应该做什么。
  如果你是目标论的“粉丝”,并且认为目标是实现任何伟大的成就不可或缺的因素,那么你可能会认为:基于目标的方法在发现通往迷宫终点的行为方面,比新奇性搜索更可靠,因为后者甚至没有设定任何目标。但实验的结果恰好相反,新奇性搜索在探索走出迷宫的行为方面要可靠得多:40次的新奇性搜索的迷宫实验,机器人在39次实验中找到了终点。
  如此说来,让机器人走出迷宫的诀窍,恰恰是放弃让它走出迷宫的“执念”。这便是《为什么伟大不能被计划》的“价值观”所在。
(文章来源:金融时报)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

OpenAI科学家用实验告诉你: 放弃目标 方能走出迷雾

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml