机器之心报道
机器之心部
终于,面对近年来对自家自动 AI 芯片设计研究的质疑,谷歌坐不住了,发文回应!论文中包括了谷歌首席科学家 Jeff Dean。
我们先来回顾一下事情的来龙去脉:
2020 年,谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》,介绍了其设计芯片布局的新型强化学习方法 AlphaChip。在 2021 年,这项研究发表在 Nature 上并开源了出来。
此后,AlphaChip 激发了 AI 芯片设计方面的大量工作,并在谷歌母公司 Alphabet 三代 TPU、数据中心 CPU 和其他芯片中部署,并由外部芯片制造商扩展。
然而,ISPD 2023 上的一篇论文对谷歌 AlphaChip 的性能提出了质疑(Cheng 等人),论文指出,尽管谷歌承诺会提供数据和代码,但实际上这些资源并不完全可用。
论文地址:https://arxiv.org/pdf/2302.11014
Cheng 等人还认为基于谷歌的 Circuit Training(CT)框架的 AlphaChip 和《Nature》论文存在几项不一致:如输入网表的预放置信息、代理成本函数的权重设置、宏观和标准单元群集的放置规则等。
根据他们的评估,相比模拟退火算法(SA),在大多数情况下,AlphaChip 的代理成本更高、HPWL 也不如 SA 方法。
但谷歌方称:「他们并没有按照我们 Nature 论文中描述的方法运行。」
例如 Cheng 等人的论文中没有预训练 RL 方法(消除了从先验中学习的能力)、使用的计算资源少得多(RL 经验收集器减少 20 倍,GPU 数量减少一半)、没有训练到收敛(机器学习标准做法),并且用于评估的测试用例也是过时的。
文章地址:https://cacm.acm.org/research/reevaluating-googles-reinforcement-learning-for-ic-macro-placement/
谷歌还拉了一张时间线:
因此,面对以上质疑,谷歌通过本文进行了回应,确保没有人因为错误的原因而放弃在这个有影响力的领域继续创新。
Jeff Dean 发推表示,Cheng 等人的论文很大程度上并没有遵循谷歌的方法,尤其是没有进行预训练,在算力、训练收敛方面也都存在缺陷。
Jeff Dean 还认为,Igor Markov 的文章提出了含蓄的指控,完全没有根据。他很惊讶 Synopsys 竟然想与此事扯上关系,也很惊讶 CACMmag 竟然认为发表这些指控是恰当的。除了两篇有缺陷、未经同行评议的文章之外,没有任何证据或技术数据。
Cheng 等人在复现谷歌方法时的错误
Cheng 等人并未按照谷歌在《Nature》中的描述复刻论文中方法,因此他们的结果不好,并不意外。
以下是谷歌指出的主要错误:
未对强化学习方法进行预训练
AlphaChip 的核心优势在于能够从先验中学习,即在正式测试前通过「练习」模块中进行预训练。去除这一点,相当于评估一个完全不同且效果变差的方法。
下图 2 中展示了:训练数据集越大,AlphaChip 在新模块上的布局效果越好。
AlphaChip 的原论文中也通过下表展示了对 20 个模块进行预训练,模型可以掌握更有效的布局策略的效果。
此外,AlphaChip 的原论文中多次强调预训练的重要性。例如下图所示,在开源的 Ariane RISC-V CPU 上,未预训练的强化学习策略需要 48 小时才能接近预训练模型 6 小时的效果。
AlphaChip 在主数据表中的实验结果正是基于 48 小时的预训练,但 Cheng 等人没有进行任何预训练。这意味着强化学习模型从未接触过芯片,需要从零开始在每个测试案例上学习布局。
这就像对未见过围棋对局的 AlphaGo,却得出了 AlphaGo 不擅长下围棋的结论。
为此,Cheng 等人在论文中指出,谷歌开源的内容不支持复现预训练。但预训练仅需运行多个案例的训练过程,开源的数据一直支持预训练。
在 Cheng 等人的论文中称,截至目前,对 AlphaChip《Nature》论文和 CT 框架的数据和代码都未完全公开,因此,评估遇到了阻碍。
用的计算资源少了一个数量级
强化学习经验收集器比 Nature 论文中少 20 倍 (26 个 VS 512 个),GPU 数量也少一半 (8 个 VS 16 个)。计算资源变少往往需要更长的训练时间才能达到相同的效果。
根据另一篇复现 AlphaChip 的论文《Scalability and Generalization of Circuit Training for Chip Floorplanning》,使用更多 GPU 进行训练可以加速收敛。
如果 Cheng 等人能够按照 AlphaChip 原论文中的描述配置实验,其结果可能会有所改善。
没有训练到收敛
众所周知,没训练到收敛会显著影响模型性能。
从 Cheng 等人的项目网站,可以找到四个模块的收敛曲线(Ariane-GF12、MemPool-NG45、BlackParrot-GF12 和 MemPool-GF12),但在这些模块的训练中均未达到收敛状态(他们还没提供 BlackParrot-NG45 或 Ariane-NG45 的曲线)。
对于这四个模块,训练均在相对较少的步数下被中断。
在不具代表性且无法复现的基准上进行评估
Cheng 等人使用的基准 (45nm 和 12nm 的节点)与 AlphaChip(7nm 以下的节点)所用的相比,更老更旧,在物理设计上差异显著。
对于 10nm 的技术节点,多重图形化技术容易引发布线拥塞问题。
因此,对于没那么先进的技术节点,可能需要调整 AlphaChip 的奖励函数中的相关组件。
AlphaChip 的研究团队称:「我们主要为 7nm、5nm 以及更先进的工艺节点设计,对于前几代节点,尚未深入研究。但我们欢迎社区在这方面的贡献!」
此外,Cheng 等人未能或不愿提供用于复现其主要数据表中结果的综合网表。
对此,AlphaChip 的研究团队称:「Cheng 等人虽说对我们的方法进行了大规模重现,但是不是复现错了?我们建议直接使用我们的开源代码。」
除了在复现谷歌方法时存在错误,Cheng 等人还存在一些其他问题,包括如下:
Cheng 等人声称,谷歌的代理成本与最终指标没有很好的相关性,但他们自己的相关性研究实际上表明,总体代理成本与除标准单元面积之外的所有最终指标之间存在微弱但正相关的相关性。具体如下图 6 所示。
最后,谷歌表示 AlphaChip 完全开源,他们开源了一个软件存储库,以完全复现《Nature》论文中描述的方法。RL 方法的每一行都可以免费检查、执行或修改,并且提供源代码或二进制文件来执行所有预处理和后处理步骤。
GitHub 地址:https://github.com/google-research/circuit_training
更多回应细节请参阅原论文。
索尼人工智能打败人类顶尖玩家登上《自然》封面
索尼人工智能打败人类顶尖玩家登上《自然》封面
索尼人工智能打败人类顶尖玩家登上《自然》封面。 索尼公布了一款由其旗下AI部门开发的人工智能技术,同时它也相应地成为了本周《自然》的“封面人物”,索尼人工智能打败人类顶尖玩家登上《自然》封面。
索尼人工智能打败人类顶尖玩家登上《自然》封面1
还记得前几天索尼预告即将公布的重要AI消息吗?最近,索尼正式宣布,其研究人员已经开发出了一款名为“GT Sophy”的AI车手,可以击败人类顶尖的车手获得冠军。
据悉,索尼对于“GT Sophy”使用了异种称为强化学习的方法进行训练。 其本质就是不断的试错,将AI扔进一个没有指令的环境中,达到目标即可获得奖励。
索尼的研究人员表示,它们必须谨慎地设计奖励,譬如微调碰撞惩罚,调整各种目标地优先级,从而保证AI地驾驶风格足够激进,但又不只是在路上欺负对手。
在强化学习的帮助下,AI只需要几小时的训练,就已经适应了赛道飙车。 并且在一两天内做到了训练数据快过95%的车手。 经过小时的总训练,目前AI已经在索尼PS5的《GT赛车》游戏中取得了惊人的成绩,击败顶级人类车手已不是问题。
索尼用AI对三位顶级电子竞技车手进行了测试,没有一个人能够在计时赛中击败AI。 而他们也从AI竞赛中学到了新战术,学习AI的路线,掌握更好的入弯时间点。
索尼目前表示,他们正在努力将GT Sophy整合到未来的《GT赛车》游戏中,不过尚没有提供任何具体的时间表。
再结合之前索尼造车的各种消息,这款AI没准还能用在现实世界汽车的自动驾驶技术上,前景可谓十分乐观。
索尼人工智能打败人类顶尖玩家登上《自然》封面2
“我们追求人工智能,是为了最终更好地了解人类。”
作为这个世代中为数不多的拟真赛车游戏,《GT赛车Sport》的玩家们可能从来没有想过,自己玩的游戏,有天会登上世界顶级科学期刊《自然》(Nature)的封面。
在昨天,索尼公布了一款由其旗下AI部门开发的人工智能技术,同时它也相应地成为了本周《自然》的“封面人物”,而这个人工智能的成就,是在《GT赛车Sport》中击败了全球一流赛车游戏选手们。
Nautre第7896期封面
或者,用“征服”这个词来形容更为合适。 在索尼展示的四位AI车手与四名职业赛车玩家的对决中,冠军AI的最高圈速比人类中的最优者快了两秒有余。 对一条3.5英里长度的赛道而言,这个优势一如AlphaGo征服围棋。
在近五年的研发时间里,这个由索尼AI部门、SIE还有PDI工作室(也就是《GT赛车》开发商)共同研发的AI完成了这个目标。
索尼为这个AI起名为GT Sophy。 “索菲”是个常见的人名,源自希腊语σοφ α,意为“知识与智慧”。
Sophy和一般的游戏AI有什么区别?
AI在游戏中打败人类,并不是一件稀奇事。 OpenAI在“冥想训练”了成千上万场DOTA2后击败过当时的Ti8冠军OG,谷歌的AlphaStar也曾面对《星际争霸2》的顶级职业选手时表现过碾压态势,而我们每个普通玩家,也都尝过“电脑[疯狂的]”的苦头。
2019年,OpenAI曾经在仅开放部分英雄选用的限制条件下击败过OG
但这些“打败”并非一回事。 要明白GTS中的AI车手Sophy意味着什么,首先要明确Sophy和其一个单纯“你跑不过的AI”有什么区别。
对过往赛车游戏里的AI而言,尽管呈现形式都是游戏中非玩家控制的“智能体”,但传统意义上的AI车手通常只是一套预设的行为脚本,并不具备真正意义上的智能。
传统AI的难度设计一般也是依赖“非公平”的方式达成的,比如在赛车游戏中,系统会尽可能削弱甚至消除AI车的物理模拟,让AI车需要处理的环境参数远比玩家简单。
而要塑造更难以击败的AI敌人,也不过是像RTS游戏中的AI通过暗中作弊的方式偷经济暴兵一样,让AI车在不被注意的时刻悄悄加速。
所以对于具备一定水平的玩家而言,赛车游戏里的传统AI在行为逻辑和策略选择上几乎没有值得参考的点,遑论职业赛车游戏选手。
而Sophy则是和AlphaGo一样,通过深度学习算法,逐渐在模拟人类的行为过程中达到变强:学会开车,适应规则,战胜对手。
这种AI带给玩家的,完全是“在公平竞争中被击败”的体验。 在被Sophy击败后,一位人类车手给出了这样的评价:“(Sophy)当然很快,但我更觉得这个AI有点超乎了机器的范畴……它像是具备人性,还做出了一些人类玩家从未见过的行为。 ”
这难免再次让人联想到重新改写了人类对围棋理解的AlphaGo。
相对于围棋这种信息透明的高度抽象游戏,玩法维度更多、计算复杂度更高的电子游戏,在加入深度学习AI之后,其实一直很难确保“公平竞技”的概念。
例如在2019年征战《星际争霸2》的AlphaStar,基本没有生产出新的战术创意,只是通过无限学习人类选手的战术,再通过精密的多线操作达成胜利——即便人为限制了AlphaStar的APM,AI完全没有无效操作的高效率也并非人类可比。
这也是为什么在AlphaStar与人类职业选手的对抗记录里,当AI用“三线闪追猎”这样的神仙表演击败波兰星灵选手MaNa后,并不服气的MaNa在赛后采访中说出了“这种情况在同水平的人类对局中不可能出现”这样的话。
AlphaStar用追猎者“逆克制关系”对抗MaNa的不朽者部队
同样,《GT赛车》也是一款与《星际争霸2》具备同样复杂度的拟真赛车游戏。
在专业赛车玩家的眼中,路线、速度、方向,这些最基本的赛车运动要素都可以拆解为无数细小的反应和感受,车辆的重量、轮胎的滑移、路感的反馈……每条弯道的每次过弯,都可能存在一个绝佳的油门开度,只有最顶级的车手可以触摸到那一缕“掌控”的感觉。
在某种意义上来讲,这些“操纵的极限”当然能够被物理学解释,AI能掌握的范围显然要大于人类。 所以,Sophy的反应速度被限制在人类的同一水平,索尼为它分别设置了100毫秒、200毫秒和250毫秒的反应时间——而人类运动员在经过练习后对特定刺激的反应速度可以做到150毫秒左右。
无疑,这是一场比AlphaStar更公平的战斗。
Sophy学会了什么
和Sophy为数众多的AI前辈一样,它也是利用神经网络等深度学习算法来进行驾驶技巧的训练。
Sophy在训练环境中会因为不同的行为遭受相应奖励或者惩罚——高速前进是好的,超越前车则更好;相应地,出界或者过弯时候撞墙就是“坏行为”,AI会收获负反馈。
在上千台串联起的PS4组成的矩阵中,Sophy经受了无数次模拟驾驶训练,在上述学习里更新自己对《GT赛车Sport》的认知。 从一个不会驾驶的“婴儿”到开上赛道,Sophy花费了数个小时的时间;一两天后,从基础的“外内外”行车线开始,Sophy已经几乎学会了所有常见的赛车运动技巧,超越了95%的人类玩家。
索尼AI部门为Sophy搭建的“训练场”
然而,赛车并不是一个人的游戏。 即便Sophy在去年7月份的比赛中,已经可以没有其他赛车的情况下拥有超出顶级人类选手的计时赛成绩,但在真实的多人游戏中,Sophy还需要学会与对手进行对抗上的博弈,理解其他车手的行为逻辑。
因此,索尼AI部门的科研人员对Sophy进行了更多的“加练”,比如面对其他车时如何插线超车、阻挡卡位。 到最后,Sophy甚至还被“教育”到能够理解和遵守赛车运动中的比赛礼仪——比如作为慢车时进行让车,同时避免不礼貌的恶意碰撞。
赛车游戏中的AI车,一般即便会尝试躲避与玩家擦碰,其实现方式也只是不自然地闪躲。 而Sophy呈现出的“比赛理解”,都是依靠脚本运行的传统赛车AI无法做到的。
到了10月,Sophy已经可以在正式的同场比赛中击败最顶级的人类选手。
索尼邀请的四位人类车手,其中包括GT锦标赛三冠王宫园拓真
比如第一场在Dragon Trail(龙之径)上进行的比赛。 作为《GT赛车Sport》的驾驶学校尾关,每个GTS玩家应该都相当熟悉这条赛道(以及DLC中的“汉密尔顿挑战”)。 在数万个小时的训练过后,排名第一的Sophy车手已经可以踩着绝对的最优路线保持全程第一。
而在四个Sophy与四位人类车手角逐的第二个比赛日中,AI们的优势进一步扩大了——几乎达成了对顶级人类玩家的碾压。
如果只是在路线的选择和判断上强过人类,用更稳定的过弯来积累圈速优势,这可能还没什么大不了的。
但研究者们认为,Sophy几乎没有利用在用圈速上的绝对优势来甩开对手(也就是AI身为非人类在“硬实力”上更强的部分),反而在对比赛的理解上也超过了人类玩家,比如预判对手路线的情况下进行相应的对抗。
在《自然》论文所举的案例中,两名人类车手试图通过合法阻挡来干扰两个Sophy的首选路线,然而Sophy成功找到了两条不同的轨迹实现了超越,使得人类的阻挡策略无疾而终,Sophy甚至还能想出有效的方式来扰乱后方车辆的超车意图。
Sophy还被证明能够在模拟的萨尔特赛道(也就是著名的“勒芒赛道”)上执行一个经典的高水平动作:快速驶出前车的尾部,增加对前车的阻力,进而超越对手。
更令研究者称奇的是,Sophy还捣鼓出了一些非常规的行为逻辑,听上去就像AlphaGo用出新的定势一样。 通常,赛车手接受的教育都是在过弯时“慢进快出”,负载只在两个前轮上。 但Sophy并不一定会这么做,它会在转弯时选择性制动,让其中一个后轮也承受负载。
而在现实中,只有最顶级的F1车手,比如汉密尔顿和维斯塔潘,正在尝试使用这种三个轮胎快速进出的技术——但Sophy则完全是在游戏世界中自主学会的。
曾经取得三次GT锦标赛世界冠军的车手宫园拓真在与AI的对抗中落败后说,“Sophy采取了一些人类驾驶员永远不会想到的赛车路线……我认为很多关于驾驶技巧的教科书都会被改写。”
“为了更好地了解人类”
区别于以往出现在电子游戏中的先进AI们(比如AlphaStar),Sophy的研究显然具备更广义、更直接的现实意义。
参与《自然》上这篇论文撰写的斯坦福大学教授 Gerdes就指出,Sophy的成功说明神经网络在自动驾驶软件中的作用可能比现在更大,在未来,这个基于《GT赛车》而生的AI想染会在自动驾驶领域提供更多的帮助。
索尼AI部门的CEO北野宏明也在声明中表示,这项AI研究会给高速运作机器人的研发以及自律型驾驶技术带来更多的新机会。
Sophy项目官网的介绍
但如果我们将目光挪回作为拟真赛车游戏的《GT赛车》本身,Sophy的出现,对大众玩家和职业车手而言同样具备不菲的意义。
正如文章前面所说,在目前市面上大多数拟真赛车游戏中,“传统AI”已经是一个完全不能带给玩家任何乐趣的事物。 这种依赖不公平条件达成的人机对抗,与赛车游戏开发者希望带给玩家的驾驶体验是相悖的,人类玩家也无法从中获得任何教益。
在索尼AI部门发布的纪录片中,“GT赛车之父”山内一典就表示,开发无与伦比的AI可能是一项了不起的技术成就,但这对普通玩家来说可能不是什么直白的乐趣。
因此,山内承诺在未来的某个时候,索尼会将Sophy带入到三月份即将发售的《GT赛车7》中。 当Sophy能够更加了解赛场上的环境和条件,判断其他车手的水平,一个这样智能又具备风度的AI,就能够在与人类比赛时,为玩家提供更多真实的快乐。
在拟真赛车游戏逐渐“小圈子化”,众多厂商都做不好面对纯新玩家的入门体验的今天,或许一个AI老师的存在,有机会能给虚拟世界中的拟真驾驶带来更多的乐趣,就像《GT赛车4》的宣传片片头所说,“体验汽车生活”。
这可能才是一个基于游戏而生的AI能为玩家带来的最重要的东西——如同山内一典对Sophy项目的评论, “我们不是为了打败人类而制造人工智能——我们追求人工智能,是为了最终更好地了解人类。”
索尼人工智能打败人类顶尖玩家登上《自然》封面3
据路透社伦敦2月9日报道,索尼公司周三说,它创造了一个名为“GT索菲”的人工智能(AI)代理,能击败《GT赛车》——PlayStation平台上的模拟赛车游戏——中全球最优秀的车手。
该公司在一份声明中说,为了让“GT索菲”为这款游戏做好准备,索尼公司的不同部门提供了基础人工智能研究成果、超现实真实世界赛车模拟器,以及进行大规模人工智能训练所需的基础设施。
报道称,去年7月,该人工智能首次与《GT赛车》的四名顶尖车手展开了较量,它吸取了这次比赛的经验,并在当年10月的另一场比赛中战胜了人类车手。
这款人工智能的设计团队领导者、索尼人工智能美国公司负责人彼得·沃尔曼说:“我们用了大约20台PlayStation游戏机,同时运行大约10到12天,才训练‘GT索菲’从零开始达到超人类水平。”
报道指出,虽然人工智能曾在国际象棋、麻将和围棋比赛中击败人类,但索尼公司说,掌握赛车驾驶技术的难点在于,许多决定是必须实时做出的。
据报道,索尼的竞争对手微软公司最近斥资近690亿美元收购了动视暴雪公司。 微软一直在利用游戏来改进人工智能,其方式是不断为人工智能模型提供新挑战。
报道称,《GT赛车》是一款模拟赛车电子游戏,1997年问世,已售出8000多万套。
索尼希望将学习到的东西应用到其他PlayStation游戏中。 该公司说:“有很多游戏可以对人工智能构成不同挑战,我们期待开始解决这些问题。 ”