机器之心报道
机器之心部
10 月 4 日,播客节目 BG2(Brad Gerstner 和 Clark Tang)邀请到了英伟达 CEO 黄仁勋,他们一起讨论了 AGI、机器学习加速、英伟达的竞争优势、推理与训练的重要性、AI 领域未来的市场动态、AI 对各个行业的影响、工作的未来、AI 提高生产力的潜力、开源与闭源之间的平衡、马斯克的 Memphis 超级集群、X.ai、OpenAI、AI 的安全开发等。
近日,BG2 发布了这期播客节目。机器之心简要整理了其中的关键信息。
AGI 和个人助理的进化
Brad Gerstner:今年 AI 领域的主题是「向 AGI 扩展」。我们先进行一个思想实验:如果我把 AGI 看作是口袋中的个人助理,它知道有关我的一切,可以与我沟通、帮我订酒店、预约医生…… 你认为我们什么时候能有这种形式的个人助理?
黄仁勋 :很快就会以某种形式实现(soon in some form)。这种助理会随时间变得越来越好。这就是技术之美。开始时它会变得很有用处,但并不完美,然后它会越来越完美。
Gerstner:伊隆・马斯克曾经说过真正重要的是变化速度(rate of change),看起来变化速度已经提升了很多。你认为现在是变化速度最快的时候吗?
黄仁勋 :确实是。我们已经重新发明了计算,因为我们已经在过去 10 年中将计算的边际成本降低了 10 万倍,而按照摩尔定律预测,这个倍数应该是 100 倍左右。我们通过多种途径做到了这一点。一是引入了加速计算 —— 将在 CPU 上效率不高的计算放到了 GPU 上。我们还引入了新的数值精度、提出了新的架构、发明 Tensor Core、NVLink 和 InfiniBand、HBM 高速内存。这些加在一起并大规模扩展,可说是实现了超级摩尔定律的创新速度。这样带来的一个惊人结果是从人类编程迈向了机器学习,而机器学习的速度很快。这其中要用到张量并行化、工作流程并行化等各种并行化,这能帮助我们更快地发明新算法。
回顾过去,在之前的摩尔定律时代,软件是静态的,硬件以摩尔定律增长。后来,我们更多谈论的是软件的扩展(scaling)—— 比如模型大小和数据集规模的扩展。如果模型大小和数据集都增加一倍,那么所需的计算能力要增长 4 倍。而现在,我们又开始谈论后训练和推理阶段的扩展了。以前人们觉得训练很难,推理很简单,但现在一切都变困难了。
人们现在也在研究快速思考和慢速思考的概念,还有推理、反思、迭代和模拟等等。
英伟达的竞争优势
Clark Tang:我们知道也有人在研发新芯片,有时候他们能做出一些浮点数更高或者其它性能更优的芯片。但英伟达有自己的「护城河」,那就是你们拥有从硬件到软件的整个堆栈。你觉得这三四年来你们的护城河是变大了还是变小了?
黄仁勋 :有更高算力的芯片确实很重要,但不幸的是,那是老式思维 —— 认为软件是静态的,改进系统的最好方法是生产更快的芯片。但我们认识到机器学习不是人类编程,它并不只与软件有关,而是涉及整个数据管道。机器学习就像是一个飞轮,能让数据科学家和研究者更有生产力,而很多人没有认识到:一开始启动这个飞轮的是让 AI 去调整数据,而那个 AI 本身就已经很复杂了。
现在我们有合成数据生成以及各种调整数据的方法,这方面的 AI 也越来越聪明。也就是说在训练之前,就已经涉及到大量数据处理了。很多人认为 PyTorch 就是一切了,但不要忘了,PyTorch 之前有大量工作,PyTorch 之后也有。
这就像是一整套飞轮。我们需要设计一个计算系统让这个飞轮尽可能有效地运转。训练只是其中一环。而这个飞轮的每个环节都很困难。OpenAI、X、DeepMind 他们做的事情并不简单。就算你能加速其中一个环节,也并不代表你能够加速整个流程。而我们能够加速整个流程。
以物理 AI 和视频处理系统为例,每秒处理的数据量可高达 TB 级。我们需要一个工作流程将这样庞大的数据变成训练可用的数据,而这个过程可以使用 CUDA 来加速。
Tang:现在人们主要关注文本模型,但未来是视频模型以及 o1 这样的文本模型。这都需要在得到结果之前处理大量数据。
黄仁勋 :AI 行业投入了海量技术和努力来训练语言模型,而现在我们可以在每一步都使用 LLM。
Gerstner:也就是说,从整个流程上看,英伟达的优势比三四年更大了。也就是在整体堆栈方面,你们在改进每一个组件。但是其它企业有什么优势吗,比如英特尔?
黄仁勋 :英特尔是一家了不起的公司,因为它可能是第一家非常擅长制造过程工程、制造的公司。他们设计生产了越来越快的 x86 芯片。我们公司的不同之处在于,我们认识到,并行处理并不需要每个晶体管都是很棒,而串行处理需要每个晶体管都很棒。
并行处理需要大量晶体管才能更具成本效益。我宁愿多 10 倍的晶体管,但每个晶体管慢 20%,也不要晶体管减少 10 倍,速度提高 20%。而他们的想法刚好相反。
并行计算和并行处理很难,因为每个算法都需要不同的重构方式和架构算法。
我们彻底改变了深度学习,因为我们开发了一个软件库 cuDNN。但人们很少谈论它,因为它在 PyTorch 和 TensorFlow 等工具框架的下面一层,我们还有其它特定领域的软件库,比如 cuQuantum、RAPIDS。
如果我们没有发明这些算法,那么那些应用就无法运行。所以数学才是英伟达真正擅长的算法。在上层科学和底层架构之间的融合,才是我们真正擅长的地方。
AI 推理和训练的未来
Tang:现在人们都在关注推理。你认为现在我们处于推理时代吗?
黄仁勋 :其实训练就是大规模推理。如果训练得很好,那么推理也会做得很好。如果你基于这个架构构建,那么就能在这个架构上运行,当然你也可以针对其它架构进行优化。
当然,在资本投入方面,当你训练新模型时,你希望用你最好的新设备进行训练。而你之前的设备可以用于推理。这对你来说就是免费的。为此,我们非常重视确保兼容性,这样旧设备也能出色地发挥作用。
我们也投入了大量精力来不断地重新发明新算法,这样当时机成熟时, Hopper 架构会比他们购买时好两、三、四倍。但同时,你的基础设施仍然能有效运行。
因此,我们在改进算法和框架方面的所有工作都有助于各种安装基础。Sam 告诉我他们刚刚停用了 OpenAI 的 Volta 基础设施。另外,我们也希望在云端创造的东西也能在边缘设备上完美地运行,所以这种架构兼容性很重要。
为训练 LLM 设计新架构让我们受益,我们也在思考如何在某一天创造出优秀的推理架构。
构建 AI 基础设施
黄仁勋 :如何构建优秀的推理模型架构,以便在将来某一天实现高效的推理能力。
我们一直在思考如何设计迭代型推理模型,以及如何创建具有交互体验的推理模型。对于个人智能体,你肯定不希望它在回应你之前需要长时间思考,而是希望它能够快速与你互动。
因此,我们设计了 NVLINK,这样一来,当训练完成后,这些系统在推理性能上也表现得非常出色。
我们的目标是优化首个 token 的响应时间,实际上这是非常难以实现的。因为第一个 token 需要大量带宽, 而且如果你的上下文也很丰富,那么你就需要大量的浮点运算(FLOPS)。因此,为了实现几毫秒的响应时间,你需要无限的带宽和无限的 FLOPS。这样的架构真的很难实现,我们为此发明了 Grace Blackwell NVLink 。
Gerstner:早些时候我和 Andy Jassy 共进晚餐,Andy 说 NVIDIA 是非常重要的合作伙伴,未来也是,世界依赖于 NVIDIA。
所以,当你考虑到正在建造的定制化 ASIC,可能是 Meta 的推理加速器,或者亚马逊的 Trainium,还有谷歌的 TPUs,考虑到现今的供应短缺,这些情况是否改变了这种动态?
黄仁勋 :我们正试图做不同的事情。正如你所知,NVIDIA 正尝试为这个新的世界 —— 机器学习世界、生成式 AI 世界、智能体世界 —— 构建一个计算平台。
在经历了 60 年的计算技术发展之后,我们彻底改革了整个计算堆栈,从编程到机器学习软件编写方式,从 CPU 到 GPU 的软件处理方式,从传统软件到人工智能的应用转变,从软件工具到人工智能的转变。因此,计算堆栈和技术堆栈的每一个方面都已经发生了变化。
我们想要创建的是一个无处不在的计算平台,这实际上是我们工作的复杂性所在。
如果你考虑我们所做的事情,我们正在构建一个完整的 AI 基础设施,并将其视为一台计算机。
我曾经说过,数据中心现在是计算的单位。当我想到一台计算机时,我不只是想到那个芯片,我想到的是整体,包括软件和内部的所有机械设备,这是我的计算机。我们每年都在尝试构建一台全新的计算机,这是之前从未有人做过的事情。我们每年都能交付两到三倍的性能提升,每年将成本降低两到三倍,每年将能效提高两到三倍。
因此,我们要求我们的客户不要一次性购买所有设备,而是每年购买一点。这样做的原因是,我们希望他们能够将成本平均分摊到未来。所有这些都是架构兼容的。
Gerstner:是什么促使你每年都这样做
黄仁勋 :整个电子生态系统如何致力于与我们合作,最终构建一个集成到各种不同生态系统中的计算机方块,并且协调工作非常流畅。
显然,这涉及 API、方法论、商业流程和设计规则。
我们发明了庞大的计算基础设施,它被整合到了每一个地方,可以通过 Dell 或 HP 销售,也可以在云端托管,甚至应用于边缘计算,人们在机器人系统中使用它,包括人形机器人和自动驾驶汽车,所有这些都是架构兼容的。
至于我们公司,我们不是为了从别人那里夺取市场份额,而是为了创造市场。如果你看看我们公司的介绍,你会发现我们从不谈论市场份额,我们讨论的全是如何解决下一个问题,如何做得更好,如何加快从一年缩短到一个月的速度。我们考虑所有这些不同的事情,但我们非常清楚我们的使命是非常单一的,唯一的问题是这个使命是否必要。所有伟大的公司都应该具有这样的问题:你在做什么,它是否必要,它是否有价值,它是否有影响,它是否帮助了人们。
作为一位开发者,如果你是一个 AI 初创公司,正在决定如何成立公司,你唯一不需要做的选择是支持哪一种 ASIC。如果你支持 CUDA,你可以走向全世界,以后也可以随时改变主意。我们是进入 AI 世界的入口,一旦你决定加入我们的平台,其他的决定可以推迟,你总是可以稍后自己构建 ASIC,我们对此并不反感。
我们与各大云服务提供商(例如 Google Cloud Platform、Azure)合作时,我们会提前几年向他们展示我们的路线图,尽管他们不会向我们展示他们的 ASIC 路线图,这也不会让我们感到被冒犯。我们的路线图在 GTC 上是透明的。即使合作伙伴正在构建自己的 ASIC,我们也没有任何问题。
Gerstner:你最近说过人们对 Blackwell 的需求简直疯狂。你说你工作中最困难的部分之一是在计算资源短缺的世界中向人们说「不」。回想 2023 年初,那时对 Nvidia 全年的预测是 260 亿美元的收入,但实际上你们做到了 600 亿美元,是吧?
那是在 2022 年 11 月,有人告诉我如果你无法算出投资我们公司的利润,那就买 Nvidia 股票吧,因为全世界的人都在试图获取 Nvidia 芯片来构建将改变世界的应用程序。当然,ChatGPT 的出现标志着新纪元的到来。
你曾用非常简单的英语说,Blackwell 的需求是疯狂的,而且将来也会这样,尽管未来是未知且无法预测的。
黄仁勋 :谈论未来最好的方式是从基本原理出发进行推理。那么问题来了,我们正在做的事情的基本原理是什么?
首先,我们在做什么?我们正在做的第一件事是重新定义计算,未来的计算方式将高度依赖机器学习。
现在几乎每一个应用程序,比如 Word、Excel、PowerPoint、Photoshop,它们都是手工设计的。我向你保证,未来它们将高度依赖机器学习,而且还会有智能体帮助你使用它们。
所以,我们现在可以肯定地说,我们已经重新定义了计算,整个计算技术堆栈正在被重新定义。此外,软件将会有所不同,软件能写的内容将会有所不同,我们使用软件的方式也会有所不同,所以这些都是基本事实了。
黄仁勋:OpenAI 是我们这个时代最具影响力的公司之一
Gerstner:众所周知,OpenAI 最近筹集了 65 亿美元,估值约为 1500 亿美元。
据报道,他们今年的收入或运营收入约为 50 亿美元,明年可能达到 100 亿美元。如果你看看 OpenAI 现在的业务,其收入大约是谷歌首次公开募股时的两倍。他们大约有 2.5 亿的周平均用户数,我们估计这是谷歌 IPO 时的两倍。
请和我们谈谈 OpenAI 作为合作伙伴对你的重要性,以及 OpenAI 作为推动公众对 AI 的认识和使用的重要作用。
黄仁勋 : OpenAI 确实是我们这个时代最具影响力的公司之一,一家纯粹追求通用人工智能(AGI)愿景的 AI 公司。 不管它的定义是什么,我几乎认为定义本身并不完全重要。在它达到任何人对 AGI 的定义之前,我们将会把它用到极致。
你所要做的就是去和数字生物学家、气候技术研究者、材料研究者、物理科学家、天体物理学家、量子化学家交谈,去问视频游戏设计师、制造工程师、机器人学家他们的感受。
无论你想选择哪个行业,深入其中和那些重要的人交谈,问他们人工智能是否已经革新了他们的工作方式。然后你收集这些数据点,你对此持有多大的怀疑态度。因为他们讨论的不是人工智能作为一个概念上的好处,他们是在讨论现在就在使用的 AI 所带来的好处。
现在,农业技术、材料技术、气候技术等等正在进步,AI 正在帮助研究者推进工作。现在,正如我们所说,每一个行业、每一家公司、每一所高校,将以某种方式改变业务。
这种改变今天就发生了。所以,我认为 ChatGPT 的觉醒引发了这一切 ,这完全令人难以置信。我喜欢他们的速度和他们推动这一领域发展的独特目标,这真的意义重大。
AI 模型的未来
Gerstner:他们在经济引擎中构建,以资助下一个模型前沿。我认为硅谷日益达成的共识是整个模型层的商品化正在使得很多人能够以非常低的成本构建模型。所以早期,我们有很多模型公司。很多人质疑这些公司是否能构建在经济引擎上的逃逸速度,继续资助下一代模型。我个人认为,这就是为什么你看到了整合。显然,OpenAI 已经达到了那种逃逸速度,他们可以资助自己的未来。对我来说不确定的是,其他公司是否也能做到。
黄仁勋 :首先,模型和 AI 之间存在根本的不同。模型是 AI 的一个基本成分。它是必要的,但不是充分的。比如用于自动驾驶汽车的人工智能与用于人形机器人的人工智能相关,但并不是一样的。
因此,你必须了解分类。现在你只需将模型一词替换为 GPU。
有些公司非常擅长制造 GPU,但却不知道如何成为一家加速计算公司,现在不止一家公司在制造 GPU,但它们并不是加速计算公司。尽管有些加速器可用于应用加速,但这与加速计算公司是不同的。
你必须决定你想成立什么样的公司,在不同领域可能都有机会。但就像创建公司一样,你必须留意生态系统的变化以及随着时间的推移哪些东西会被商品化,认识到什么是功能,什么是产品,什么是公司。你可以用很多不同的方式来思考这个问题。
黄仁勋谈 xAI:别人用 4 年完成的事情,埃隆用了 19 天
Gerstner:当然,有一家新入局者既有钱、又有智慧、还有野心,那就是 xAI。你认为他们有能力建立超级集群吗?
黄仁勋 :答案是肯定的。首先是对他们成就的认可。从概念到建成一个准备好安装 Nvidia 设备的数据中心,再到通电,连接好一切并进行首次训练,这一切都值得赞扬。
在如此短的时间内建造一个巨大的工厂,包括液冷、供电、获得许可,这简直像超人一样。据我所知,世界上只有一个人能做到这一点。埃隆在理解大型系统的工程和建设以及资源整合方面是独一无二的,这简直令人难以置信。当然,他的工程团队也是非凡的,软件团队、网络团队和基础设施团队也很棒。
从规划开始,与我们的工程团队、网络团队、基础设施计算团队、软件团队一起,所有的准备工作都提前完成。然后所有的基础设施、后勤以及在那一天进场的所有技术和设备、视频基础设施和计算基础设施等等,都在 19 天内完成,这实在是不可思议。
所以我认为埃隆所取得的成就是独一无二、前所未有的。十万个 GPU,这简直是地球上搭建最快的超级计算机集群。通常来说,你要建造的超级计算机集群需要三年时间来规划,然后交付设备、安装和运行还需要一年时间。别人要用 4 年完成的事情,埃隆只用了 19 天。
Brad Gerstner:那我们再谈谈 OpenAI 的 o1。Noam Brown 是该模型的核心贡献者之一,他在 Meta 工作时曾有 Libratus、Pluribus 和 Cicero 等成果。Inference-Time 推理(Reasoning)作为扩展智能的全新载体,与仅仅构建更大的模型截然不同,这有多重要?
黄仁勋 :这是一件大事。我认为,很多智能无法先验地完成,甚至很多计算都无法重新排序。无序执行可以优先完成,很多事情只能在运行时完成。
无论你是从计算机科学的角度还是从智能的角度来思考,其中大多数的内容都需要考虑上下文以及正在寻找的答案类型。有时,一个快速的答案就足够了。这取决于答案的结果,取决于答案的使用属性。所以,有些答案需要花一个晚上,有些答案需要一周的时间。
所以我完全可以想象我给人工智能发送一个提示,然后告诉它,考虑一个晚上,不要马上告诉我,然后明天再回来告诉我。我认为从产品的角度来看,智能的质量和细分会产生一击即中的版本,当然也会有一些需要五分钟的版本。
Brad Gerstner:「智能层」会将这些问题导向正确的模型,对症下药。使用高级语音模式和 o1 预览版,我辅导了儿子的 AP 历史考试,就像有世界上最好的历史老师坐在旁边思考这些问题。又回到了这个问题上,你知道,你今天 40% 以上的收入都是推理得来的,且推理又得益于推理链。未来还会带来十亿倍的增长,是这样吗
黄仁勋 :没错,这是大多数人还没有完全内化的部分。这就是我们说的工业革命。
Brad Gerstner:所以每个人都非常关注英伟达,在训练更大的模型。想问:是不是如果收入比例变为 50:50,你未来会做更多的推理呢?训练永远是重要的,但推理的增长会比我们希望的多得多。
黄仁勋 :是的,我们希望是这样。
Brad Gerstner:你们是否已经使用了推理链等工具来改善自己的业务?
黄仁勋 :是的,我们今天的网络安全系统离不开我们自己的智能体。智能体帮助设计芯片,我们有 AI 芯片设计师、AI 软件工程师、AI 验证工程师。我们在内部组建了这些团队,我们有能力而且愿意利用这个机会探索技术。
AI 在业务增长和提升生产力方面的作用
Brad Gerstner:英伟达很独特。每个员工大约 400 万的收入,每个员工有大约 200 万的利润或自由现金流。你建立了一种效率文化,而这种文化真正释放了创造力、创新、所有权和责任。你打破了职能管理的模式。每个人都喜欢谈论你所有的直接下属。AI 的杠杆作用将继续让你在高效的同时保持超级创造力。
黄仁勋 :毫无疑问。英伟达现在有 3.2 万名员工,我希望英伟达某天将成为一家拥有 5 万名员工的公司,同时会有 1 亿个 AI 辅助我们。我们将有一个 AI 擅长事务的目录。我们的收件箱里面也会充满这些擅长不同事务的 AI 发来的信息。AI 也会招募其它 AI 来解决问题,它们还会在 Slack 频道里面交流。
当然,它们也会与人类交流。可以说,我们就是一个庞大的员工群体,其中一些是数字化的 AI,另一些则是生物体的人类。我还希望某天其中一些会是电子化的机器人。
Brad Gerstner:人们常误解 AI 会替代人类的工作。但你公司的员工数量还在增长,并且你会用 5 万人完成原本 15 万人才能完成的工作。
黄仁勋 :AI 并不会接替每一项工作。AI 将极大地影响人们看待工作的方式。让我们承认这一点,AI 有潜力做很棒的好事,它也有可能造成伤害。
被忽视的部分是,当公司使用 AI 变得更有效率时,就可能带来更好的收益或更好的增长。当这种情况发生时,CEO 的下一封电子邮件很可能就不是裁员。
Brad Gerstner:因为业务在增长,需要更多人。
黄仁勋 :这是因为我们有更多的想法可以探索,我们需要人在自动化之前进行思考。当然,AI 也可以帮助我们思考,但也仍然需要我们去弄清楚要解决什么问题。人类可做的事情有很多。因此,随着生产力的提高,我们将雇佣更多的人。人们常忘记这一点。回顾过去,显然我们今天比 200 年前有更多的想法。因此 GDP 更高,就业人数更多了,即便我们一直在大量进行自动化。
Brad Gerstner:有调查说,过去十年是生产力增长最慢的十年。人们还在辩论其原因,但如果世界就像你刚才所描述的那样,我们将利用和制造智能,那么我们的生产力是正处于急剧扩张的边缘吗?
黄仁勋 :我们希望如此。当然,你知道,我们生活在这个世界上,所以我们有直接的证据。现在,一个独立的研究人员就能够使用 AI 以难以想象的非凡规模探索科学。这就是生产力。
另外,我们正在设计非常惊人的芯片,其复杂性呈指数级增长,而公司的员工基础并不是衡量生产力的标准。我们开发的软件越来越好,因为我们在使用 AI 和超级计算机来帮助我们。因此,很多行业都有这样的增长。
毫无疑问,智能是世界上已知的最有价值的商品。现在我们要大规模生产它。我们将被 AI 包围。如果它们做得非常好,比你好得多,会发生什么?但反思一下,这就是我现在的生活。我有 60 个向我报告的人,他们在各自领域都比我优秀得多。我与他们互动没有任何问题。对 AI 也是如此。所以我认为人们将会学到的是:他们都将成为 CEO,成为 AI 智能体的首席执行官。
确保安全的 AI 开发
Brad Gerstner:我们来谈谈 AI 的安全和监管吧。我们是在正确的道路上吗?你认为我们该如何确保 AI 是有利的,而不会导致一个反乌托邦的世界。
黄仁勋 :关于安全的对话非常重要和有益。AI 是一个巨大的神经元网络,是一个很抽象的观念。人工智能和大型语言模型确实相关,但并不一样。现在这方面有很多出色的工作。
一、开源模型,这样一来,整个研究社区、每个行业和每个公司都可以参与 AI,将这种能力用在自己的应用中。
二,人们在发明 AI 来保证 AI 安全,人们低估了这方面的技术。比如用 AI 来整理数据、对齐 AI、合成数据来扩展 AI 知识、减少幻觉、监控其它 AI、创建安全护栏等等。整个行业都在为之努力,包括方法论研究、红队研究、工作流程、模型卡、评估系统、基准测试系统…… 人们正在以非常快的速度构建各种工具。但这些努力都被低估了,没有得到应有的赞誉。
这是这些智能体、不同功能构建的理由。我们再次回到了第一性原理。
Brad Gerstner:我们必须回到开源的话题上。你们发布了规参数很大、非常重要且可用的开源模型。
黄仁勋 :最近是 Nemotron。
Brad Gerstner:很明显的是,Meta 对于业界有重要的开源贡献。推特上都是大模型开源 vs 闭源的讨论。如何保证你们自己的开源大模型一直处于前沿水平?第二个问题,在商业项目中,既有开源大模型,也有闭源模型的情况,是否会是未来合理的生态,这样安全吗?
黄仁勋 :开源 vs 闭源,和安全有关,但不仅仅是安全的问题。举个例子,用闭源模型显然是完全没问题的,这是保持创新所必须的。我全心全意支持这一点。不是封闭或开源,应该是封闭和开源。开源是促进很多行业的必需品,现在如果没有开源,那么多科学领域如何发展?它们都从 AI 的发展中受益了。
因为他们必须开发自己特定领域的人工智能,因此必须使用开源模型来开发特定领域人工智能。它们是相关的,但又不是一回事。只是因为你有一个开源模型并不意味着你就有了人工智能,所以你必须有那个开源模型来创建人工智能。
所以,金融服务、医疗保健、运输等一系列行业现在因为开源而活跃。这令人难以置信。
Brad Gerstner:你们的开源大模型需求量很大吗?
黄仁勋 :首先不得不提的是行业老大 Llama,扎克伯格他们的成果太棒了,是难以估量的,很大程度上促进了每一个行业、科技领域。
我们把 Nemotron 定位于生成合成数据。直观的想法是,一个人工智能会在那里循环生成数据,自我学习,这听起来很脆弱,你可以无限循环多少次,这个循环值得怀疑。但这有点像我脑海中的一个画面 —— 就像你把一个超级聪明的人关进一个舒适的房间,关上门,大约一个月,你知道出来的可能不是一个更聪明的人。
但理论上你可以让两三个人坐在一起,我们有不同的人工智能,我们有不同的知识分布,我们可以互相提问回答,这样每个人都会变得更加聪明。
所以,你可以让人工智能模型进行交流、互动,来回辩论,强化学习并合成数据生成,这种想法在直觉上是有道理的。我们的模型 Nemotron-4 340B 是世界上最好的奖励系统模型。
它是最好的批评家,这是一个增强其他所有模型的绝佳模型。所以不管别人的模型有多棒,我都建议使用 Nemotron-4 340B 来增强和改进它。我们已经看到 Llama 变得更好,其他所有模型也都变得更好。
Brad Gerstner:我们的采访快要结束了。
黄仁勋 :谢天谢地(笑)。
Brad Gerstner:作为 2016 年交付了 DGX-1 的人,这真是一段不可思议的旅程,你们走过的旅程既不可思议又令人难以置信。你们存活了下来 —— 从 2016 年的 DGX-1 到 2022 年技术突破的出现。
所以有一个问题我也经常被问到,你能够坚持今天所做的事情多久?60 份报告都在说,英伟达无处不在,你们在引领这场变革。你觉得现在很享受吗?有没有想要做的其他事?
黄仁勋 :一个半小时的采访后,你就想问这个?(笑)
回答是:这是一段很棒的经历,我无法想象还能做什么更好的事了。
我认为,我认为不应该给人留下这样的印象,即我们的工作总是充满乐趣。我的工作并不总是充满乐趣,我也不指望它总是充满乐趣,我曾经期望它总是充满乐趣。我认为这一直很重要,是的。
我不会太认真对待自己,我非常认真地对待工作,我非常认真地对待我们的责任,我非常认真地对待我们的贡献和我们的时机。
这总是充满乐趣吗?不是的。但我是不是一直深爱着这份事业?是的。就像所有的事情一样,无论是家人、朋友、孩子,总是充满乐趣吗?不是的。但我们总是深深地爱着他们。
所以,我能做多久?真正的问题是,我能坚持多久。这唯一重要的信息是,这个问题只能用我将如何继续学习来回答。不过可以确定的是,我今天更加乐观了。我这么说不仅仅是因为我们今天的主题,我对自己的能力更加乐观,保持关注并继续学习,因为人工智能。
是的,我在使用它,我不知道你们是怎样的,我每天都在使用 AI。我的每一项研究都涉及到人工智能,所有的问题,即使我知道答案,我也会用人工智能验算一下。令人惊讶的是,我接下来追问的两三个问题揭示了一些我不知道的东西。你只需要选择话题。
我认为人工智能作为导师、作为助手、也能作为头脑风暴的伙伴,仔细检查我的工作。这是完全革命性的,我是一名信息工,我的输出是信息,所以我认为,这一切对社会的贡献都是非凡的。这样我就能保持跟进,我就可以继续做出贡献。
我知道这项工作对我来说非常重要,我想继续从事下去。我的生活质量令人难以置信。
Brad Gerstner:我无法想象你和我已经在这个领域工作了几十年,我无法想象错过这一段经历。这是我们职业生涯中最重要的时刻,我们非常感谢这种合作关系。
黄仁勋 :不要错过未来 10 年。
Brad Gerstner:你会让 AI 变得更聪明。谢谢你的讲述,真的非常享受。
黄仁勋 :非常感谢 Brad,谢谢 Clark。
参考内容:
https://www.youtube.com/watch?v=bUrCR4jQQg8
马斯克拉黑OpenAI之我们不合适
撰文 / 张霖郁
/ 张 南
设计 / 师 超
马斯克(Elon Musk)和OpenAI的现任CEO山姆·阿尔特曼(Sam Altman)之间的恩怨从5年前开始。
近期,正因为ChatGPT的火爆,马斯克又旧事重提。
他在推特上说“我至今搞不明白,一个我捐了1亿美元的非营利机构是怎么变成一个市值300亿美元的营利性组织的。如果这是合法的话,为什么其他人不都这么做呢?”
阿尔特曼在3月25日接受了麻省理工人工智能研究员莱克斯·弗瑞德曼(Lex Fridman)的采访,莱克斯同时也是一位网红播客主。
这场采访接近两个半小时,阿尔特曼正面回应了马斯克炮轰OpenAI从开源到闭源,从非营利组织到营利组织的转变。
他说:“我相信他对AGI(Artificial General Intellengence)的安全问题深感紧张,这是可以理解的,但我相信他也有一些其他的动机……在我成长过程中,一直都把马斯克看作偶像。 他在推特上表现得像个混蛋,但我还是很高兴这个世界有他这样的人。 我希望他能多看看我们为了把这件事做好而付出的努力……我也许应该回击,可能以后会的,但这并不是我的正常做法。 ”
马斯克比阿尔特曼大14岁。 他在OpenAI于2015年12月11日成立时,先捐了1亿美元,当时他承诺会投入10亿美元,和他同时捐款的还有PayPal 联合创始人彼得·希尔( Peter Thiel)以及时任创业孵化器Y Combinator总裁的阿尔特曼。
目前,阿尔特曼已卸任Y Combinator总裁职务,他在2018年前后成为了OpenAI的首席执行官。
这里值得一提的是英伟达创始人黄仁勋,他在2016年8月,把英伟达生产的第一台超算DGX-1捐给了OpenAI,当时在场的见证人就包括马斯克。
这台超算DGX-1,用黄仁勋的话说,是3000人花费3年时间才研发出来的首个轻量化小型超算,计算和吞吐能力相当于250台传统服务器。 当时他手里压着100多家公司的订单,却把第一台捐给了OpenAI。
从2015年到2018年期间,OpenAI的定位是一家非营利组织,目标是率先创建 AGI,这是一种具有人类思维学习和推理能力的机器。 他们的目的不是统治世界,而是希望该技术得到安全开发,并将其收益平均分配给全世界。
“我们需要一个具有领先性的研究机构,优先考虑所有老百姓的好处而不是优先自身的利益,我们鼓励研究人员发表他们的作品,无论是论文、博客文章还是代码,我们的专利(如果有的话)将与全世界共享”,这是当时OpenAI的初心。
2018年底前的OpenAI鼓励开源,透明和分享。 它当时的主要对手是DeepMind,这家人工智能实验室比OpenAI早5年成立,2014年被谷歌收购,资金实力远在当时的OpenAI之上。
分歧
对于大多数美国人而言,第一次听说OpenAI是在2019年2月14日,这一天他们发布了ChatGPT-2。 而对于我们国人而言,ChatGPT似乎是最近才公诸于世的事。
那一天,这家实验室宣布了一项令人印象深刻的发现:一种可以按下按钮便生成令人信服的论文和文章的模型。 给它一个句子《指环王》,它将以同样的方式发出一段又一段的文案。
OpenAI组织性质的改变是从2018年4月开始的,当时实验室发布了特许章程。 章程里重新阐述了实验室的核心价值观,其中巧妙地改变了原来的说法。 除了承诺“避免利用人工智能或AGI损害人类或不适当地产生集权”外,章程里此次还强调了资源的必要性。
“我们需要调集大量资源来完成使命,”章程里这么写道,“但我们将始终努力采取行动,尽量降低员工和利益相关方之间与广泛利益之间的利益冲突。”
但这一年,公众和大多数员工并没有意识到OpenAI这悄然的变动。 马斯克正是在这个时候选择退出OpenAI的,或许那时他已经知道微软入资的消息。 他觉得双方的价值理念将由此不同。
退出OpenAI后,他没有再继续捐款,自己便另起炉灶,成立了自己的AGI研发团队。
OpenAI真正的结构性变化发生在2019年3月。 它不再是纯粹的非营利性质,实验室成为一家“有上限利润”营利机构,它把对投资者回报限制在 100倍以内,但从组织架构上,它还不能算完全的营利组织,因为OpenAI由一个非营利实体的董事会监管。
此后不久,OpenAI宣布了微软10亿美元的投资,但双方并没有透露这笔投资是现金形式,还是微软云计算平台Azure也算其中的折现。
阿尔特曼是在这段时期出任OpenAI的首席执行官。 此次马斯克在推特上再度批评OpenAI的组织性质,不过是5年前不满情绪的延续。
为什么从非营利到营利
旧金山第 18 街和福尔瑟姆街的交叉口,OpenAI 的办公室看起来像一个神秘的仓库。 这座历史悠久的建筑拥有单调的灰色镶板和有色窗户,大部分窗帘都被拉下。 字母“PIONEER BUILDING”(先锋大厦)展现了它的前主人 Pioneer Truck Factory (先锋卡车工厂)的遗迹。
办公室内部,空间明亮通透。 一楼有几个公共区域和两个会议室。 一间适合大型会议,称为“太空漫游”;另一间更像是一个美化的电话亭,称为“无限笑料”。
3年前,MIT科技评论(MIT Technology Review)的撰稿人Karen Hao曾对这家公司进行深度采访,当时她只被允许在一楼活动,二楼和三楼均为禁区,处于保密状态。 这两层是员工的办公区域以及放机器人的地方。
Karen在一楼见到OpenAI联合创始人兼CTO格瑞格·布罗克曼(Greg Brockman),她在文章中写道:他看起来很紧张,也很警惕。 他穿着便服,和 OpenAI 的许多人一样,留着不规则的发型,这似乎反映了一种高效、朴实的心态。
OpenAI核心团队成员合影,二排中为格瑞格·布罗克曼(Greg Brockman)▼
布罗克曼说,当团队研究AGI的趋势时,他们意识到保持非营利组织这一性质在资金的持续上是行不通的。 这个领域的其他对手用来取得突破性成果的计算资源每3.4个月翻一番,这需要足够的资本来匹配或超过这种指数级的增长。 这就需要一种新的组织模式,既能迅速积累资金,又能以某种方式忠于使命。
2019年4月的这次变动引发了很多人的指责,他们称 OpenAI 正在违背其使命。
公告发布后不久,在AGI的相关论坛上的一篇帖子中,一位用户询问 100 倍的限制是如何限制的:“谷歌的早期投资者已经获得了大约 20 倍的资本回报,”他们写道。“你敢打赌,你将拥有一个回报率比谷歌高出几个数量级的公司结构吗?同时你又说不想‘过度集中权力’?这将如何运作?如果不是资源的集中,权力到底是什么?”
此举也让许多员工感到不适,他们表达了类似的担忧。
布罗克曼说:“我们花了很长时间与员工进行内部迭代,以使整个公司接受一套原则一套价值观,这意味着即使我们改变了结构,也必须保持不变的东西。”
2019年的夏天,在转向利润上限模式和微软注资 10 亿美元后的几周内,管理层向员工保证,这些更新不会在功能上改变 OpenAI 的研究方法。 微软与实验室的价值观非常一致,任何商业化努力都将遥遥无期,寻求基本问题仍将是工作的核心。
有一段时间,这些保证似乎是正确的,项目照原样继续进行。 许多员工甚至不知道OpenAI向微软做出了哪些承诺。
但2020年初,OpenAI 商业化的压力越来越大,进行赚钱的研究不再是遥不可及的事情。 在与员工私下分享对实验室的 2020 年愿景时,阿尔特曼传达的信息很明确:OpenAI 需要赚钱才能做研究。
管理层表示,这是一个艰难但必要的权衡。 由于缺乏富有的慈善捐助者,它不得不做出这样的取舍。
但背后真正的原因是,OpenAI 面临这种权衡,不仅仅是资金压力,更重要的是它的战略选择,OpenAI试图先于其他人达到 AGI。
这种压力迫使它做出似乎离初衷越来越远的决定。 它在急于吸引资金和人才的过程中倾向于炒作,保护自己的研究以期保持优势,并追求计算量大的策略——不是因为它被视为通向 AGI 的唯一途径,而是因为它似乎是最快的。
2021年微软再度入资,这次高达100亿美元。 微软也由此成为OpenAI的独家云服务商。 2023年,微软官宣和OpenAI的合作已进入第三个阶段。
本文由汽车商业评论原创出品
或内容合作请联系说明
违规必究
黄仁勋,硅谷新传奇?
撰文/ 吴 静
/ 黄大路
设计/ 师 超
2024年才开始,就有网友选出了2024年最郁闷的三个人:第一个是惆怅农夫山泉该怎么卖的钟睒睒,第二个是郁闷首款纯电车型MEGA遭遇黑手的李想,第三个是纠结不知如何给自己的车定价的雷军。
就在中国舆论市场陷入狂热、偏执的时候,大洋彼岸的美国科技圈正在被英伟达点燃,而英伟达背后的掌舵人黄仁勋(Jensen Huang)也顺势成为科技圈炙手可热的“巨星”,风头甚至盖过埃隆·马斯克(Elon Musk)。
美国CNBC财经主持人克拉默(Jim Cramer)直言,他认为黄仁勋比马斯克更具远见。
“我觉得马斯克可以看到行业拐点,但黄仁勋考虑的是如何改变影响这个世界的整个大局。 黄仁勋单枪匹马就掀起了一场工业革命,而马斯克则是单枪匹马地带来了创新产品。 毫无疑问,他们都是才华横溢的,但掀起一场工业革命,谁能做到这一切?”
今年以来,特斯拉的市值蒸发超2200亿美元,已经跌出美国市值最大十家公司之列。 截至目前,多家华尔街机构下调特斯拉的目标价。 高盛将特斯拉的目标价从255美元下调至220美元,摩根士丹利也将特斯拉的目标价从380美元下调至345美元。
但英伟达的股价却在今年以来像坐火箭似的一飞冲天,短短几个月,英伟达市值就直接飙升至2.3万亿美元,成为全球市值第三大上市公司,超过了谷歌和亚马逊,仅次于微软与苹果。
英伟达就是赚走人工智能第一桶金的“卖铲人”。 在投资界有一个说法——挖金矿的不一定赚钱,但是卖铲子的一定会赚到。 当前,无论是OpenAI还是微软,其在人工智能领域都在亏钱,只有英伟达吃到了人工智能的红利。
英伟达到底有多疯狂?从1993年成立以来,英伟达用了30年才将市值突破1万亿美元。 然而,从1万亿美元到2万亿美元,英伟达仅用了8个月。
据悉,2024年英伟达GPU技术大会(NVIDIAGTC)将于当地时间3月18日至21日在美国圣何塞举办。 黄仁勋将亲自登台发布加速计算、生成式AI以及机器人领域的最新突破性成果。
继马斯克之后,黄仁勋开始被视为硅谷新的传奇人物。
电脑背后的奇妙世界1963年,黄仁勋生于中国台湾,祖籍大陆浙江,父亲是一名化学工程师,母亲是一名小学教师。 在黄仁勋很小的时候,父亲决定全家搬到泰国开办化工企业。 9岁时,父亲为了让两个儿子得到更好的教育,将两兄弟送到华盛顿的舅舅家,在肯塔基州乡下的一所寄宿学校就读。
后来黄仁勋才发现,这是一所专门为问题少年建造的学校。 为了适应环境,黄仁勋为学校里的“大哥”补课和其他男孩一起爬墙、抽烟,每天放学还要打扫男厕所。 陌生的环境锻炼了黄仁勋强大的环境适应能力和一身的生存本领。
两年后,黄仁勋全家移民至美国,黄仁勋和父母在俄勒冈州团聚,兄弟俩也开始进入正规学校接受教育,黄仁勋在高中时连跳两级,16岁毕业,进入俄勒冈州立大学,主修电子工程。 “我从小就对电脑就充满兴趣,但是在俄勒冈州立大学的学习,让我真正意识到了电脑背后的奇妙世界。 ”黄仁勋曾回忆道。
黄仁勋在大学实验室邂逅了后来的妻子,黄仁勋对她说自己要在30岁前拥有一家属于自己的公司,后来他做到了▼
1983年,黄仁勋大学毕业后选择硅谷开始自己的职业生涯。 他最初选择进入AMD公司工作,但呆的时间并不长,两年后他就跳槽到偏向于图形处理的芯片商LSI Logi,在这家公司他工作了8年,一直做到了董事,成为了一名既懂技术、又懂销售和管理的复合型人才,且在此期间,他还获得了斯坦福大学的电子工程硕士学位。
1993年,30岁的黄仁勋与两位资深的微芯片设计师克里斯·马拉考斯基(ChrisMalachowsky)和柯蒂斯·普里姆(CurtisPriem)共同创立了英伟达。 因为既有技术背景又懂销售和管理,黄仁勋被推举担任总裁兼CEO。
自此,英伟达正式诞生。
如果可以重来“既然这个世界有CPU,那我难道不能做个GPU吗?”2001年左右,在中关村的一个很破旧的小饭店里,黄仁勋怯生生地对彼时的知名IT记者刘韧说了这样一句话。
刘韧注意到一个细节,当黄仁勋说出这句话的时候,他的脸红了,可能是他觉得将自己和英特尔相提并论,这样有点大言不惭。 毕竟,英伟达1999年在纳斯达克上市时,公司市值仅2.3亿美元,而英特尔彼时市值高达5000亿美元。
在刘韧的印象中,当时的黄仁勋有点拘谨,他说,“我相信,在图形化领域做专用芯片的商业模式一定会成立”。 刘韧跟黄仁勋聊了两个小时,但是这个采访后期并没有成稿。 后来在一次采访中刘韧透露,当时采访完黄仁勋,觉得两人之间的谈话没有什么亮点,连写报道的兴趣都没有,就交给了手下。
一个做网络游戏卡的公司,你会想到20年以后它会变成全世界人工智能里面最牛的基石性公司吗?
没有人能预料20年后的未来。 “当年那么不重要的人,现在是多么地重要,NVIDIA的芯片支持了人工智能。 ”刘韧如此感慨道。
英伟达和黄仁勋的成功现在世人皆知,但即便如此,黄仁勋仍声称,如果重来一次,他不会选择创业。
“那时,如果我们意识到痛苦和苦难,以及你将感到多么脆弱,以及你将要忍受的挑战、尴尬和羞耻,以及所有出错的事情的清单,我认为没有人会创办一家公司,没有一个头脑正常的人会这么做。”
质疑声中坚守马斯克错过OpenAI绝对可以算得上是他这辈子最后悔的事情之一。
马斯克于2015年共同创立了OpenAI,但在2018年退出了董事会。 后来,马斯克只能眼睁睁地看着ChatGPT一夜爆火,他失去了与当今最热门的技术相关联的机会。
后来,马斯克公开说:我完全承认这是一个极其愚蠢的决定。 马斯克表示,他低估了该公司盈利的潜力。
如果说马斯克与AI浪潮是一次偶然的擦肩而过,那么黄仁勋则是这波AI浪潮不可缺失的一部分。 正如数字经济学者、DCCI互联网研究院院长刘兴亮所言,英伟达不是近水的楼台,它本身就是这片水域的组成部分,没有它的GPU,人工智能哪怕有了科学的方法和逻辑体系,也无法表现。
黄仁勋曾纹身庆祝英伟达股价突破 100 美元▼
我们可以将英伟达的发展历程大致概括为四个阶段:
1993年-1997年是蛰伏期,推出的芯片产品NV1和NV2,由于和市场主流产品不适配,面临失败。
1998年-2006年是崛起期,凭借GPU打下市场还是空白的领域,保持强势地位至今。
2006年-2016年是扩张期,凭借CUDA(即Compute Unified Device Architecture,统一运算架构),把GPU的应用从游戏跨到其他领域。
2016年至今,是爆发期,AI、自动驾驶、云计算,加密货币挖掘,英伟达成为真正的人工智能时代的卖铲人。
1999年8月,英伟达推出一款经典的GPU产品(GeForce 256),这款产品在游戏市场很受欢迎,为了拓展GPU的用途,2007年英伟达推出了CUDA(Compute Unified Device Architecture)框架,开发人员可以在CUDA上直接利用GPU的计算能力进行各种密集计算,如科学运算、物理模拟等。
但是CUDA的附加成本非常高,英伟达的利润多年来遭受了巨大打击,市值徘徊在略低于10亿美元的位置。 金融危机期间,因为投资者的不看好,公司市值蒸发超90%。
没有人看好CUDA的价值,但即便如此,黄仁勋依旧在如潮水般的质疑声中坚持了下来,直到后来,CUDA成为发展人工智能的基础工具,让曾经那个名不见经传的英伟达一飞冲天。
当CEO的秘诀在一次斯坦福大学的分享上,黄仁勋向众人分享当CEO的秘诀。
他是这样描述的,一方面,你要坚持,坚持你的信念,另一方面,你不能固执,这样你就有了灵活性。 这是矛盾的,也是复杂的。 很多创业公司的CEO,都非常有才华,但他们执意要证明自己是对的,而忘记了敏捷。 ”
坚持和固执之间,只是一念之差。
2024年年初,黄仁勋参加了英伟达中国区年会,后来,他在会上身穿东北花背心、转手帕、扭秧歌的视频引起广泛关注,这也让更多人看到这位美国科技界的华人企业家的另一面。
此前,黄仁勋每次出现在公众视野,总是穿着一件黑色皮夹克,因此人称“皮衣刀客”。 常年皮衣不离身,这背后的理由竟是不用动脑筋思考每天衣服怎么搭配。
Adobe执行长纳雷杨曾评价黄仁勋,“他是少数兼具远见以及专注于执行的领导人”。 黄仁勋曾这样介绍自己,“你可以用很多词形容我,第一个应该就是韧性”,也正是黄仁勋在逆境中的选择和坚持造就了今天的英伟达。 但黄仁勋说,是公司创造技术、创造市场的理念定义了今天的英伟达。
在黄仁勋看来,英伟达所做的每一件事,都是在创造技术,同时创造市场。 30年来,英伟达意识到必须做的核心是,为了创造条件让人们可以购买我们的产品,我们必须去创造这个新市场。 这就是我们在自动驾驶领域起步较早的原因,这就是我们早期进入深度学习,在很多领域都处于领先地位的原因。
“没有我看不上的工作,我曾经是个洗碗工,我还洗过很多很多厕所,比你们所有人加起来还要多。”黄仁勋说,“我热爱每一份工作,包括洗盘子和清洁厕所,没有人能像我一样把厕所打扫得那么干净!”