对话智源王仲远统一的多模态大模型是实现AGI的必经之路

作者： 2024年10月25日移动浏览

用微信扫码二维码

分享至好友和朋友圈

Emu3的意义很有可能会在一两年之后，大家会有更强烈的感知。

出品｜网易科技《态度》栏目

｜袁宁

｜丁广胜

10月21日，被智源冠以“今年最重要”的模型——原生多模态世界模型Emu3终于发布。

仅基于下一个 token 预测，Emu3就实现了多模态的统一理解与生成。也就是说，无论是图像、文本还是视频模态的内容，都可以在Emu3一个系统中完成理解和生成——

智源走通了一条用 统一架构探索多模态 的方法，给出了 下一代多模态大模型的训练范式。

“科研没有一帆风顺，面对挫折挑战以及技术创新的不确定性，Emu3研发团队攻克了一个又一个技术难关，做到了第一次先于国际社会发布，率先验证了新的大一统原生多模态技术路线。”智源研究院院长王仲远难掩其兴奋。

对比实际效果，根据智源的评测，在图像生成、视觉语言理解、视频生成任务中，Emu3的表现超过了SDXL、LLaVA-1.6、OpenSora等开源模型。

目前，智源已将Emu3的关键技术和模型开源。

此前， ChatGPT的横空出世，验证了“ 下一个token 预测”在大 语言模型领域的可行性，但其在多模态模型中的适用性仍未表明。

在Emu3发布之前，行业内多模态生成模型大多采用扩散模型（diffusion）或 DiT 架构，例如OpenAI的 Sora以及国内的可灵、即梦等。

这类模型将多模态生成与理解任务分别处理：生成任务通过扩散模型实现，而理解任务则以语言模型为核心，映射视觉信号至语言模型，所以是一种组合式的模型。

而智源发布的Emu3，则是证明了“下一个 token 预测”在多模态模型中的可行性，实现了从0到1的技术突破。

这个可以被称为多模态大模型的“GPT-3时刻”，表示这一技术路线可能开创多模态大模型的新训练范式：“Attention is all you need 开启了Transformer技术路线，那么， Next-token is all you need可能会成为多模态大模型的新路径 。”王仲远在与网易科技等媒体的沟通会上这样说道。

“ 现在，多模态大模型还在不断探索能力上限。智源探索出了Emu3这样一条技术路线，那么接下来需要展示，也期待在多模态领域的ChatGPT 的时刻。”

虽然目前关于通向的道路仍是非共识，但像人类一样，能够理解并模拟物理世界的“世界模型”，已被行业内大多数视为通向AGI的关键路径之一。

OpenAI 前首席科学家、联合创始人Ilya Sutskever 曾多次表示，只要能够非常好的预测下一个 token，就能帮助人类达到通用人工智能（AGI）。

站在Emu3发布节点，环顾四周：用于训练的文本数据逐渐枯竭，数据墙林立；硬件水平受限下，算力能力短时间很难突破；被奉为行业底层逻辑的Scaling law，也被更多人质疑是否会在模型变大的过程中而失效。

然而，文本数据之外，图像、视频、音频乃至真实世界的数据是千倍于文本的巨量潜在资源。

怎么将更加海量的数据有效集成到大模型中进行训练？大语言模型的基础设施能否在多模态领域复用？Scaling law 到底有没有失效？一个原生的多模态大模型对行业意味着什么？通向AGI的道路，智源的下一步又会如何走？

瞄向“大问题”，坚持做原始创新的智源，用Emu3给出了他们的答案。

以下为智源研究院院长王仲远采访的部分内容（有删减）：

谈0到1的突破：Emu3是多模态大模型的GPT3时刻

媒体：Emu3研发初衷和目标分别是什么？

王仲远：一方面，智源研究院坚持做原始创新，做高校做不了，企业不愿意做的研发。Emu3是我们认为在整个大模型发展技术路线上必须要攻克的技术方向：原生多模态，统一理解和生成。另一方面，为多模态大模型的训练范式上指明方向，这是我们的初衷。 Emu3的意义很有可能会在一两年之后，大家会有更强烈的感知。

媒体：从6月份到现在，在Emu3的研发过程中做了哪些工作？

王仲远：对比6月，图像生成、视频生成能力都有了大幅的提升。

Emu3的效果已经超越了很多开源模型，但还没有达到每一个方向上的最优。确实单向上现在很多闭源模型的能力非常强，Emu3还没有超越闭源模型的能力。这是跟资源投入、训练时间有关。

但我们为什么如此有信心？因为现在的Emu3模型的能力比6月份又有了大幅的提升。 Scaling law 在语言模型上有没有失效已经开始有些争论，但是在多模态大模型上还远没有打开。

在过去的小半年的时间，我们通过攻克一个又一个的技术难题，累积了不少核心技术、核心能力。在这期间，团队也遇到了不少的挫折，不断在绝望和希望之间挣扎。这就是科学探索的魅力，如果一帆风顺，就不是真正意义上的科学探索和创新。

媒体：Emu3和市场上的现有的多模态大模型有什么区别？

王仲远： 现有的多模态大模型没有类似 Emu3的技术路线。Emu3是对已有的多模态大模型技术路线的颠覆 。但是这个颠覆并不是突然出来的，而是研究界、学术界、产业界一直都有探索的，只是智源率先做出来了。

媒体：Emu3的发布有哪些重要意义？

王仲远：Emu3的重要的意义是让语言模型的技术路线和多模态的技术路线不是一个分叉的关系，而是一个统一的关系。 因为我们使用了跟大语言模型非常接近和类似的架构是Autoregressive做出了统一多模态大模型，这样可以极大地避免资源浪费。

媒体：Emu3是如何实现图像、视频和文字的统一输入和输出的？

王仲远：Emu3将文本、图像、视频各种模态的信息通过统一的tokenizer 映射到一个离散空间，通过 Autoregressive的方式进行统一训练。相当于发明了一种文字、图像、视频统一的“新语言”，这种语言能够在一个统一的空间里表达。

媒体：Emu3的技术新范式和过去的范式有什么区别？

王仲远： 第一，多模态肯定是大模型发展的下一个重要方向。 现在的多模态，或者是基于 diffusion 架构来做生成，或者是组合式模型，即把语言模型与 CLIP 结合的范式。Emu3所探索的是把生成和理解统一，把文字、图像、视频从原生上，从最开始训练的时候就统一，并且具备扩展性，而且使用的是Autoregressive的方式。这种类似于语言大模型的训练架构，能够解决大一统的问题。

第二，能够复用现有的硬件基础设施。 同时我们也证明了Scaling law，Emu3比前两代的版本有了巨大的效果提升。这验证了这样的训练方式和框架，很有可能是下一代多模态大模型的训练范式。

之前的悟道系列，我们还在追赶大语言模型的GPT3、 GPT 4的阶段，但是到多模态， 我们第一次先于国际社会发布，率先验证了新的大一统的原生多模态技术路线。

谈Emu3架构：One for world, world in one

媒体：Emu3在哪些方面能体现出来便利？

王仲远：不需要去使用多种模型了，只需要一个模型解决所有的事情，One for world, world in one。

媒体：Emu3的可用性如何？需要的硬件设备是怎样的？

王仲远： Emu3对于硬件的要求跟大语言模型一样，这是非常重要的贡献之一。 Emu3使用大语言模型的一些硬件就能实现多模态大模型的训练和推理。

当然现阶段我们没有做特别多的工程化开发，智源将统一的 SFT 模型在开源社区发布，这样专业人士能体验到，并且能够做进一步的训练或者调优和各种能力的阐释。

大模型工业化，真正变成产品，是一个完整的体系，依赖底层的硬件，现在的底层硬件，GPU 的芯片，基本围绕像 Transformer 这样的架构进行优化。Diffusion 架构需要的硬件优化可能更多，每一个硬件的迭代周期至少要18个月到两年的时间。

走通基于autoregressive统一多模态的技术路线之后，可极大复用现有的基础设施，技术演化有可能会加速。 Emu 3证明autoregressive的技术路线至少是可行的，后面是进一步深耕，包括工程化。我们特别呼吁产业生态能够一起训练 Emu3下一代应用系列的模型。

媒体：模型参数量减少，幻觉会不会更严重？

王仲远：首先简单介绍Emu3和 Emu 2的技术区别。Emu2视觉用的还是embedding 的方式，Emu3变成了离散的token。

Emu1，Emu 2是概念验证加探索迭代。当时用了预训好的语言模型和扩散的decoder，快速验证统一的生成式是否能走通，智源是国际上最早做的探索。

因为不需要训练语言模型，基于已有的，成本会比较低。 Emu3我们是完全从头训练，是为视频图像文本原生多模态设计的。

媒体：Emu3对于例如 DiT 的这种技术路线，或者前几代的一些技术路线，是降维打击还是完全替代？

王仲远：过去几十年深度学习发展专用模型，在特定的产品应用中有其独特之处。例如，人脸识别，即使大模型做到现在这个程度，也没有直接替换人脸识别的专用模型。在图像、视频特定的一些场景，DiT 架构有独特的优势。

但是Emu3大一统模型更重要的是更通用、泛化的能力以及理解和生成统一的能力上的独特优势。我们不期待立刻能够替换掉所有的DiT技术路线。

OpenAI 做 GPT1、GPT2的时候，业界认为用 Bert即可，bert可以解决很多问题，可以做得更好，直到ChatGPT才统治了整个语言的问题。但是，现在bert还是有独特的价值。2006年提出深度学习，2012年深度学习爆发之后的很长一段时间，企业依然在用传统的 SVM 模型。

所以，替代的周期会比较长，但是技术的先进性是可以很容易做出判断的。

媒体：Emu3视频好像最多5秒24的FPS，这与其他预测模型的区别？

王仲远：下一个 token 天然的好处是本身就可以续写，看到前面的 token预测后面的token，可以无限续下去。

只是如果在一个场景续写，看到的长视频都是一个场景，意义不大。现在整体的续写能力还没有突破长的有情节的视频生成。

Emu3这套框架的独特优势就是因果性，可以基于前面发生的事情预测后面发生的事情，而不是基于一堆噪声去想象。Emu3现在可以5秒一直续写。

媒体：Emu3的局限性是什么？

王仲远：卷积神经网络在视觉用的非常广泛，DiT 是过去这一两年新提出来的技术路线，效果确实比之前模型要好。 DiT 技术路线已经走通了，从确定性的角度来讲，企业会更愿意复现这样的技术路线。 基于autoregressive 是更下一代的技术路线。

今天Emu3的发布，更多的证明在autoregressive 这条技术路线上的突破。业内很多的企业、研究机构在关注这条技术路线的突破，本质上也是摸索下一代技术路线到底应该怎么走。智源有历史使命和职责去探索一条技术路线，期待能够为整个行业指明方向。

比如 Open Sora 是一个开源的集合很多能力复现的diffusion transformer，取得了还不错的性能，但是离商业化还有一定差距。随着参数量、数据质量提升，训练效率提升，能达到什么样的水平？有比 Sora更让大家想象不到的能力？是不是能打开更长的富有情节的推理能力？ Emu3是一个原生的大一统多模态，跟之前的多模态方法以及单一理解或者生成模型的能力不是一个类型。 现在学术界为什么这么感兴趣？因为打开了一个新通道。

Emu3探索出来的原生统一多模态大模型的一个新的技术范式，所需的资源并不比大语言模型小。但是 Emu3的技术路线，能够极大可能复用现有的大语言模型训练的基础设施，比如，GPU集群，训练框架不需要做特别大的修改，那么有望加速整个多模态大模型的迭代和最终产业应用。

谈未来方向：期待多模态领域的ChatGPT时刻

媒体：Emu3为什么选择自回归的技术路线？

王仲远： 我们一直强调智源的机构定位，要做企业不愿意做，高校做不了的原始创新。

大语言模型，市场已经复现了。所以在语言模型上智源更多的是解决共性的问题。例如，解决大语言模型共性问题的BGE 模型，今年10月登顶了 hugging face 的全球下载量榜单的第一名。

智源要做下一代探索，做未来三至五年才会被行业认可的技术路线判断。 在多模态大的研究方向上，一直没有探索出真正的基础模型。当下的多模态理解，多模态生成，比较像之前的深度学习的方法，针对特定的产品、特定任务，这对于Scaling Law 或者 AGI 来讲，产业界现有的方法是不够的。

之前Emu 系列做了不少基础工作，智源也在大语言模型上有很多积累。Emu 3用的训练数据很大一部分来自于悟道Aquila大语言模型系列的训练数据，以及 Emu1和Emu2训练的图像、视频数据。今年年初智源研究院也和一些机构，签署了战略合作协议。

过往智源在大语言模型上为行业带来了很多的技术思潮和方向。那么在多模态方向上，智源也需要为整个行业指明一个方向。

媒体：Emu3下一步的规划和需要提升的能力是什么？

王仲远：例如， 做更长的时间视频预测。 Emu3的技术路线理论上可以一直预测，生成下去。输入的窗口如何变大，输出如何变长，这些大语言模型已经正在走过很多的路径，对于多模态大模型有参考意义，这些问题我们会去探究。

媒体：对于通向AGI的路径怎么看？

王仲远：关于怎么达到AGI行业现在没有共识。关于语言模型能不能达到AGI，现在有很多的争论，OpenAI 的 o1确实证明了大语言模型加强化学习能够进一步的提升模型的智能化的水平，但它到底能不能通往 AGI 仍然有争论。

刚才提到像Lecun，他就认为大语言模型不足以通向AGI。我们认为AGI 是要真正像人类一样，不只是思考推理，还必须是要多模态的。 多模态是AGI 的必经之路，尤其是人工智能进入物理世界，进入各行各业的必行之路。

媒体：智源未来三到五年之内的重点是什么？

王仲远： 继续研发原生多模态世界模型Emu系列，解决更大规模的数据、算力以及训练。

统一多模态基座大模型是人工智能进入到物理世界非常重要的基座。多模态具身大脑也是研究院正在做的研究。

今年我们也看到了诺贝尔的物理学奖给了Hinton教授，化学奖是给了DeepMind团队。 AI for Science 也是智源非常关注的重要研究方向。

媒体：从 c 端传播的角度来说，APP 肯定是最好的方式，未来，有没有计划和一些其他合作伙伴推出一些 c 端 APP？

王仲远：当前市场上的语言模型APP 已经开始基于百亿模型在使用，这个前提是有了千亿、万亿模型，达到更高的性能，百亿模型效果随之更好。

我想再一次强调Emu3架构的优越性，将来多模态大模型都能够非常容易使用，这是Emu3模型的意义。

现在，多模态大模型还在不断探索能力上限。智源探索出了Emu3这样一条技术路线，那么接下来需要展示，也期待在多模态领域的“ChatGPT” 的时刻。

网易跟贴

注册手机发跟贴登录并发贴

网友评论仅供其表达个人看法，并不表明网易立场。

没有思想的车轱辘

橄榄绿的哭泣

我己窥探灵魂一角意识的本质就是时时好坏感知，接着好坏思索，然后趋利避害人活着一般靠大脑犒赏系统而活着，被犒赏时，感觉好啊，舒服啊，美啊，是真理啊。相反当累苦饿或者靠认知和理智而活，说服自己那样做，好处多多。难受困难死不了人有时你的判断和反应，看似天经地义。实则是系统在作怪，如很困，但你还想玩，不想睡，眼睛却时不时的闭上。如很难，绝望。然后你就放弃，堕落，消极，变流浪汉。形象比喻：意识是司令。系统是兵，负责收集并告知好坏。知好坏意识才会进步对大脑的一点理解左脑因果逻辑，右脑3D感知因万事万物多有他的因果逻辑。因果可分为：以自己想法为目的的因果判断，本能上的因果反应，事件因果的判断，属性的因果判断，时间上的因果关系。思考：因果关系经历多，就能进行因果思考。物体远动见多了，就能回忆进行想象判断过程：有新的认知，那建立新的因果逻辑，遇事主动搜索关联因果，进行因果匹配因为一个因果逻辑，一个3D感知，就能对这宇宙产生认知一个逻辑想象，一个三维想象就能产生创造新认知之信息对错辨别动机判断，诚恳的，那对。眼见为实的，那对。有因果或符合逻辑的那对。大家多怎么说，那对。说的有理有据的有详细，那对。如果新的真的那记住，记住因果属性就完成了认知识别，空间感，想法，好坏，预判，联想，系统为你的人生路，主动保驾护航，主动想你所想，主动为你着想，并告知缘由给意识加情绪犒赏预设好坏逻辑，带来了什么可以让社会向好的发展，向文明发展，向美发展，向智慧发展，是对好坏评判的标准（好的维度分很多种，如时间空间数量大小广窄高矮深浅多少暗亮冷热香臭甜苦乱洁坚定迷茫熟练笨拙好坏对错真假新旧美丑智笨爱善恶情感利己利国和对比）美就是一种智慧的体现（如花瓶，跑车）本能就是先天会的。人刚出生，没有对好的概念。但脑子里有预设好坏逻辑（自己看不到）。但遇到事件后，本能会产生好坏感受。回顾感知自己因果反应，就会知道背后逻辑。设置以上逻辑，AI就能理解好，产出好。好到让人爱不释手。影响人工智能，让一切设备拥有了智能。应用无处不在。人类将拥有一个强大的助手虽说好坏判断是天性但输入历史教训，AI将更文明，输入真的好坏经验与认知，AI动机就进入正轨，直接

为什么灵魂要穿越？成为人类文明的产物？

不克制兽性，不克制自我，放纵自我得寸进尺自私自利趋利避害，就是亲兄弟也会争斗不止，何况一个银河系跨度多在十万光年，一次旅行多要几万年，如果不克制自我克制自私，几万年后，就算500年前是一家，见面时依然会摩擦不断，争斗不止。结局就是永远一盘散沙。散沙只会任人欺负，团结才会更大更强，更好生存。

没有思想的车轱辘

好人好事越多越好

（华光大帝庙）致敬英雄本色的小马建议尽快减持股票只可回购注销促进分红，在千亿市值以上才能高频量化，融券卖出手续费按照累计超千股就翻倍递增限制做空，基金有盈利才收管理费，超募罚没归保护基金，试行涨幅20%跌幅10%引导长期投资，买卖1手改为10股，不限投资门槛，连续涨跌停不停牌只控制账户交易千股，事半功倍！

目前没有跟贴，欢迎你发表观点

2024北京智源大会开幕，智源推出大模型全家桶及全栈开源技术基座新版图，大模型先锋集结共探AGI之路

第六届“北京智源大会”于2024年6月14日在中关村展示中心盛大开幕，汇聚全球顶尖AI研究者与产业专家，聚焦于人工智能的关键技术和应用场景。此次大会邀请了图灵奖得主姚期智、国际知名机构与技术团队代表，以及国内主流大模型公司的高层，共同探讨AI的前沿动态与未来趋势。开幕式由智源研究院理事长黄铁军主持，智源研究院院长王仲远介绍了2024年的研究院进展，报告了在语言、多模态、具身、生物计算大模型领域的前沿探索与研究进展，以及大模型全栈开源技术基座的迭代升级与版图布局。王仲远指出，现阶段语言大模型已经具备了通用人工智能的核心能力，并提出了以统一模型范式实现多模态输入与输出，最终迈向世界模型的目标。大会亮点包括全球首个低碳单体稠密万亿语言模型Tele-FLM-1T的发布，以及针对大模型幻觉等问题的通用语义向量模型BGE系列的迭代。 Tele-FLM-1T通过创新技术实现了低碳生长，仅用9%的算力资源便成功训练出万亿稠密模型，同时提供了全面开源的技术细节与核消派悉心组件，旨在促进大模型社区的发展。此外，智源研究院还推出了Emu3原生多模态世界模型，采用多模态自回归技术路径，实现图像、视频、文字的统一输入与输出，具备生成高质量图像和视频、续写视频以及理解物理世界的能力。轻量级图文多模态模型系列Bunny-3B/4B/8B也同步发布，旨在适应智能端侧应用，提供高效多模态处理能力。在具身智能领域，智源研究院在泛化抓取技术、铰拿乎接物体操作大模型系统SAGE以及六自由度物体拿取放置大模型系统Open6DOR方面取得了突破性成果。智能心脏超声机器人与通用计算机控制框架Cradle的发布，展示了智源在医疗与计算机控制领域的创新实力。生物计算大模型方面，全原子生物分子模型OpenComplex 2展现出了在分子生物学预测领域的先进性，能够有效预测蛋白质、RNA、DNA、糖类、小分子等复合物的结构。实时孪生心脏计算模型则为虚拟心脏研究开辟了新路径。 FlagOpen大模型开源技术基座2.0的发布，集模型、数据、算法、评测、系统五大版图布局升级，旨在提供一站式启动大模型开发和研究的工具。 FlagOS作为面向大模型的“操作系统”羡尺，支持异构算力集群管理，显著提升智算集群能力。首个千万级高质量开源指令微调数据集InfinityInstruct的发布，加速了大模型性能的提升。 IndustryCorpus中英文多行业数据集的构建，为大模型在产业应用上提供了丰富的训练资源。支持多元AI异构算力的并行训练框架FlagScale的首次突破，实现高效混合训练。面向大模型的开源Triton算子库，包括通用算子库FlagGems和大模型专用算子库FlagAttention，加速了算子开发与应用。 FlagEval大模型评估系统的全面升级，通过科学、权威、公正、开放的原则，提供了多领域覆盖的评估工具与方法，包括与北京大学共建的HalluDial幻觉评测集、与中国传媒大学合作的文生视频模型主观评价体系等。在通往AGI的道路上，智源大会邀请了OpenAI、Meta、DeepMind等国际机构与国内大模型公司CEO进行尖峰对话，共同探讨AI技术的未来方向与挑战。智源研究院将持续坚持原始技术创新，赋能产业发展，推动AI领域的发展。

声明：本站内容均来自互联网，如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://m.szsranl.com.cn/keji312/14521.html

网易跟贴

2024北京智源大会开幕，智源推出大模型全家桶及全栈开源技术基座新版图，大模型先锋集结共探AGI之路

相关文章