雷递网 乐天 10月16日
继上半年千亿参数模型 Yi-Large 之后,零一万物今日对外发布最新旗舰模型 Yi-Lightning。
零一万物称,在国际权威盲测榜单 LMSYS 上,Yi-Lightning超越 GPT-4o-2024-05-13、Claude 3.5 Sonnet,排名世界第六,中国第一。这是在 LMSYS 这一全球大模型必争的公开擂台上,中国大模型首度实现“超越 OpenAI GPT-4o ”的最佳成绩。
零一万物CEO李开复博士表示,零一万物 (01.ai) 今天晋升为全球大型语言模型(LLM)第三名的公司,位列 LMSys Chatbot Arena最新排行榜中,仅次于OpenAI 和Google 。
李开复还称,Yi-Lightning是一个小的专家混合(MOE)模型,具有极高的速度且成本低廉,每百万个token仅需0.14美元(人民币0.99),相比之下GPT-4o 的成本为4.40美元。
零一万物绝不放弃预训练
这之前,网上传闻国内大模型公司有几家放弃预训练,零一万物是其中一家。李开复在今日的媒体交流环节中表示,零一万物绝不放弃预训练,而且零一万物的预训练做得又快又好。
李开复认为,当前国内头部的六家大模型公司只要有够好的人才,想做预训练的决心,融资额跟芯片都不会是问题的。“这六家公司融资额度都是够的,我们做预训练的production run,训练一次三四百万美金,这个钱也是头部公司都付得起。”
几天前,李开复就曾澄清说,零一万物一直在做预训练,去年和今年发布的Yi-34B,Yi-Large,Yi-Coder,Yi-VL, Yi-Vision都是发布时全球第一梯队,国内领先的预训练模型。
不用担心零一万物被用垮
经过一年多的沉淀,零一万物的“模应一体”战略在 ToB 领域内有了更直观的体现。目前,零一万物已推出AI 2.0 数字人解决方案、全行业解决方案、AI Infra 等产品及服务,面向 B/G 端客户构建起了从定制模型到专有应用搭建的一整套解决方案。
在过去,模型性能与推理成本之间的投入产出比一直是企业客户在选择大模型时必然要考虑的因素。今日,在 Yi 大模型开放平台上,Yi-Lightning 已上线 每百万 token仅需 0.99 元,直逼行业最低价。
谈及是否会面临亏本时,李开复说,零一万物的真实的成本比0.99元更低,还是有利润空间,所以欢迎大家使用,不用担心零一万物被用垮。
李开复认为,真正激活健康的生态系统,有非常多好的App,最关键的就是要有世界顶级的模型能做到白菜价,今天零一万物发布的Yi-Lightning模型就是这样的模型。
中美顶尖模型时间差距6个月时间
虽然中国大模型企业经常称自己的大模型超过ChatGPT,但现实中,中美大模型领域仍存在不小差距,有人甚至认为是落后十年、二十年。
对此,李开复也认为,中国大模型领域落后美国,但没有落后那么久。比如,GPT4o是在2024年5月13日做出来的模型,Yi-Lightning在10月就已经将其打败。如果真的算中国赶超美国有多远的距离,至少零一万物只差最好的OpenAI的模型五个月的时间。
“缩短时间差非常困难,我不预测我们可以缩短这个时间差。因为毕竟人家是用十万张GPU训练出来,我们用的是两千张GPU训练出来,我们时间差能达到只是因为我们模型、AI infra等团队都热心聪明,去使用和理解对方做出来的东西,再加上我们自己每家的研发有特色,比如数据处理、训推优化等等。”
李开复指出,通过一套打法,中美顶尖模型时间差距6个月时间,就已经是很好的结果了。如果期待破局,可能需要一个前所未有的算法才有机会。
“我们千万不要认为落后六个月是一个很羞耻的事情,对于奋力图强、勤奋努力、聪明多元化的团队,在国内拥有这样团队的公司,要用类似零一万物的打法,去贴近美国最顶尖的公司,不落后超过六个月,我觉得是可能,而且不只是我们一家可能,但难度是高的,希望再往下减非常困难,除非真的有一个发明和科技上的突破。”
以下是李开复演讲主要内容:
李开复:我们都注意到前一阵有自媒体声称国内六家大模型公司里有几家放弃了预训练,网上也有很多观点认为,中国预训练赶不上美国,那么今天我们所要做的重大发布,就是零一万物的新旗舰大模型 Yi-Lightning 闪电模型,它是第一个在国际权威达到非常高排名、打败多数的美国大模型,成为首度超越全球头部的 Open AI GPT-4o的中国大模型。
Yi-Lightning 闪电模型不但模型性能世界一流、推理非常快速,而且价格非常低,不论是App调用、还是企业应用场景调用,都是非常适合的。
上一次中国模型获得的最高排名是在今年5月时,Yi-Large得到过第七名排名,当时落后于三家公司,现在我们是落后两家公司,都是美国最顶尖的公司,而且我们打败了很多来自Google跟OpenAI的多款模型,包括GPT4o,在这个榜上是第七名,就比我们差一点。
我们也记得GPT4o 在今年5月推出时是全球第一的模型,现在我们已经超过5月的GPT4o,GPT出了最新的 ChatGPT-4o-latest 现在排在第一名,它也在9月做了更新。
从这里可以看到有关当前讲的大模型预训练中国不能做的传闻不对,这个事情我们就正式辟谣。这个理解是错误的,零一万物绝不放弃预训练,而且我们的预训练做得又快又好,我们的预训练现在的表现,很多人问中国的预训练是否落后美国?
我们也坦诚中国是落后美国,有人说落后十年、二十年,今天我们可以看到的可以用非常精确的数字来算,因为GPT4o在5月13日做出来的模型,我们在10月的今天已经把它打败了,所以就是五个月之后超过五个月前最强的模型,如果真的算中国赶超美国有多远的距离,至少零一万物只差五个月,最好的OpenAI的模型。
另外我们打平了xAI的Grok,我们知道xAI在训练Grok时是几万张的GPU,现在囤了10万张GPU,也有人说中国公司没有这么多的GPU,没有办法竞争,我们这次预训练只用2000张GPU训练一个半月,只花了300多万美金,做出来的预训练模型跟Grok打平,只花它的1%或2%的成本。
所以在总榜上可看到,中国所有模型在这个榜单上达到有史以来最高,而且不只是中国的,可以说是美国之外所有模型,也可以说是硅谷之外所有模型,所以我们非常自豪达到这样好的成绩,也感谢团队非常努力合作。
我们再看一些其他的分榜单,我们的中文是并列第二,我们的多轮对话并列第三,我们数学并列第三,我们的代码并列第四。
前阵子从GPT-o1可以看到,GPT-o1最强的强项就是数学能力和代码能力,这里可以看到基本只落后他们GPTo1和o1 mini,另外还有一家,所以我们这个分数一定是真的在最难的领域里反而表现最好,这个我们也是非常自豪。当然可以看到在数学和coding和GPT-o1有相当的距离,我们现在在研究理解用推理时间来做到更聪明和更好的数学coding的方法。
再下面的两个也是很难的题目,一个是艰难问题,一个是长提问,这两个也是最难,我们排名也是非常高,并列第四。
零一万物非常大的一个特点在于,我们做的模型和它下面的基础架构是共建的,战略名叫“模基共建”,我们可以考虑到不但要把模型做好,而且让它在推理时能非常便宜和低廉的价钱,非常快速地推理生成出来,因为这个影响用户体验,也影响应用它的成本。
做到这一点我们会去定制一个非常好的GPU、CPU和各种内存的组合,把这样一个推理引擎优化在这样的硬件上,我们会根据这样的规格去让我们模型团队训练一个塞满这些GPU又不会溢出的过程,又能得出很好的结果,我们的模型、推理引擎、技术架构、硬件都是量身定制打造,而且搭配到刚刚好,而且为了高效的推理做出来的。
我们技术方面也有很多很牛的地方。这次混合注意力机制是我们做的一个非常重要的点,混合注意力是计算里面比较大的比例,我们不但把KV cache缩小很多,将部分层的计算复杂度从 L 平方降到了 L。
再下面是一个MoE,也就是混合专家的模型,混合专家里面有很多的专家,我们专家相当多,但有一点是我们的新发明,专家很多,但不一定每次都要用那么多。我们训练时假设有80个专家,每次都调用12个或15个,在推理的时候是否可以少调几个,这样可以省掉很多的时间,这些都可以用动态的方法。
通俗点说,对简单的问题问两个专家,难的问题问十个专家,就跟人们所碰到的问题一样,当问题简单,想知道天气是什么的时候,不用找一堆专家来浪费他们的时间,但问题很复杂的时候,或许真的需要很多的专家,这样的平衡能不太影响我们的表现,但能节省很多时间。
最后一点非常重要,因为能做多阶段的训练,我们可以把整个训练切成两块,有一块是做好以后就把它固定起来了,在这个固定的模型上面再做后端的训练,所以我们不必重复一个又一个的实验,我们研究员有五个方法,他们不必把全部的数据跑五遍才看哪个最好,我们可以80%或90%都是固定起来,最后再去做高效的对比。
这个主要的对我们的好处就是我们可以用最低的成本多训练一些不同的模型,从中学习到怎样去用不同的算法,哪些算法表现最好,所以多阶段训练也是独特的和前所未有的。
更重要的是价钱,这么好的世界排前六的模型,第三的公司,它要多少钱呢?我们100万个token人民币只收0.99元,而且还有各种登录注册的推广奖金等等,所以希望各开发者和企业客户能使用。
因为今天我们需要打造全民的应用,非常非常重要的是要有非常好的模型,而且要非常快,非常便宜,否则我们打磨的App再不去花太多时间和金钱,融资不易,我们希望所有做App的朋友,用中国绝对最好的引擎,世界排名更高的引擎,而且它的收费基本是行业里非常低的了。
也有人问前阵子价格战,你们是否亏钱拉用户?我们不是,我们真实的成本还是比0.99元更低,我们还是有利润空间,所以欢迎大家使用,不用担心我们被你用垮了。
我觉得大模型应用与其说卖模型或模型做客服等应用,最好的是能够有一个大模型公司看到完整的用户需求,从端到端打造一个完整的解决方案,让购买大模型和数字人的公司能立刻看到每一使用就赚钱,用得越多赚得越多,这样他对我们的付费意愿也会增长。
在传统时代PC时代到Mobile时代,移动时代,所有应用都改朝换代了,PC时代用的四大门户网站,到Mobile时代就是用App,用小红书、抖音,PC时代看的优酷,在Mobile时代就是抖音了,人们有同样的需求,但是从PC到移动我们使用的App会完全改变了。
我们认为生成式AI今天这个时代会让每一个已有的应用再去改变,再被颠覆,做成AI First和AI Native的应用,这个应用迟迟没有出来,讲了很多,没有看到有这样的应用,而且我们今天看到真正最赚钱的是英伟达芯片公司,App公司还没怎么赚钱,所以我们认为特别核心的一点,就是我们要非常好的模型才能达到PMF,就是产品能够达到用户的需求。
如果非常好的模型很贵,这个App做一做就破产了,真正激活健康的生态系统,有非常多好的App,最关键的就是要有世界顶级的模型能做到白菜价,今天我们发布的Yi-Lightning模型就是世界上最符合我刚刚说的这句中的模型。
以下是对话核心内容:
提问:此前有消息称AI方面的六小虎,某几家放弃了预训练,开复老师已经辟谣了,但站在行业的角度您评估和看一下对预训练模型逐步放弃将是行业整个趋势吗?
李开复:我觉得做好预训练模型是一个技术活,而且是要非常多有才华的人在一起工作,慢工出细活,需要有懂芯片的人,懂推理的人,懂基础架构的人,懂模型的人,有很好的算法同学,一起做出来。
如果一个公司能有幸拥有这么多优秀的人才,能够跨领域的合作,那我相信中国是绝对可以做出世界排名前十的预训练的通用模型,但不是每家公司都可以做这件事情,做这件事情的成本也比较高,以后有可能会越来越少的大模型公司训练做预训练。
不过据我所知,这六家公司融资额度都是够的,我们做预训练的production run,训练一次三四百万美金,这个钱也是头部公司都付得起,我觉得中国的六家大模型公司只要有够好的人才,想做预训练的决心,融资额跟芯片都不会是问题的。
提问:OpenAI的o1发布后,从技术上所有人会认为带来新的Scaling的范式,您怎么看,特别对初创公司来说会有哪些影响?
李开复:我刚从美国回来,跟OpenAI的人员也有沟通,OpenAI真的是很厉害的公司,他们跟我分析的是公司内部还有一些好东西,但是他们不急拿出来,因为他们领先行业足够多,到了一定的业务节点才释放出来,这是他们能做而别人不能做。
OpenAI o1 虽然隐藏了所有中间的思考状态,但是很多人还是在网上开始猜它怎么做,我们认为有一些揣测还是比较靠谱,所以当你发了一个新的技术,这个技术被很多聪明人使用揣测,我觉得五个月以后应该也有不少类似o1 模型的能力出现在各个模型公司,包括零一万物。
o1 的思考模式是把之前只在预训练中 scaling 的趋势扩展到了推理的时候,这件事情对行业是最大的认知的改变。过去大家觉得谁预训练做好就够了,慢慢大家发现后训练SFT和强化训练都是非常重要。
所以零一万物的团队刚开始做的主要是专注预训练,之后又有很多很厉害的人加入,帮我们把Post train也做出来,现在看来 inference 也很重要,一年半以前大家觉得大模型最厉害的地方就是预训练,一年以后发现Post train也是同样重要,这感谢OpenAI点醒我们这一点,现在我相信很多中美公司都在往o1 方向狂奔。
提问:您之前说不做赔钱的to B,这次首次公布相关的矩阵,是否意味着也尝试往to B方向进一步深耕?第二个,往这个方向做是否意味着解决AI 1.0行业SaaS行业低利润和亏损的问题?
李开复:我们特别重视给每一个用户提供价值,所以我们不会去说有模型,你要拿来做什么,我卖给你,你先给钱,这样对用户是不会满足的。
另外一种常见的做法,就是到企业里,企业说我要做客服,模型卖给我,怎么做客服我不会做,你帮我做,这就成为和AI1.0时代一样的可以称为系统集成型的AI,也就是说卖模型给你,先帮你把客服应用做好,这样的情况下很难有利润,之前我说如果做一单赔一单的to B,零一万物宁可不做,这句话我们并没有改变。
刚才看到的AI 2.0数字人解决方案不是一个做一单赔一单,因为它是专注到用户重大的痛点需求和盈利点,也就是说一个店长或KOL平时做一次直播浪费最重要的资源,就是他的时间,而且这个时间就算做一小时的直播能赚到一千块钱,也就是一千块钱,但如果用数字人直播就不是一小时了,可能可以做一千个小时,哪怕每一个小时只能赚一半的钱,一千个小时还是可以赚五百倍的钱,这样的账就很好算了。
如果真的能把数字人做到端到端,只要输入公司内部的东西,这次减价的,选一个形象、声音按一个钮就开始百录甚至千录的直播,等于你是卖给这个企业一个印钞机,印钞机要收租赁费就是可行的了。除了直播以外,我们的AI 2.0数字人解决方案已经跑通了更多业务场景,比如AI伴侣、IP形象、办公会议等等。
我们继续执行模应一体战略,将Yi-Lightning模型能力与数字人解决方案结合,不断迭代产品,后续会解锁更多业务场景。
回到国内的SaaS的问题,国内现在很难说到SaaS,整个收费模式和商业模式在美国走通了,但国内还是一直有很大的问题。但也有一些行业可以走通SaaS,SaaS按使用收费,也可以订阅,按照每个月收费,也可以用分成,这些模式都可以综合称为比较好的商业模式,因为它不是一次性卖掉,像一个项目制的公司帮你做一个客服卖给你,你付钱就走了,以后没有钱可以收了,而是可以持续收费。
刚才讲的模式,无论分成、订阅的SaaS模式才是可持续的商业模式,今天我们并没有看到一个普遍被接受的SaaS模式的存在。所以在国内,我们大模型to B相对于AI 1.0时代有不同的打法,首要任务就是要寻找少数能够按使用情况收费的方法,而不是项目定制的方法,能得到比较高利润率的订单再去做。
整体来看,零一万物 ToB 整体解决方案会采取“一横一纵”的打法。和Yi-Large相比,Yi-lightning的模型性能又有大幅提升,作为国际 SOTA 的基座模型,他们本身就具备着出色的泛化性,再加上零一万物自身拥有很强大的SFT(监督学习)能力。
这些技术能力使得我们的团队能够先将单个行业做深做透,进而以自身技术能力和行业积累为基础,凝练出标准化的ToB解决方案,为各行各业的企业客户将本提效,将世界第一梯队的大模型用到实处,真正为企业带来业务增长和新竞争力。
提问:Yi-Large把我们中美顶尖模型的时间差缩短到六个月,这次我们的发布这边击败了GPT4o,把这个时间差甚至缩短到了五个月,从零一万物到整个中国大模型的初创公司来说,预训练模型要怎样的自己的独门特色,能继续追赶缩短这个时间差?
李开复:缩短时间差非常困难,我不预测我们可以缩短这个时间差。因为毕竟人家是用十万张GPU训练出来,我们用的是两千张GPU训练出来,我们时间差能达到只是因为我们模型、AI infra等团队都热心聪明,去使用和理解对方做出来的东西,再加上我们自己每家的研发有特色,比如数据处理、训推优化等等。
现在这一套方法论在零一万物已经成熟了,我们有信心把自己的创新加上我们的一些特长,在关注OpenAI和其他公司发布的新技术,尽快地去能够了解这些技术的核心重要性,然后把它的能力在我们自己的产品里面发挥出来,我觉得这套方法保持在六个月左右,就已经是很好的结果了。如果期待破局,可能需要一个前所未有的算法才有机会。
我们千万不要认为落后六个月是一个很羞耻的事情,或者一定是要追赶的事情,因为我很多美国朋友都认为中国会远远落后,也有美国朋友包括一些中国朋友按照这个打法,人家十万张GPU等,我们要被甩掉三年、五年甚至十年都有可能,现在从零一万物证明了不会落后这么多,而且这次LMSYS的榜单上也有两家其他中国公司表现也不错,也不是只有我们一家在做。
所以对于奋力图强、勤奋努力、聪明多元化的团队,在国内拥有这样团队的公司,要用类似零一万物的打法,去贴近美国最顶尖的公司,不落后超过六个月,我觉得是可能,而且不只是我们一家可能,但难度是高的,希望再往下减非常困难,除非真的有一个发明和科技上的突破。
提问:零一万物这么厉害的一个模型,居然拿出白菜的价格,价格这么低会不会亏本?
李开复:零一万物在Yi-Lightning的定价上并没有亏本。从成立的第一天起,零一万物就同时启动了模型训练、AI Infra、AI 应用三大团队。当三个团队都成熟了以后,再对接到一起。
零一万物这一模式总结为模基共建、模应一体两大战略——AI Infra能力助力模型训练和推理,以更低的训练成本训练出性能领先的模型,以更低的推理成本支撑应用层的探索。出色的模型性能与低廉的推理成本不仅能支撑零一万物开拓绝佳的ToB应用场景,还能让零一万物推出的大模型ToB解决方案更具性价比,进而与企业合作伙伴一起探寻大模型时代的TC-PMF。
之前回应行业价格战时,我的回答就是零一万物不参与价格战。另外,我当时也提到,不能只看模型价格,还要看模型性能是否足够好。当时有很多性能较差的模型价格降到非常低,甚至是免费,我相信当时选择接入这类模型API的企业与个人,收获都不达预期。要接入API,足够好的模型性能很重要,不然产品无法达到PMF。
另外很重要的一点就是把高性能模型的价格降到白菜价,0.99元人民币/百万 token 的价格很便宜,但如果一个应用里每个用户每天调掉十几次,累积下来每年的成本还是不容忽视的。零一万物也在做App,我们知道做App需要控制成本。
所以我们不会赔钱卖模型,但也不会赚很多钱,而是在成本线上加一点点小小的利润,就得到了今天0.99元/百万token的价格。
挑选模型API最重要的一点,就是模型性能一定要优秀,在这个前提之下才能去挑最便宜的,实际算一算用户掉用量会是多少,账算不算得过来。我相信,综合Yi-Lightning的模型质量和价格来看,Yi-Lightning很可能是很多开发者最认可、最高性价比的模型了。
提问:此次公布的 ToB 解决方案矩阵是完整的吗?近期是否还会公布其他 ToB 解决方案?
李开复:除了我们已经发布的AI 2.0数字人、API之外,零一万物目前还有 AI Infra 解决方案、私有化定制模型等其他 ToB 业务,我们会在近期正式对外发布,敬请期待。