阶跃星辰Step 最不可能作弊的榜单登上

作者： 2024年11月20日快报浏览

在“最难AI榜”，拿下中国第一、全球第五。

｜王艺‍‍‍

｜栗子‍‍‍

11月19日，国际权威榜单LiveBench官网公布了最新的语言大模型测评结果：作为唯一进入前十名的中国公司，阶跃星辰自研的万亿参数语言大模型 Step-2-16k-202411（下文简称Step-2）位列全球第五，成绩逼近OpenAI的o1-mini-2024-09-12，超越 gpt-4o-2024-08-06、gemini-1.5-pro-002等国际主流模型，是表现最佳的中国基座大模型。

图源： LiveBench官网

根据榜单， Step-2在IF Average（Instruction Following）一项表现突出，超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型 。

在AI届， LiveBench榜单一直以严苛的标准被人称为“最难AI榜”。而在国内AI“六小强”中阶跃星辰一直以技术实力强和低调著称，此次登顶LiveBench榜单中国第一，也掀开了这家大模型创业公司的神秘面纱。

1.最权威榜单的最惊艳亮相

事实上，LiveBench是今年新推出的大模型基准测试，但它已经迅速跻身为AI圈“最具权威性和挑战性”的榜单。

不仅因为LiveBench是由图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）联合 Abacus.AI、纽约大学等机构推出的大模型测评基准，更因为它特殊的评测机制，被行业内誉为“无法被操纵的LLM基准测试”。

图源：LiveBench官网

LiveBench自设立之初就致力于消灭“刷榜作弊”的可能性：在评估前就用评估基准数据集相关或完全相同的数据进行训练，最终取得较高排名（就像手机厂商针对安兔兔跑分优化一样）。

而且LiveBench每月会发布新问题，并根据最近发布的数据集、arXiv论文、新闻文章和IMDb电影简介设计问题，以限制可能出现的数据污染现象，并且每个问题都有可验证的、客观的基本真实答案，最大限度保证结果的客观性。

LiveBench的权威性也部分源自评测范围广泛，截至今年6月，已经评估了几个著名的闭源模型和数十个开源模型。

LiveBench有多难？此前GPT-4-Turbo曾在SuperCLUE-OPEN基准上取得了98.40的高分。但在LiveBench上，GPT-4-Turbo整体准确率却只有50%左右。

在这样严苛的测试标准下，阶跃星辰Step-2-16k-202411万亿参数MoE模型不仅拿下了中国第一、全球第五的名次，其成绩更是超越了GPT-4o-2024-08-06 、gemini-1.5-pro-002等国际主流模型，直逼OpenAI 的o1-mini-2024-09-12。

尤为值得一提的是， Step-2在IF Average（Instruction Following，指令跟随）一项表现突出，超越了包括o1-preview-2024-09-12 在内的所有国内外语言大模型 。这项指标意味着大模型在语言生成上对细节有最强的控制力，模型能够更好地理解和遵循人类指令。

Step-2-16k-202411指令跟随能力全榜第一，图源：LiveBench

2.模型能力不断进化，指令跟随全榜第一

阶跃星辰之所以能够首次参加LiveBench评测就取得如此高的成绩，与其自研Step-2大模型的两大特点密不可分—— 万亿参数和MoE架构。

相对于阶跃星辰自研的千亿参数语言大模型Step-1，Step-2的综合能力提升了近50%，无论是编程、逻辑推理、数学、知识等维度都能更好地解决问题。

在模糊指令方面，Step-2具备出色的理解能力，能够从上下文中推断出用户的需求，精准捕捉用户在模糊指令中的真实意图，提供更准确、个性化的响应。在知识分布方面，Step-2在知识覆盖范围和深度上都取得显著突破，不仅能够处理常见领域知识，还能深入理解和回答在特定领域或边缘分布中的复杂问题。

我们在阶跃星辰的C端智能助手「跃问」上测试了Step-2的效果。

给出一道数学题，「跃问」能很快给出条理明晰的正确答案：

Step-2大模型解答数学题，图源：跃问

在文字创作方面，Step-2能够生成高质量、有创意的文字内容，同时具备出色的细节控制能力，能够根据用户的指令对文本进行精确地调整和优化。

阶跃星辰CEO姜大昕认为，想把模型参数扩大到万亿的话，MoE几乎是一个必选项。但从千亿模型到万亿模型，所遇到的挑战是前所未有的。阶跃星辰团队在设计Step-2 MoE架构时候选择了迎难而上，完全自主研发从头开始训练。

通过部分专家共享参数、异构化专家设计等创新MoE架构设计，Step-2中的每个“专家模型”都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分稠密模型。

这也是Step-2之所以具有超强能力的根本原因所在。

3.模型矩阵完善，战略布局全面

大模型算法结构复杂、对算力要求高、对数据需求大，大语言模型和多模态大模型的技术路线也存在差异。也正是因此，不少公司都选择了“取其一点、打穿打透”的策略，专攻大语言模型或多模态大模型。

但阶跃不同。在众多国产模型厂商中，阶跃星辰是为数不多同时布局大语言模型与多模态模型、两个方向齐发力的公司。

除了完整、全面的模型矩阵，阶跃星辰的模型迭代速度也走在全国前列：

在2024年3月23日的全球开发者先锋大会上，阶跃发布了语言大模型Step-2的预览版——这也是国内初创公司，首次交出的万亿参数模型的答卷。

而今年7月，仅仅时隔100天，阶跃星辰就在2024 WAIC上发布了Step-2万亿参数大语言模型正式版，以及Step-1.5V多模态大模型、Step-1X图像生成大模型。

相较于其他厂商每半年或一年才更新一个新版本，阶跃星辰的迭代速度不可谓不快。

目前，阶跃星辰 Step 系列通用大模型矩阵，已经覆盖了从千亿参数到万亿参数，从语言到多模态，从理解到生成的全面能力。

阶跃星辰创始人兼CEO姜大昕认为，要实现AGI的终局需要走一条“ 单模态—多模态—多模理解和生成的统一—世界模型—AGI（通用人工智能） ”的路。

今年随着o1的发布，AI技术也出现了新的范式，国内外基座大模型研发的竞赛还在继续。相信包括阶跃星辰的国产大模型，会继续在实现AGI之路上创造更多惊喜。

上海WAIC大会现场“大闹天宫”：模型够猛，产品够酷，公司够强

上海世界人工智能大会，AI大模型“大闹天宫”现场，吸引了众多观众驻足。这一互动体验，只需一张正面照片，就能生成天庭打工人形象，还能测出与《大闹天宫》联动的MBTI人格，并获得天上的官职，体验“何不美哉”的乐趣。这背后，是国产大模型团队阶跃星辰的创新成果。阶跃星辰不仅在模型能力上不断突破，更在多模态大模型和万亿MoE大模型领域有所建树，展示了其在大模型创业“六小强”中的实力。阶跃星辰推出的Step系列模型，包括了万亿参数MoE语言大模型和多模态大模型。万亿参数MoE语言大模型Step-2的正式版，采用MoE架构，官方称其在数理逻辑、编程、中文知识、英文知识、指令跟随等方面接近GPT-4水平。在多模态大模型领域，Step-1.5V多模态大模型和Step-1X图像生成大模型的发布，展示了其在多模理解和生成上的统一追求。此外，针对中国元素深度优化的Step-1X，也符合国人审美，展现了阶跃星辰在模型与产品之间融合的策略。阶跃星辰的产品布局涵盖了自有产品和合作产品。自有产品跃问作为个人效率助手，具备联网搜索、代码分析增强等能力，提供信息查询、语言学习、创意写作、图文解读等服务。合作产品则以《大闹天宫》AI互动体验为代表，将动画电影与AI技术结合，通过上传照片生成与之融合的剧情和角色形象，体验与电影情境的深度互动。阶跃星辰在AI应用与生态布局上的探索，不仅展示了其在技术创新和产品开发上的实力，也体现了其对AI应用生态的重视。随着AI2.0时代的到来，阶跃星辰作为创业玩家之一，通过自研基础大模型、构建商业模式和获得资本市场的认可，已经在AI大模型创业领域占据了一席之地，展现了其在大模型创业“六小强”中不可忽视的角色。

阶跃星辰正式发布万亿MoE大模型

阶跃星辰，这家于今年3月才崭露头角的国产大模型公司，其发展速度堪称“阶跃速度”。在近期的世界人工智能大会（WAIC）上，阶跃星辰一次性推出了三款大模型：Step-2万亿MoE语言大模型正式版、Step-1.5V多模态大模型与Step-1X图像生成大模型，一举成为国内为数不多同时在大语言模型与多模态大模型领域实现产品正式发布的AI企业之一。其在多模态理解和生成上的布局，被视为通往人工智能通用（AGI）的必经之路。阶跃星辰的Step系列通用大模型荣获WAIC 2024 SAIL之星奖项，展示了其在AI领域的创新实力。在短短的100多天里，该公司迅速跻身于国产大模型的第一梯队。阶跃星辰发布的万亿参数大模型是此次发布中的亮点，仅在全球范围内屈指可数。从千亿参数的稠密模型起步，阶跃星辰通过自主研发完全从头开始训练，成功构建了Step-2万亿参数MoE大模型。相较于稠密模型，MoE模型在推理效率上具有明显优势，实际运行参数量仅为总参数量的1/4或1/8。阶跃星辰CEO姜大昕认为，从千亿到万亿参数的跨越，MoE模型几乎是最佳选择，因为它在性能、参数量、训练与推理成本之间实现了最佳平衡。除了万亿参数大模型，阶跃星辰还推出了两款多模态大模型：Step-1.5V千亿参数多模态大模型与图像生成大模型Step-1X。 Step-1.5V不仅在图像感知与理解能力上实现了全面提升，还具备了出色的视频理解能力，成为业内鲜有的能够处理视频理解的大型模型。 Step-1X则专注于图像生成能力，采用全链路自研的DiT模型架构，支持不同参数量的模型以适应不同应用场景。阶跃星辰通过自研产品与生态合作，形成了丰富的产业应用生态圈，不仅在内容领域取得了突破，还在金融、网络文学、知识服务、游戏、数字人、影视等多个领域与合作伙伴展开了深度合作，共同探索面向C端用户的创新应用。阶跃星辰正以其独特的国产AGI之路，展现出在人工智能领域的创新潜力与实力。

国产最强多模态大模型Step Fun-1V，究竟有多好用？

前言：2023年，大模型领域的竞争激烈，ChatGPT的火爆推动了这一领域的快速发展，国内掀起了百模大战的浪潮。各大科技公司、大厂争相推出大模型产品，希望在这一领域占据一席之地。在这个背景下，国产最强多模态大模型——阶跃星辰的面世，显得尤为引人注目。阶跃星辰团队实力强大，由前微软全球副总裁、微软亚洲互联网工程院首席科学家姜大昕博士创立，团队汇集了人工智能领域的顶尖人才，规模已扩展至150多人。在经过一年的潜心研发后，阶跃星辰在2024年3月正式发布了Step系列通用大模型，其中包括了Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型和Step-2万亿参数MoE语言大模型预览版。其中，Step-1V一经发布便登顶国内多模态榜首，紧随全球多模态排行榜前列，与OpenCompass发布的排行榜相呼应，展示了其在多模态领域的强大实力。阶跃星辰目前提供两款面向C端的创新产品：跃问，作为个人效率助手，帮助用户提升工作效率；冒泡鸭，作为AI互动平台，提供沉浸式的剧情角色扮演体验，深受年轻人喜爱。跃问和冒泡鸭分别在解读能力、联网检索能力、识图能力以及数据处理、逻辑输出等方面展现了强大的性能，整体使用体验良好。在多模态功能方面，阶跃星辰的产品表现全面，具体效果则需用户自行深入体验。阶跃星辰的内测版本Step-2万亿参数大模型正在研发中，令人期待。两款面向C端的产品均符合年轻人的口味，展现了当前大模型产品发展的主流趋势。除了阶跃星辰之外，MiniMax等其他公司也在探索智能问答体等产品。总结阶跃星辰的研发成果，其在多模态领域的探索与创新令人印象深刻。期待其未来在大模型领域的持续发展，为用户提供更多优质、创新的产品。尽管文章内容已达到要求，仍鼓励读者对阶跃星辰的产品给予关注与支持。