高通的自研架构芯片正在整合生成式AI世界

作者： 2024年11月19日直播浏览

机器之心报道

：泽南

身处 2024 年末的我们，已经能感觉到大模型就在身边。

新一代的旗舰手机上，动态壁纸、AI 画图、语音通话总结等功能一字排开，常用功能也有了新技术加持。

智能手机现在获得了与现实世界互动的能力。你可以拍照直接问手机「看到了什么」，它既能向你进行介绍，也可以对画面进行图像增强。

AI 领域最前沿的智能体也被塞进了手机，它可以像人类一样点击屏幕操纵不同的 App。你可以拿起手机用自然语言给出指令：「点三杯瑞幸的美式咖啡，大杯。」过一会儿 AI 就自动把外卖的店铺、商品和口味选好了，只等你来付款。

在新一代大模型和芯片的加持下，很多 AI 手机的体验有了质的升级，新引入的能力包括但不限于端侧 AI 智能体、多模态大模型应用、视频 AI 消除、超级 AI 助手等等。

值得注意的是，这些生成式 AI 的背后，都是高通的「骁龙 8 至尊版」在提供动力。作为业界最新的旗舰 SoC，它不负众望，在部分性能上对同行实现了「降维打击」。不仅有颠覆性的性能提升，还有跨时代的体验升级。

骁龙 8 至尊版：桌面级性能，移动端的能效

今年的骁龙究竟通过什么引发了端侧 AI 的质变？

说到「骁龙 8 至尊版」，就不得不从今年如火如荼的 AI PC 领域说起。

今年 6 月，微软发布了专为 AI 设计的「Windows 11 + PC」。它是迄今为止速度最快、最智能的 Windows 个人电脑。凭借其中搭载的骁龙 X 系列 PC 平台，能够实现超过 45 TOPS（每秒万亿次操作）的 AI 算力，与此同时电池续航时间长达一整天。

这种新类型的 PC 结合先进的端侧大模型技术，拥有一系列独特的 AI 能力，不仅可以感知、理解世界的多模态信息，还能与人进行自然的交流，并执行复杂任务。

微软官方表示：在很长一段时间里，这是「独占」的能力。Windows 11 中的部分生成式 AI，只有在搭载 Oryon CPU 的骁龙芯片上才能正常运行。

没过几个月，这种级别的能力就进入到了手机上。 在上个月的骁龙峰会上，高通正式推出骁龙 8 至尊版（Snapdragon 8 Elite）移动平台，它是目前全球速度最快的移动端系统级芯片。

与上一代骁龙 8 Gen3 相比，骁龙 8 至尊版在 CPU 单核、多核性能直接提升 45%，GPU 性能提升 40%，NPU 输出的速度达到了 70+Tokens 每秒，与此同时整体 SoC 功耗还降低了 40%。

在性能提升的背后，骁龙 8 至尊版从里到外，有了脱胎换骨的改变：

首先是 CPU ，它成功地把高通自研架构的桌面级能力带到了手机上，采用第二代定制高通 Oryon CPU，由两个主频为 4.32 GHz 的「超级内核」和六个频率 3.53 GHz 的性能内核组成，取消了以往的能效核，既提供更好的性能，又提升了功耗效率。

GPU 方面 ，高通对 Adreno GPU 架构进行了重新设计，为每个切片分配了专用内存，性能提升了 40%，功耗降低 40%，光线追踪性能也提升了 35%。

AI 能力方面 ，在骁龙 8 至尊版上，全新架构的 Hexagon NPU 性能提升 45%，能效提升 45%，这得益于所有加速器内核的吞吐量提升。此外，结合全面提升的 CPU 和 GPU，该芯片能够跨所有核心动态管理 AI 负载，相比上一代，基础大语言模型 token 生成速率提升了 100%。

在这些新技术的加持下，搭载骁龙新平台的智能手机不仅可以满帧跑 3A 游戏大作，还可以运行一系列终端侧多模态生成式 AI 应用，带来改变人们使用习惯的体验，包括强大的 AI 影像功能、下一代游戏 AI、超级智能助手等。

重构的不止硬件：大模型优化「呼朋唤友」

除了芯片本身，高通在做的另一件事是软硬件的整合。骁龙 8 至尊版的发布几乎被办成了一场生成式 AI 技术的 Demo 大会。

这块移动芯片的发布，获得了各路科技公司大佬的祝福。在发布时，OpenAI CEO 山姆・奥特曼、微软 CEO 萨提亚・纳德拉、Meta CEO 马克・扎克伯格等人纷纷连线进行了背书。

这三位分别阐述了生成式 AI 在 PC、增强现实设备、大模型应用等方向的愿景。 此时此刻，他们都把目光聚焦在了端侧 AI 上。

正如奥特曼所说，云端和端侧的生成式 AI 形态是互相成就的关系：服务器擅长训练大模型，而利用端侧设备的算力则可以保护个人隐私，同时提升服务的可靠性。

由于大语言模型相当耗费算力，此前生成式 AI 的技术落地大多是在云端，将更多能力部署在端侧则是未来的必然趋势。除了微软、Meta 等硅谷巨头，很多国内厂商也同高通在新一代硬件上展开了合作。

致力于对标 OpenAI 的智谱就与高通共同宣布，已围绕骁龙 8 至尊版，对最新一代 端侧视觉大模型 GLM-4V 进行了深度适配和推理优化。在端侧部署后，手机等设备现在已可以支持丰富的多模态交互方式，让人们获得更加情境化、个性化的终端侧智能体验。

国内大厂腾讯的混元大模型，也在高通的帮助下完成了端侧部署，在骁龙 8 至尊版移动平台上， 混元大模型 7B 和 3B 版本 展示了优化后的运行表现。

结合高通完善的 AI 软件栈，包括高通 AI 模型增效工具包（AIMET）等，骁龙 8 至尊版可以为大语言模型提供从底层硬件到框架的全面优化。通过使用基于硬件的 INT4 量化技术，骁龙大幅提升了混元大模型在终端侧的运行效率，端侧推理可以做到首个 token 生成时延仅有 150ms，解码速率超过了 30 token/s。

此前，腾讯混元大模型已为腾讯自家的大量 App 提供了底层支持，包括微信输入法、腾讯手机管家、QQ、腾讯视频、QQ 浏览器、企业微信、腾讯会议等，覆盖超过 700 个业务场景。

在经过高通技术栈的深度优化后，很多亟待落地的大模型已经达到了端侧可用的程度。

比如，腾讯手机管家的短信智能识别功能，基于混元端侧模型现在已经跑通，具备了更强的语义理解能力，可以更准确地理解短信意图，短信召回率提高了将近 200%，识别准确率提升 20%。由于短信经常会涉及用户的个人信息，端侧 AI 还可以在保证出色性能的同时，有效保护用户的个人信息隐私安全。

经过高通与合作伙伴们的整合，端侧大模型从芯片到应用的优化路径得以打通。或许在未来的某一天，你会发现天天在用的 App 在某次更新后，就多出了生成式 AI 功能。

端侧 AI 堆栈，合纵连横

推出了至尊版芯片的高通，其想要拓展的版图还不止 PC 和移动端。

高通 CEO 安蒙在骁龙峰会上表示：「高通一直是推动无线通信产业发展进程的公司，也是最专注于无线技术的公司。但我们也积极迎接变化，高通不仅仅是一家专注无线连接的公司，更将成为连接的计算公司以适应新时代的人工智能处理。更令人振奋的是，骁龙现在不仅引领着移动行业的创新，还在推动着其他行业的进步。」

上个月与骁龙 8 至尊版一同发布的芯片，还有骁龙座舱至尊版（Snapdragon CocKpit Elite）和骁龙 Ride 至尊版（Snapdragon Ride Elite）平台，它们专为汽车定制，分别面向智能座舱和自动驾驶。

其中，骁龙座舱至尊版使用的 Oryon CPU 围绕车用平台进行了多方面的提升。它的 CPU 算力较上一代提升了三倍，AI 性能也有飞跃式增长，达到了前代产品的 12 倍。此外它也通过软件虚拟化和多操作系统等机制，支持实现了车机任务的灵活的集中式处理，满足了汽车安全标准。

现在，车厂能够在同一块 SoC 上无缝运行数字座舱和智能驾驶等功能，真正实现了近年来一直在追求的硬件架构统一。

骁龙座舱至尊版平台和 Snapdragon Ride 至尊版平台将于 2025 年出样。理想汽车已经官方宣布，将率先搭载高通最新发布的骁龙至尊版汽车平台。

在骁龙峰会上，理想展示了自家智能座舱的一系列功能，从语音助手、旅行助手到智能问答。

骁龙至尊版汽车平台是骁龙「数字底盘」解决方案组合中的最新产品，除了高算力的芯片，高通还提供智能驾驶和 AI 软件栈体系，提供端到端的智能驾驶系统，具备视觉感知、传感器融合、路径规划、定位和整车控制等先进特性。

在采用 Oryon CPU 的骁龙 8 至尊版发布之后，再加上高通自研的 Adreno GPU、Spectra ISP 和 Hexagon NPU 等，高通补齐了自研 SoC 的最后一块拼图，也统一了 PC、手机、汽车三条产品线的芯片架构。

自研芯片架构的意义，在于能够根据不同产品线的需求，对 CPU 进行微架构层面的调优和定制。与此同时，高通 AI 软件栈（AI Stack）也在不同产品线的 AI 部署中作用显著。

至此， 从芯片、大模型到 App 的纵向，以及从手机、PC 到汽车的横向，高通已经做到了 AI 能力的全链路打通 。

正如大模型公司不断通过新技术优化降低大模型使用门槛，高通的布局正在帮助众多 OEM 厂商和应用公司，把越来越多的生成式 AI 技术，从不可能变为可能。

生成式 AI 可能会「无处不在」

大模型的落地推动到现在，人们已经越来越重视起端侧能力的体验。

从 AI 技术领域里，研究「小模型」（SLM）的趋势开始，在科技公司的努力下，端侧模型从文本到图像，再到多模态的一步步逐步落地。如今，高通端侧芯片的 AI 能力，完整的开发平台以及统一的生态体系，已经为生成式 AI 的大规模应用铺平了道路。

不过，高通的「至尊版」芯片只是起点。经由全链路的技术推动，我们还将见证不久的未来，很多事物改头换面。

其实在最近的发布活动中，我们已经看到了端倪。在《永劫无间》手游的测试版本中，骁龙 8 至尊版除了利用 CPU、GPU 能力带来高帧且稳定的游戏体验，还在端侧跑起了 18 亿参数的大语言模型。配合高通 AI 软件栈从硬件到软件的全栈优化，网易在手游的端侧直接打造出了 AI 队友功能。

现在，玩家们在游戏里拥有了可以语音交互的 AI 队友，他们在战斗过程中不仅能够听玩家指令行事，还会在你不会的时候进行提示。

如果说在手游这样高能耗的应用上，我们已能用得起大模型的智能体，那么在日常的应用上，AI 智能体就更可以为我们架起桥梁，让很多功能实现高度的自动化，甚至消除 App 之间的壁垒。再延伸到 AI PC、汽车甚至机器人，高通的技术栈，或许还能把不同的硬件连成一体。

正如奥特曼所说，高通在所有边缘端设备上都拥有强大的技术，能够应用 AI 模型汇集全球几十亿用户。现在仅仅是生成式 AI 的开始，未来将会出现什么？是发挥想象力的时候了。

移动PC市场破局者，骁龙X Elite将笔记本AI功能提升到全新高度

中旬已至，笔记本选购热潮正在兴起。市场选择多样，搭载骁龙X Elite的PC新品逐渐崭露头角。宏碁、华硕、戴尔、惠普、荣耀、联想、微软、三星和小米等品牌纷纷推出骁龙X Elite机型，重塑笔记本定义，颠覆认知。骁龙X Elite以全新理念重塑笔记本平台，性能、能效大幅提升，且深度集成AI元素，致力于打造专为笔记本AI体验设计的移动平台。此举在市场中形成巨大冲击，骁龙X Elite成为移动PC市场的创新者。高通技术公司高级副总裁兼计算与游戏业务总经理Kedar Kondap表示，骁龙X Elite标志着计算技术创新的重大飞跃。 Oryon CPU性能强大，实现惊人的能效提升，推动创造力与生产力达到新高度。强大的终端侧AI支持无缝多任务处理，提供直观体验，赋能消费者与企业。骁龙X Elite在性能、能效、AI能力上超越同类竞品，采用4nm制程工艺，集成自研Oryon CPU、Adreno GPU和Hexagon NPU，实现性能与能效显著升级，异构计算方式强化AI能力，将笔记本AI功能提升至全新高度。集成的Hexagon NPU是骁龙X Elite的秘密武器，高通专为处理人工智能任务设计，大幅提升AI算力。与骁龙8Gen3相比，AI算力提升近一倍，AI算力达到45TOPS，AI处理速度是同类竞品的4.5倍。 UL Procyon AI测试中，搭载骁龙X Elite的工程机跑分高达1770分，远超酷睿i7-H。骁龙X Elite支持国际主流AI大模型，包括OpenAI、网络文心一言、Meta等，实现图文生成、多模态生成式AI模型与终端侧个性化产品。搭载骁龙X Elite的样机测试显示，AI互动自然流畅，ChatGPT应用表现接近有思想、有情感的正常人类，超越传统机械感语音助手。高通积极拓展与生态伙伴合作，打造丰富多样的AI生态，为用户提供多样化选择。搭载骁龙X Elite的笔记本电脑在AI功能、性能与能效上均表现出色，成为笔记本市场的创新与突破。

骁龙8 Gen3将AI作为关键创新点，为智能手机AI体验带来全新变革

随着AI技术在智能手机中的广泛应用，高通在2023年10月推出的骁龙8 Gen3，以其对AI的深度集成和创新为焦点，引领了智能手机AI体验的全新革命。这款移动平台将AI置于核心位置，通过高通AI引擎的融合式AI加速结构，整合了Kryo GPU、Adreno GPU、Hexagon NPU、Spectra ISP等多种硬件资源，形成一个系统级的AI支持体系，提升了整个平台的AI性能。高通的异构计算策略，始于2015年的骁龙820，通过Adreno GPU、Hexagon DSP和Kryo CPU的协同工作，奠定了异构计算的基础。骁龙8 Gen3在此基础上，进一步升级Hexagon DSP为Hexagon NPU，使其成为平台的主导力量，不仅增强了AI处理能力，还优化了硬件间的协调工作，提升了整体能效。这种方案要求硬件具备极高的性能，高通凭借其对CPU和GPU的自主研发能力，使得AI异构计算成为可能，区别于其他芯片制造商。从骁龙8 Gen1开始，高通AI在产品路线图中的地位不断提升，成为高通产品竞争力的关键组成部分。骁龙8 Gen3尤其强调了全平台AI加速，AI性能比前代提升了98%，使得手机能在本地独立处理大型AI计算，突破了对网络和服务器的依赖。其强大的本地AI算力支持Meta Llama 2等大模型生成式AI，以及每秒高达20 Token的处理能力，显示了其在AI应用上的广泛可能性。未来，高通AI引擎的融合架构为软件算法升级提供了空间，使得骁龙8 Gen3能够根据AI技术的发展动态增强其功能，以满足用户日益增长的多元化和个性化的AI需求。这标志着骁龙8 Gen3在智能手机AI体验领域实现了显著的创新和飞跃。

高通首次解读AI技术白皮书，解密NPU三大杀手锏

高通发布《通过NPU和异构计算开启终端侧生成式AI》技术白皮书中文版，深入解读AI技术。随着生成式AI应用多样化和垂直领域计算需求增长，产业需为AI定制新计算架构。高通认为，新架构需包括面向生成式AI设计的神经网络处理器（NPU），利用CPU、GPU等异构处理器实现性能、能效、续航优化。 NPU核心差异化优势在于系统级解决方案、定制设计和快速创新。异构计算重要性同样被强调，发挥各处理器优势，如NPU适用于核心AI工作负载。高通AI引擎包含Hexagon NPU、Adreno GPU、CPU、传感器中枢和内存子系统，性能和能效显著提升。高通AI引擎广泛应用，产品出货量超过20亿，覆盖智能手机、XR、平板、PC、安防、机器人和汽车等。高通推动端侧生成式AI开发和应用，通过定制芯片设计、全栈AI优化和生态系统赋能。