机器之心报道
:泽南
身处 2024 年末的我们,已经能感觉到大模型就在身边。
新一代的旗舰手机上,动态壁纸、AI 画图、语音通话总结等功能一字排开,常用功能也有了新技术加持。
智能手机现在获得了与现实世界互动的能力。你可以拍照直接问手机「看到了什么」,它既能向你进行介绍,也可以对画面进行图像增强。
AI 领域最前沿的智能体也被塞进了手机,它可以像人类一样点击屏幕操纵不同的 App。你可以拿起手机用自然语言给出指令:「点三杯瑞幸的美式咖啡,大杯。」过一会儿 AI 就自动把外卖的店铺、商品和口味选好了,只等你来付款。
在新一代大模型和芯片的加持下,很多 AI 手机的体验有了质的升级,新引入的能力包括但不限于端侧 AI 智能体、多模态大模型应用、视频 AI 消除、超级 AI 助手等等。
值得注意的是,这些生成式 AI 的背后,都是高通的「骁龙 8 至尊版」在提供动力。作为业界最新的旗舰 SoC,它不负众望,在部分性能上对同行实现了「降维打击」。不仅有颠覆性的性能提升,还有跨时代的体验升级。
骁龙 8 至尊版:桌面级性能,移动端的能效
今年的骁龙究竟通过什么引发了端侧 AI 的质变?
说到「骁龙 8 至尊版」,就不得不从今年如火如荼的 AI PC 领域说起。
今年 6 月,微软发布了专为 AI 设计的「Windows 11 + PC」。它是迄今为止速度最快、最智能的 Windows 个人电脑。凭借其中搭载的骁龙 X 系列 PC 平台,能够实现超过 45 TOPS(每秒万亿次操作)的 AI 算力,与此同时电池续航时间长达一整天。
这种新类型的 PC 结合先进的端侧大模型技术,拥有一系列独特的 AI 能力,不仅可以感知、理解世界的多模态信息,还能与人进行自然的交流,并执行复杂任务。
微软官方表示:在很长一段时间里,这是「独占」的能力。Windows 11 中的部分生成式 AI,只有在搭载 Oryon CPU 的骁龙芯片上才能正常运行。
没过几个月,这种级别的能力就进入到了手机上。 在上个月的骁龙峰会上,高通正式推出骁龙 8 至尊版(Snapdragon 8 Elite)移动平台,它是目前全球速度最快的移动端系统级芯片。
与上一代骁龙 8 Gen3 相比,骁龙 8 至尊版在 CPU 单核、多核性能直接提升 45%,GPU 性能提升 40%,NPU 输出的速度达到了 70+Tokens 每秒,与此同时整体 SoC 功耗还降低了 40%。
在性能提升的背后,骁龙 8 至尊版从里到外,有了脱胎换骨的改变:
首先是 CPU ,它成功地把高通自研架构的桌面级能力带到了手机上,采用第二代定制高通 Oryon CPU,由两个主频为 4.32 GHz 的「超级内核」和六个频率 3.53 GHz 的性能内核组成,取消了以往的能效核,既提供更好的性能,又提升了功耗效率。
GPU 方面 ,高通对 Adreno GPU 架构进行了重新设计,为每个切片分配了专用内存,性能提升了 40%,功耗降低 40%,光线追踪性能也提升了 35%。
AI 能力方面 ,在骁龙 8 至尊版上,全新架构的 Hexagon NPU 性能提升 45%,能效提升 45%,这得益于所有加速器内核的吞吐量提升。此外,结合全面提升的 CPU 和 GPU,该芯片能够跨所有核心动态管理 AI 负载,相比上一代,基础大语言模型 token 生成速率提升了 100%。
在这些新技术的加持下,搭载骁龙新平台的智能手机不仅可以满帧跑 3A 游戏大作,还可以运行一系列终端侧多模态生成式 AI 应用,带来改变人们使用习惯的体验,包括强大的 AI 影像功能、下一代游戏 AI、超级智能助手等。
重构的不止硬件:大模型优化「呼朋唤友」
除了芯片本身,高通在做的另一件事是软硬件的整合。骁龙 8 至尊版的发布几乎被办成了一场生成式 AI 技术的 Demo 大会。
这块移动芯片的发布,获得了各路科技公司大佬的祝福。在发布时,OpenAI CEO 山姆・奥特曼、微软 CEO 萨提亚・纳德拉、Meta CEO 马克・扎克伯格等人纷纷连线进行了背书。
这三位分别阐述了生成式 AI 在 PC、增强现实设备、大模型应用等方向的愿景。 此时此刻,他们都把目光聚焦在了端侧 AI 上。
正如奥特曼所说,云端和端侧的生成式 AI 形态是互相成就的关系:服务器擅长训练大模型,而利用端侧设备的算力则可以保护个人隐私,同时提升服务的可靠性。
由于大语言模型相当耗费算力,此前生成式 AI 的技术落地大多是在云端,将更多能力部署在端侧则是未来的必然趋势。除了微软、Meta 等硅谷巨头,很多国内厂商也同高通在新一代硬件上展开了合作。
致力于对标 OpenAI 的智谱就与高通共同宣布,已围绕骁龙 8 至尊版,对最新一代 端侧视觉大模型 GLM-4V 进行了深度适配和推理优化。在端侧部署后,手机等设备现在已可以支持丰富的多模态交互方式,让人们获得更加情境化、个性化的终端侧智能体验。
国内大厂腾讯的混元大模型,也在高通的帮助下完成了端侧部署,在骁龙 8 至尊版移动平台上, 混元大模型 7B 和 3B 版本 展示了优化后的运行表现。
结合高通完善的 AI 软件栈,包括高通 AI 模型增效工具包(AIMET)等,骁龙 8 至尊版可以为大语言模型提供从底层硬件到框架的全面优化。通过使用基于硬件的 INT4 量化技术,骁龙大幅提升了混元大模型在终端侧的运行效率,端侧推理可以做到首个 token 生成时延仅有 150ms,解码速率超过了 30 token/s。
此前,腾讯混元大模型已为腾讯自家的大量 App 提供了底层支持,包括微信输入法、腾讯手机管家、QQ、腾讯视频、QQ 浏览器、企业微信、腾讯会议等,覆盖超过 700 个业务场景。
在经过高通技术栈的深度优化后,很多亟待落地的大模型已经达到了端侧可用的程度。
比如,腾讯手机管家的短信智能识别功能,基于混元端侧模型现在已经跑通,具备了更强的语义理解能力,可以更准确地理解短信意图,短信召回率提高了将近 200%,识别准确率提升 20%。由于短信经常会涉及用户的个人信息,端侧 AI 还可以在保证出色性能的同时,有效保护用户的个人信息隐私安全。
经过高通与合作伙伴们的整合,端侧大模型从芯片到应用的优化路径得以打通。或许在未来的某一天,你会发现天天在用的 App 在某次更新后,就多出了生成式 AI 功能。
端侧 AI 堆栈,合纵连横
推出了至尊版芯片的高通,其想要拓展的版图还不止 PC 和移动端。
高通 CEO 安蒙在骁龙峰会上表示:「高通一直是推动无线通信产业发展进程的公司,也是最专注于无线技术的公司。但我们也积极迎接变化,高通不仅仅是一家专注无线连接的公司,更将成为连接的计算公司以适应新时代的人工智能处理。更令人振奋的是,骁龙现在不仅引领着移动行业的创新,还在推动着其他行业的进步。」
上个月与骁龙 8 至尊版一同发布的芯片,还有骁龙座舱至尊版(Snapdragon CocKpit Elite)和骁龙 Ride 至尊版(Snapdragon Ride Elite)平台,它们专为汽车定制,分别面向智能座舱和自动驾驶。
其中,骁龙座舱至尊版使用的 Oryon CPU 围绕车用平台进行了多方面的提升。它的 CPU 算力较上一代提升了三倍,AI 性能也有飞跃式增长,达到了前代产品的 12 倍。此外它也通过软件虚拟化和多操作系统等机制,支持实现了车机任务的灵活的集中式处理,满足了汽车安全标准。
现在,车厂能够在同一块 SoC 上无缝运行数字座舱和智能驾驶等功能,真正实现了近年来一直在追求的硬件架构统一。
骁龙座舱至尊版平台和 Snapdragon Ride 至尊版平台将于 2025 年出样。理想汽车已经官方宣布,将率先搭载高通最新发布的骁龙至尊版汽车平台。
在骁龙峰会上,理想展示了自家智能座舱的一系列功能,从语音助手、旅行助手到智能问答。
骁龙至尊版汽车平台是骁龙「数字底盘」解决方案组合中的最新产品,除了高算力的芯片,高通还提供智能驾驶和 AI 软件栈体系,提供端到端的智能驾驶系统,具备视觉感知、传感器融合、路径规划、定位和整车控制等先进特性。
在采用 Oryon CPU 的骁龙 8 至尊版发布之后,再加上高通自研的 Adreno GPU、Spectra ISP 和 Hexagon NPU 等,高通补齐了自研 SoC 的最后一块拼图,也统一了 PC、手机、汽车三条产品线的芯片架构。
自研芯片架构的意义,在于能够根据不同产品线的需求,对 CPU 进行微架构层面的调优和定制。与此同时,高通 AI 软件栈(AI Stack)也在不同产品线的 AI 部署中作用显著。
至此, 从芯片、大模型到 App 的纵向,以及从手机、PC 到汽车的横向,高通已经做到了 AI 能力的全链路打通 。
正如大模型公司不断通过新技术优化降低大模型使用门槛,高通的布局正在帮助众多 OEM 厂商和应用公司,把越来越多的生成式 AI 技术,从不可能变为可能。
生成式 AI 可能会「无处不在」
大模型的落地推动到现在,人们已经越来越重视起端侧能力的体验。
从 AI 技术领域里,研究「小模型」(SLM)的趋势开始,在科技公司的努力下,端侧模型从文本到图像,再到多模态的一步步逐步落地。如今,高通端侧芯片的 AI 能力,完整的开发平台以及统一的生态体系,已经为生成式 AI 的大规模应用铺平了道路。
不过,高通的「至尊版」芯片只是起点。经由全链路的技术推动,我们还将见证不久的未来,很多事物改头换面。
其实在最近的发布活动中,我们已经看到了端倪。在《永劫无间》手游的测试版本中,骁龙 8 至尊版除了利用 CPU、GPU 能力带来高帧且稳定的游戏体验,还在端侧跑起了 18 亿参数的大语言模型。配合高通 AI 软件栈从硬件到软件的全栈优化,网易在手游的端侧直接打造出了 AI 队友功能。
现在,玩家们在游戏里拥有了可以语音交互的 AI 队友,他们在战斗过程中不仅能够听玩家指令行事,还会在你不会的时候进行提示。
如果说在手游这样高能耗的应用上,我们已能用得起大模型的智能体,那么在日常的应用上,AI 智能体就更可以为我们架起桥梁,让很多功能实现高度的自动化,甚至消除 App 之间的壁垒。再延伸到 AI PC、汽车甚至机器人,高通的技术栈,或许还能把不同的硬件连成一体。
正如奥特曼所说,高通在所有边缘端设备上都拥有强大的技术,能够应用 AI 模型汇集全球几十亿用户。现在仅仅是生成式 AI 的开始,未来将会出现什么?是发挥想象力的时候了。
移动PC市场破局者,骁龙X Elite将笔记本AI功能提升到全新高度
中旬已至,笔记本选购热潮正在兴起。 市场选择多样,搭载骁龙X Elite的PC新品逐渐崭露头角。 宏碁、华硕、戴尔、惠普、荣耀、联想、微软、三星和小米等品牌纷纷推出骁龙X Elite机型,重塑笔记本定义,颠覆认知。 骁龙X Elite以全新理念重塑笔记本平台,性能、能效大幅提升,且深度集成AI元素,致力于打造专为笔记本AI体验设计的移动平台。 此举在市场中形成巨大冲击,骁龙X Elite成为移动PC市场的创新者。 高通技术公司高级副总裁兼计算与游戏业务总经理Kedar Kondap表示,骁龙X Elite标志着计算技术创新的重大飞跃。 Oryon CPU性能强大,实现惊人的能效提升,推动创造力与生产力达到新高度。 强大的终端侧AI支持无缝多任务处理,提供直观体验,赋能消费者与企业。 骁龙X Elite在性能、能效、AI能力上超越同类竞品,采用4nm制程工艺,集成自研Oryon CPU、Adreno GPU和Hexagon NPU,实现性能与能效显著升级,异构计算方式强化AI能力,将笔记本AI功能提升至全新高度。 集成的Hexagon NPU是骁龙X Elite的秘密武器,高通专为处理人工智能任务设计,大幅提升AI算力。 与骁龙8Gen3相比,AI算力提升近一倍,AI算力达到45TOPS,AI处理速度是同类竞品的4.5倍。 UL Procyon AI测试中,搭载骁龙X Elite的工程机跑分高达1770分,远超酷睿i7-H。 骁龙X Elite支持国际主流AI大模型,包括OpenAI、网络文心一言、Meta等,实现图文生成、多模态生成式AI模型与终端侧个性化产品。 搭载骁龙X Elite的样机测试显示,AI互动自然流畅,ChatGPT应用表现接近有思想、有情感的正常人类,超越传统机械感语音助手。 高通积极拓展与生态伙伴合作,打造丰富多样的AI生态,为用户提供多样化选择。 搭载骁龙X Elite的笔记本电脑在AI功能、性能与能效上均表现出色,成为笔记本市场的创新与突破。
骁龙8 Gen3将AI作为关键创新点,为智能手机AI体验带来全新变革
随着AI技术在智能手机中的广泛应用,高通在2023年10月推出的骁龙8 Gen3,以其对AI的深度集成和创新为焦点,引领了智能手机AI体验的全新革命。 这款移动平台将AI置于核心位置,通过高通AI引擎的融合式AI加速结构,整合了Kryo GPU、Adreno GPU、Hexagon NPU、Spectra ISP等多种硬件资源,形成一个系统级的AI支持体系,提升了整个平台的AI性能。 高通的异构计算策略,始于2015年的骁龙820,通过Adreno GPU、Hexagon DSP和Kryo CPU的协同工作,奠定了异构计算的基础。 骁龙8 Gen3在此基础上,进一步升级Hexagon DSP为Hexagon NPU,使其成为平台的主导力量,不仅增强了AI处理能力,还优化了硬件间的协调工作,提升了整体能效。 这种方案要求硬件具备极高的性能,高通凭借其对CPU和GPU的自主研发能力,使得AI异构计算成为可能,区别于其他芯片制造商。 从骁龙8 Gen1开始,高通AI在产品路线图中的地位不断提升,成为高通产品竞争力的关键组成部分。 骁龙8 Gen3尤其强调了全平台AI加速,AI性能比前代提升了98%,使得手机能在本地独立处理大型AI计算,突破了对网络和服务器的依赖。 其强大的本地AI算力支持Meta Llama 2等大模型生成式AI,以及每秒高达20 Token的处理能力,显示了其在AI应用上的广泛可能性。 未来,高通AI引擎的融合架构为软件算法升级提供了空间,使得骁龙8 Gen3能够根据AI技术的发展动态增强其功能,以满足用户日益增长的多元化和个性化的AI需求。 这标志着骁龙8 Gen3在智能手机AI体验领域实现了显著的创新和飞跃。
高通首次解读AI技术白皮书,解密NPU三大杀手锏
高通发布《通过NPU和异构计算开启终端侧生成式AI》技术白皮书中文版,深入解读AI技术。 随着生成式AI应用多样化和垂直领域计算需求增长,产业需为AI定制新计算架构。 高通认为,新架构需包括面向生成式AI设计的神经网络处理器(NPU),利用CPU、GPU等异构处理器实现性能、能效、续航优化。 NPU核心差异化优势在于系统级解决方案、定制设计和快速创新。 异构计算重要性同样被强调,发挥各处理器优势,如NPU适用于核心AI工作负载。 高通AI引擎包含Hexagon NPU、Adreno GPU、CPU、传感器中枢和内存子系统,性能和能效显著提升。 高通AI引擎广泛应用,产品出货量超过20亿,覆盖智能手机、XR、平板、PC、安防、机器人和汽车等。 高通推动端侧生成式AI开发和应用,通过定制芯片设计、全栈AI优化和生态系统赋能。