RAG等 九大方向 覆盖多模态 大模型引领6G革命!最新综述探索 未来通信方式

新智元报道

:LRST

【新智元导读】 大语言模型(LLM)正在推动通信行业向智能化转型,在自动生成网络配置、优化网络管理和预测网络流量等方面展现出巨大潜力。未来,LLM在电信领域的应用将需要克服数据集构建、模型部署和提示工程等挑战,并探索多模态集成、增强机器学习算法和经济高效的模型压缩技术。

在当今这个快速发展的科技世界,人们很容易被最新的技术成果所吸引。而通信行业也不例外,随着5G网络的普及,6G的蓝图已经在学术界展开。

那么,未来的网络将如何应对前所未有的数据传输速率、亚毫秒级延迟和全球无缝连接的复杂挑战?答案或许就在人工智能的大语言模型(LLM)中,人工智能正在悄然改变着整个通信行业的格局。

尽管从3G、4G LTE到5G的技术进步令人瞩目,但随着网络规模和复杂性的急剧增加,网络管理的挑战也随之而来。6G的目标不仅仅是提供前所未有的连接能力,还包括将通信覆盖到偏远地区,甚至融入卫星通信。

然而,面对如此复杂的系统,传统的管理手段显得力不从心,机器学习(ML)技术的引入已经初见成效,但大语言模型的崛起则带来了全新的可能性。

大语言模型,最初用于自然语言处理任务,如今已经在医疗、金融、法律等多个领域展示了其强大的理解与推理能力。而在通信行业,这些模型开始展现出解决网络管理复杂性的新潜力。

无论是生成代码、解答电信领域问题,还是自动生成网络配置,大语言模型为6G网络的全面发展铺平了道路。那么,这一未来离我们有多远?大语言模型能否真正满足通信领域的独特需求?

为了探究这个问题,来自麦吉尔大学、西安大略大学和西蒙菲莎大学的学者们将探索大语言模型如何从语言任务的起源扩展到成为电信网络中不可或缺的工具。从优化3D无线信号传输环境到生成定制化网络配置,LLM正在推动智能高效的6G通信网络的建设,展望人类与人工智能携手共创的通信未来。

论文地址:https://arxiv.org/abs/2405.10825

发表期刊:IEEE Communications Surveys & Tutorials

大语言模型在通信生成任务中的应用场景

相比于传统的通信网络管理方式,大语言模型(LLM)通过其强大的生成能力,在多个通信生成任务中展现出了巨大的潜力。LLM不仅能够加速网络配置和代码生成,还能自动生成复杂的技术知识和故障排除方案。

1. 专业知识生成: 大语言模型可以快速从庞大的技术文献中提取并生成专业的电信知识。与其他传统方法相比,LLM能够自动生成复杂标准和研究成果的详细解释和总结,使得复杂的通信领域知识更易于获取并理解。

2. 代码生成与优化: LLM不仅能生成基础代码,还可以进行代码重构,优化通信系统中的软件模块。例如,它能逐步生成复杂的多步骤代码,如网络调度算法和硬件描述语言(Verilog)的优化模块,有效提高代码的效率和可维护性。

3. 网络配置生成: 通过将高层用户意图自动转换为可执行的低层设备配置,LLM在网络配置生成方面表现出色。结合多步骤推理和验证机制,LLM能够减少配置中的人为错误并加快网络部署的速度。这种自动化的配置生成显著提升了网络管理效率。

这些应用场景不仅展示了大语言模型在提升通信网络管理效率上的强大能力,也为未来6G网络的开发提供了关键支持。

大语言模型助力通信分类任务的智能化升级

随着通信网络的复杂性不断增加,准确、快速的分类任务对于提升网络服务质量和保障网络安全至关重要。传统的分类技术在处理多模态数据和应对异构环境时往往力不从心,而大语言模型(LLM)凭借其强大的多模态处理能力,正在成为解决这些挑战的重要工具。无论是攻击检测、文本分类,还是图像处理,LLM在通信领域的应用前景令人瞩目。

1. 攻击分类与检测

LLM能够有效处理多模态和异构网络数据,如流量数据和设备日志,帮助检测和分类网络攻击(如拒绝服务攻击、MITM攻击等),提升网络安全性。

2. 文本分类

LLM在处理与文本相关的分类任务上表现优异,例如用户反馈分析、技术报告分类和标准规范分类。通过自动分类用户意见,帮助运营商改进服务质量并提升用户体验。

3. 图像分类

LLM可以用于图像处理与分类任务,如基站相机捕捉的环境图像,通过对象检测和分类,辅助网络优化(如阻挡物检测、用户定位等),提高网络效率。

4. 加密流量分类

LLM能识别加密网络流量中的隐含模式,克服传统方法在处理复杂加密流量时的局限性,为网络管理和安全分析提供支持。

LLM无需额外训练即可直接处理多种任务,如图像分类和用户评论分析,适用于需要快速响应的电信任务,提升了系统的灵活性和适应性。

大语言模型不仅为通信网络的管理和安全提供了全新的智能化手段,还凭借其多模态处理能力,显著提升了分类任务的效率和准确性。从自动检测网络攻击到优化用户反馈分析,LLM为通信领域的各种复杂任务提供了强有力的支持。

随着技术的不断发展,LLM将在通信行业的智能化变革中扮演越来越重要的角色,推动整个行业迈向更加高效和安全的未来。

大语言模型驱动的通信网络优化新纪元

在现代通信网络的管理中,优化技术至关重要,直接影响网络的性能和服务质量。然而,传统的优化方法在应对复杂多变的网络环境时,往往面临挑战。

近年来,随着大语言模型(LLM)的迅猛发展,其卓越的推理和学习能力为网络优化带来了全新机遇。通过结合LLM与现有的优化技术,通信网络管理正迈向智能化与自动化的新高度。

1. 强化学习中的奖励函数设计

LLM可以自动设计奖励函数,避免了传统强化学习中依赖于专家的试错过程。通过自我优化机制,LLM可以根据反馈不断调整奖励函数,使其更适用于复杂的通信场景,例如资源分配和信号传输功率控制。

2. 黑箱优化

LLM作为黑箱优化器,不依赖于目标函数的结构信息,直接通过多轮迭代生成最优解决方案。这在应对6G网络中的复杂问题时尤为关键,如基站功率控制等问题,能够有效简化优化模型的构建过程。

3. 凸优化辅助

凸优化是通信网络中广泛应用的一种技术,但其通常需要专业的建模与问题转化。LLM通过自动化问题建模和求解器的结合,能够帮助运营商快速定义并求解凸优化问题,节省大量人工处理时间。

4. 启发式算法设计

LLM能够根据自然语言描述设计出新型的启发式算法,如遗传算法、粒子群算法等。结合其强大的推理能力,LLM可以为复杂的网络优化任务生成快速收敛且计算复杂度较低的算法,为实时的网络调度和管理提供支持。

大语言模型的引入,极大地提升了通信网络优化的效率与智能化水平。通过强化学习、黑箱优化、凸优化及启发式算法设计等多种技术的结合,LLM使得复杂网络环境中的优化问题得以快速、高效地解决。随着LLM技术的不断进步,通信行业将进一步朝向自主化、智能化的方向发展,为未来的6G网络奠定坚实基础。

大语言模型引领电信网络预测新时代

在现代电信网络中,精准的预测任务至关重要。无论是预测网络流量、客户需求,还是设备故障和服务使用情况,预测能力直接影响着网络管理和用户体验。传统的统计和时序分析方法虽然在某些领域表现良好,但在面对复杂且动态的电信数据时往往捉襟见肘。

随着大语言模型(LLM)的发展,其强大的学习和推理能力为电信网络预测带来了全新的解决方案。

1. 预训练基础模型用于零样本预测

大型预训练模型可以利用历史数据在无需专门训练的情况下进行零样本预测,大大提升了预测的通用性和效率,适用于网络流量预测、信道状态预测等任务。

2. 冻结预训练模型进行预测

通过硬提示 (hard prompt) 或软提示 (soft prompt) 的方法,冻结的预训练模型可以直接应用于预测任务,而无需重新训练。这种方法灵活且高效,特别适用于短期预测和电信领域中需要即时响应的场景。

3. 精调大语言模型以提升预测能力

使用低秩适应(LoRA)和层归一化调优(LNT)等参数高效的精调技术,可以将通用领域的LLM调整为电信时序数据的专用预测工具,极大地提升了模型在复杂时序数据上的表现。

4. 多模态大语言模型增强预测精度

多模态LLM能够处理来自多种数据源的信息(如文本、图像、音频和时序数据),并结合网络环境感知信息,从而提供更具上下文的精准预测。例如,结合气象数据和历史CSI数据进行信道状态预测,或利用卫星图像和3D地图进行毫米波束预测。

通过将大语言模型应用于电信网络的预测任务中,运营商能够更高效、智能地管理复杂的网络环境。从零样本预测到多模态集成,LLM技术正在为电信网络的未来提供强有力的支持。随着LLM不断进化,未来的6G网络预测将更加精准、灵活,推动整个电信行业迈向智能化管理的新高度。

大语言模型驱动的电信网络挑战与未来方向

在大语言模型(LLM)在电信领域的广泛应用中,存在多方面的挑战和机遇。LLM的强大潜力能够推动电信网络从传统方法向更智能化的未来迈进,但要实现这一目标,仍有许多关键问题需要解决。本文总结了LLM在电信领域的主要挑战以及未来的发展方向。

大语言模型在电信中的主要挑战

1. 电信领域的LLM训练

LLM需要大量电信领域特定的数据集,而当前的电信数据集往往规模较小、任务单一。要有效训练电信领域的LLM,必须开发更大规模、更全面的数据集,并探索模型压缩和知识蒸馏等技术以降低训练和推理成本。

2. LLM在电信中的实际部署

LLM的部署涉及云端、边缘设备和用户终端等多个层面。对于低延迟任务(如自动驾驶、信号屏蔽预测),传统的云端处理可能不适用。边缘计算虽然能降低延迟,但其计算能力有限。因此,如何协调不同层级的LLM部署并优化性能,是实践中的关键挑战。

3. 电信应用中的提示工程

电信领域涉及的概念复杂,提示设计的难度较大。有效的提示需要在精确和广泛之间取得平衡,同时还必须考虑上下文信息。通过标准化提示模板的开发,可以降低提示设计的复杂性,提高LLM在电信任务中的表现。

未来方向

1. 多模态LLM在电信中的应用

3. LLM驱动的电信规划与调度

多步规划和调度对于处理电信领域的复杂任务至关重要。未来研究可以开发自动任务分解算法,以提升LLM在电信任务中的规划能力,并通过结合模拟环境提高LLM的决策能力。

3. 资源分配与网络优化中的LLM

LLM有潜力用于优化网络资源分配,例如传输功率、带宽等。此外,LLM还能提供优化决策的解释性,有助于网络管理和理解系统行为。

4. LLM增强的电信领域机器学习

LLM可以通过自动化奖励函数设计等方式增强现有的机器学习算法,如强化学习和多智能体学习,进一步推动电信网络中的智能化管理和优化。

5. LLM的实际应用

实际应用中的LLM需要克服设备端存储容量有限和低延迟的要求。通过模型压缩和快速推理技术,可以加速LLM在用户设备和边缘网络中的应用。

6. 模型压缩与快速推理

为了适应网络边缘和移动应用,未来需要开发更高效的模型压缩和剪枝技术,以减轻LLM的计算和存储负担,同时加快推理速度。

7. 解决LLM中的幻觉问题

幻觉,即生成事实错误或无意义内容的问题,在电信应用中尤为关键。未来研究应聚焦于降低幻觉的发生率,通过增强数据集的准确性、引入后生成验证步骤等方法,确保LLM输出的可靠性。

8. 基于检索增强的LLM

检索增强技术将从外部知识库中获取信息,并结合LLM进行生成。 尽管这种方法提高了内容生成的准确性,但它增加了计算开销。 未来研究应致力于提高检索机制的效率,以平衡上下文相关性与推理速度。

9. 经济可行的LLM

由于LLM的训练成本高昂,未来研究应开发经济实惠的LLM版本,如小规模模型或优化后的推理架构,以降低成本并促进LLM在电信行业中的普及。

参考资料:

https://arxiv.org/abs/2405.10825


王者荣耀问答助手[大模型实战营 结题项目][更新更多数据,计划采用RAG方法进行多模态检索搜索查询]

经过多次更新与调整,项目聚焦于构建王者荣耀问答助手,主要围绕多模态数据集的构建与利用。 数据集包含了来自《王者荣耀》的游戏图像、文本和音频内容,其中包含各个英雄的默认皮肤,以及不同英雄间的复杂关系信息。 文件结构中,已整理上传了多模态王者数据集至 Github,形成了以手机游戏《王者荣耀》为背景的多模态数据集,涵盖英雄的图像、语音和文本信息。 在数据的更新中,项目重点关注了局内沟通语音、铭文和装备图片的收集与整合,同时添加了更多英雄皮肤对应的台词语音数据。 针对语音资源的缺失问题,项目提出将优化数据的全面性和完整性,以期覆盖更多英雄语音和不同皮肤的语音。 此外,项目还计划利用爬虫技术收集更多数据,提高数据集的丰富度。 项目的核心目标在于利用RAG(Retrieval Augmented Generation)方法,实现对王者荣耀游戏中图像、语音和文本的多模态检索与训练,以增强问答助手的交互体验。 RAG方法允许系统在回答问题时,结合检索到的相关图像和语音信息,从而提供更准确、更直观的答案。 为此,项目团队将实现以下功能:1. 数据增强与完整性:通过爬取更多数据,确保问答助手对英雄、技能、背景故事、关系等信息的全面了解。 2. 关系提取:利用数据中的英雄关系信息,构建知识图谱或实体关系模型,提升问答助手对英雄间复杂关系的识别能力。 3. 数据可靠性提升:集成搜索功能,与网站最新数据进行对比验证,确保问答助手提供信息的时效性和准确性。 4. RAG整合:基于RAG技术,实现语音、图像与文本的多模态检索与生成,提高问答系统的交互性和实用性。 为了达到这些目标,项目团队将运用爬虫技术收集更多数据,并实施反爬策略以应对目标网站的反爬机制。 数据准备方面,将对数据格式进行调整,以适应RAG技术的需求。 在模型训练与微调过程中,项目团队将关注输出格式的保持一致,以及模型性能的持续优化。 在数据处理与训练完成后,项目团队将对模型进行测试与评估,确保其在问答场景中的表现。 同时,团队将考虑使用特定的工具和方法对长文本进行分割,以优化检索与摘要创建的过程。 在集成RAG技术时,将采用特定的Embedding方法,如Sentence Transformer,以及调用LangChain等库来构建模板,以支持更高效的问答交互。 项目团队还计划探索替代的Embedding方法,如使用jina-embeddings-v2-base-zh,以优化处理中文语料的性能,并考虑使用Hand-on-RAG等工具来进一步增强问答助手的功能。 在数据集构建与模型训练的全过程中,团队将持续迭代优化,以实现问答助手的高效、准确与便捷性,最终提供一个全面、互动性强的王者荣耀问答解决方案。

GTC2024:理想汽车怎么玩儿转大模型

在英伟达GTC2024的AI 驱动汽车科技创新发展的会议上,理想汽车智能空间算法首席科学家陈伟介绍了理想智能座舱领域人机交互方面的进展。

陈伟介绍了理想智能座舱人机交互的技术理念,基于大模型Mind GPT的新型的空间交互技术和产品,Mind GPT背后的AI工程架构是如何实现的。

以下是陈伟演讲内容整理,在不影响原意的基础上略有整理和删减。

注:关注“智车引擎”公众号,并回复数字“4”,将获得本场讲演的PDF。

人机交互的技术理念

人机交互的界面,我们认为正在从二维的平面走向物理世界下面三维的空间。 在这样的三维空间下,人与机器之间的交互方式,正在从人适应机器转变为机器来主动适应人,那么只有这样才能让人与机器之间的交互更加自然。

而在我们整个的空间加交互的架构下面,融合了语音、视觉、触控等多模态的感知信息,致力于为用户提供可以媲美人与人交互的自然的交互体验。 那么承载整个三维空间交互的AI助手就是理想同学,我们期待理想同学能够成为每一个车主家庭的数字成员,让车内每个人都能够轻松的使用AI。

在李想同学背后涵盖了从感知智能到认知智能的多项AI的技术,覆盖了感知、理解、表达三大的能力。 其中借助全车麦克风以及摄像头的强大的传感器,理想同学具备了听、看和触摸的多模态感知能力。

而在端和云强大算力的加持下,理想同学能够充分的理解语言、理解用户、理解世界,并给出自然而且有价值的回答。 最后借助智能空间的全景声以及多屏显示的能力,理想同学的回复信息得到了充分的表达,为用户提供了沉浸式的交互体验,不断加强人与车的情感连接。 目前,以感知和表达的代表的感知智能已经走向了成熟,但是理解代表的认知智能能在发展中,直到22年年底的时候,大模型的出现带来了一次认知技术上面的变革。

众所周知,人工智能的三要素是数据算法和算力。

伴随着互联网、移动互联网、车联网的兴起,整个网络积累的海量的数据可以用于AI大批量的学习。 截止到2023年的时候,全球已经有55亿的移动用户,同时在过去10余年中,以英伟达的GPU为代表的人工智能处理的能力在惊人的增长,令人震撼的是过去10年的算力已经增长了1000倍,这种进步并不来自于摩尔定律的预测,而是来自于全新的结构性的变化。

同时 AI算法伴随着深度学习的兴起,迎来了新一轮的技术浪潮。 2016年AlphaGo战胜人类是人工智能发展历史上的里程碑的事件,之后2017年transformer的提出奠定了如今基础的神经网络架构。

随后 open AI陆续推出了GPT1一直到GPT3,那么模型的规模在急速的扩大,一直到2022年11月基于大模型GPT3.5的Chat GPT震惊了全世界。 大模型的兴起变革了AI模型的训练范式,带来了新一轮的认知革命,也迎来了通往通用人工智能的曙光。 那么整个AI在经历了计算智能、感知智能的突破以后,迎来了认知智能技术上的爆发,经历了2023年大模型技术井喷式的发展之后,行业现在也逐步开始共识,基于大语言模型,Agent的技术将是走向AGI的关键路径之一。

那么大语言模型对于理想这边智能空间的空间交互也非常的关键,李想同学的智能化水平的提升也急需借助于大语言模型和Agent的技术来实现整个产品体验上新的突破。

为此,我们在2023年6月份发布了我们的多模态认知大模型——MindGPT。 结合我们多模态感知技术和大语言模型MindGPT,我们全面升级了空间交互的能力,基于多模态感知能力,我们可以充分的感知整个智能空间的各种模态的信息,并且把它转化为了人类的语言。

我们基于自研的Taskfomer结构设计了面向Agent的大模型MindGPT。 那么基于MindGPT就可以更好的对人类语言进行理解进行反馈,更好的完成人与机器之间的交互。

那么接下来我就分别和大家介绍一下在空间交互这个体系下面的两个核心技术,一个是多模态感知,一个是MindGPT。

在多模态感知方向上,感知技术现在已经逐渐在从小模型+流水线级联的方式,升级为了端到端的大模型。 我们在内部我们这样的端到端的感知类的大模型称之为MindGPT—MP是multi model perception的简称。

那么为了打造面向智能空间的空间动态感知的技术,我们在信号、语音、视觉这样感知领域都实现了技术的创新和突破。 那么这里面也列出了我们在过去的一年间发表的一些论文,大家也可以参考。

MindGPT—MP使用了海量的视听数据,进行了自监督学习和多任务的精调,借助整个全车麦克风以及前后排的摄像头,理想同学能够同步感知多路音频和视觉的信号,经过信号的分离、增强、编码、融合等前处理的技术以后,可以让车内的用户定位和人声分离都更加的精准。 理想同学就能像人一样边看边听边听边看,同时能够实现更强的多语种、多多语言、多方言、多任务的感知能力。

理想同学在交谈的过程中能够快速准确的知道谁在说、在说什么内容,情绪怎么样,发生了哪些有趣的事儿?

我希望和大家介绍一下我们在多模态交互上面的一些能力,我们也陆续发布了多个创新的多模态感知能力。

第一个是多模态的指代,我们希望在车里面能够产生开窗、开灯,打开屏幕、控制座椅这样的一些小需求的时候,不用让用户说非常冗长的话,也不用担心用户一直想不起来这个东西叫什么,而出现了交互上的坎坷,我们可以用更加简单省力的指代的方式,用一个手指来指代,比如说这个那个来完成。

目前指代的方向其实覆盖了全车的各个方向,同时理想同学也能看得懂指代更多的人和物品,那么接入更多的空车和体验上的交互,比如说可以说把那个屏打开,那么理想同学就会自己学习,因为你是要打那个方向上的屏幕,他会更加熟悉车里的每一个地方,更好的熟悉每个家人的需求。

那么第二个多模态的可辨析的说,理想同学可也能够读懂电影海报内容,可以随意表达。 孩子即便不认识字,也可以根据海报内容描述自己想要的内容,那么最后快速的实现对于和车之间的交互。

最后其实就是我们的方言自由说,在这种方言自由说的能力下面,我们现在可以用一个模型就能实现这种9种这种多方言的自由感知。

MindGPT能做什么?

以MindGPT为核心,我们逐渐构建了感知、规划、记忆、工具、行动的完整的Agent的能力,其中MindGPT基座模型使用了自研的Taskformer的结构,那么我们在整个MindGPT的训练中进行了充分的自监督学习,然后在整个学习世界知识的同时,我们也重点在车载场景的15个重点领域进行了知识的加强。 在这个基础上,其实基于我们整个在车载场景里面重要的三个大的场景和领域,用车出行和娱乐。

我们使用了sft和rlhf这样一系列的训练以后,能够覆盖在这三大场景里面的大概110多个领域,大概有1000多种的专属的能力,能够让MindGPT具备了理解生成、知识记忆和推理这三大的能力。

MindGPT作为整个大模型的控制器,它可以连接外部的Model Zoo和APIZoo,那么通过大模型对于用户输入的理解和思考,有条理的进行任务的规划,独立的完成自己擅长的部分,同时能够调度外部的API和专用模型,解决自己不擅长的部分,持续能够拓宽大模型能力的覆盖。 比如说其实我们也使用了RAG的技术,能够通过大模型去连接搜索的能力,然后通过搜索增强就能够时刻获取更新更准确的信息了。

同时 MindGPT也建设了记忆网络。 因为李想同学是希望能够面向全家人服务全家人的,那么所以理想同学应该理解和明白会懂每一位家人。 那么因此记忆非常重要,我们可以让两个同学能够基于和之前不同的人之间的历史的对话,能够记住用户的偏好和习惯,同时理解每一个用户目前的状态,从而让理想同学和人之间的交互更加个性化,也更加理解用户。

那么最后MindGPT的在线强化学习能力,能够基于用户的反馈和纠偏,不断能够迭代自身的能力,让理想同学越用越好用。

2023年12月份的时候,我们的MindGPT也参加了行业权威的中文大模型评测,C-Ezal和CMMLU,并且在这两个榜单上取得了双榜第一的成绩。 而也就在2023年的12月份,我们通过理想的OTA5.0向用户推送了全新的MindGPT。

MindGPTMind上线以后的理想同学在用车、娱乐和出行等多个场景里面,都展现了非常强的人机交互能力。

大模型的工程化

在大模型工程侧,我们主要分为两部分,一部分是大模型的训练,另外一部分是大模型的推理。

大模型的训练平台liPTM LLM pretrain Model的平台实现大模型的密集训练,基于大模型推理引擎LisaRT-LLM模型,它的推理服务实现了大模型的落地应用,这两部分的工作都基于英伟达GPU来完成的。

那么接下来其实就会重点介绍一下里PTM和LisaRT-LLM我们这两部分的工作。

首先想介绍一下我们整个的推理的服务,那么也就是MindGPT的云服务的这种架构,我们针对整个大模型的特点,设计了整个端云融合的MindGPT的推理服务体系,那么在整个架构图里面字底向上其实包括了针对业务场景优化的类似LisaRT-LLM的大模型的推理引擎。

第二就是和LisaRT-LLM结合的大模型的调度和推进的平台。 那么这个平台其实整个在服务上面的设计,就是希望它能够做到推理服务的编排、请求的调度、模型部署这样的一些能力,能够结合模型的类型业务的场景,包括Continuous Batching的这样的一些因素能够实时将生成的这种请求调度是最新的一些推理的后端,实现最优的性能和吞吐。

第三部分,其实是Taskformer中控服务,那么这个服务其实就实现了整个大目前用户所必需的一些数据库的集成检索,增强规划和记忆的能力。 那么再往上其实就是我们的SCI SDK,那么有了这样的SDK以后,就更好的去服务我们的应用的集成,在这个 SDK里面其实它有本地端的AI能力业务,我们直接云端的能力,那么它实现了端云一体化的模型能力的输出。

为了支撑整个百亿千亿级的MindGPT大模型的高效迭代,你看我们也自研了TB级吞吐的大数据的数据系统LiARK。

那么基于LiARK,就会支撑我们的这种千亿级参数这个大规模的训练系统LiPTM。 为了加速整个大模型数据集的高效生产,我们其实组合了像CPU GPU的能力,然后构建了高性能的分布式的数据的任务的集群,来处理这种海量的原始数据。 因为对于训练来说,其实除了整个算力之外,其实数据本身以及数据的传输也是非常重要的。

那第二件事其实就是为了加速整个千亿级大模型的高效训练,我们在使用了这种比较领先的模型结构和高性能的训练算子以及高效的训练策略的同时,其实也实现了4D的并行训练的模式,这4D就包括了像数据并行、 TCL并行、流水线并行和序列并行这样的一些训练模式,那么有了这些模式以后才能有机会及我们的算力的设备及我们的GPU去完成更大规模的大模型的训练。

千亿级的这种大模型的这种训练里,PTM它其实在整个训练速度和效率上,其实目前我们达到了还算不错的效果。 目前在基座的这个训练阶段,训练速度我们用像TOKEN/秒或者是sample/秒来评估的话,那么在适配的相同的模型架构以后,在相同的训练集下,训练过程中的速度就像图中所示,那么是HF的transformer的5.12倍,高于DeepSpeed的transformer的1.6倍和ColossalAI的相对于HF的3.25倍,就是相对来说我们对于HF transformer的这个效果的相对的提升来说,也是最高的。

在SFT阶段整个训练速度,在适配的相同模型结构以后,在相同训练集下面,整个训练的过程也如图所示,它是这个目前行业里面就是最好开源能力的3倍以上;在强化学习RHF训练速度上面是DeepSpeed大概3.1倍左右;从吞吐力上,在适配的相同模型结构以后,在相同训练集下面TFlOPS相比DeepSpeed也要快一些。 这是在整个训练的过程中,其实整个对标的情况。

当然就这块我觉得不管是目前开源的社区,还是各个公司大家自己预训练的平台上,整个进步都是非常快的。 我们这块其实整个的这种迭代速度也在持续的根据我们的模型结构做更深入的进行训练的这种优化和定制。

我们其实也在做这个大模型落地应用的推理的工作,那么最核心的其实就是这个自研了LisaRT-LLM大模型的推理引擎,这一块的话其实就可以完成像百亿千亿级的参数量大模型的落地。

首先就是对于GPT这种结构的模型,我们其实跟进了一些这个行业先进的一些推理加速的方案,比如说像FusedMHA或FlashAttention这样的方案,把核心算子优先加速起来,同时就是为了提升整个吞吐力的话,我们其实使用了Continuous Batching这样的方式去提升整个服务的并发量,然后最后再通过像tppp这种结合的方式,实现整个单卡或多卡的这种模型的并行,然后来应对这种千亿级参数量的这种大模型最终的落地。

我们也结合了我们MindGPT的业务场景和英伟达在英伟达这个 SRT-LLM的这个团队,我们做了非常深入的合作,进一步来提升了这个性能,然后降低推理成本。

我们主要做的工作就包括了三部分。

第一个就是说我们就是设定了比较明确的优化目标,就是能够在产品性能要求的情况下,一般来说我们就是整个Prefill延迟大概控制在了500 500毫秒以内,然后然后我们解码的速度控制在了20~30token/秒左右,然后尽量的去把我们的服务吞吐量去撑上。

第二件事其实就是我们也在围绕MindGPT的业务场景做了定制的优化,比如说现在缓存通用的一些泡沫的结果,做一些像Prefuse的一些catch什么的,然后根据这个生成的文本长度和性能要求,针对不同的垂域去选择对应的调度优化的策略。

第三个其实就跟英伟达SRT-LLM团队的这种合作,在一些核心算子,我们可以用TRT-LLm的这个能力直接来实现,那么这块其实对我们的助力也非常大。

通过这个上述的LisaRT-LLM的优化方案以后,其实我们在2023年Q4完成MindGPT推理服务的成功的落地。 这块也是伴随着整个OTA在李想同学中这个MindGPT的上线来一起完成的。 这块当时我们也在跟业界的优秀的开源的LLM的推理引擎做了性能的对比,那么测试的方法其实就是使用了线上的真实数据,然后固定QPS来做压测,然后在Prefill在500毫秒以内,然后解码速度在20Token/秒以上,这样的性能要求下,大概去测试一下整个推理服务最大的吞吐量。

那么图上的这个推理框架大的分别就是TGI的V1.1.0、vLLM的2.0和LisaRT-LLM10月份的版本。

那么这三个比完了以后,其实整个可以看到基于目前就是理想同学的场景,就我们实际车载的场景来看的话,其实测试结果在a800上面,LisaRT-LLM的这个吞吐率相比vLLM大概有1.3倍以上的提升。

这张图就可以看到就是这三个推理框架Prefill的延迟,随着QPS的压力增大以后的变化曲线,我们可以看到Prefill Latency这个纵坐标,当小于500毫秒的时候能达到的最大QPS,因为超过500毫秒,用户能够明显感受到就会响应非常的慢,就很难达到我们产品上的需求了。

因此就是从这个曲线可以看到,就在这种场景下,这个LisaRT-LLM也具备具备了相对较高的并发的负载的能力。

起亚改款狮铂拓界内饰曝光!最快本月首发亮相
曝通信大厂中国裁员近2000人!