已应用于豆包火山引擎发布大模型训练视频预处理方案

作者： 2024年10月15日快报浏览

10月15日消息，火山引擎在视频云技术大会上发布了大模型训练视频预处理方案。目前，该技术方案已应用于豆包视频生成模型。

火山引擎总裁谭待在活动致辞表示，在AIGC、多模态等技术的共同推动下，用户体验在多个维度上经历着深刻转变，“基于抖音业务实践和与行业客户共创，火山引擎视频云正积极探索AI大模型与视频技术的深度融合，在技术底座、处理链路和业务增长层面为企业寻找解法。”谭待说。

据介绍，对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息，从而使模型能更高效地学习视频中的特征和知识，提升训练效果和效率。

抖音集团视频架构负责人王悦表示，对大模型厂商而言，上述过程中面临着诸多挑战。

“首先，超大规模视频训练数据集导致计算和处理成本激增，”王悦说，“其次是视频样本数据参差不齐，然后是处理链路环节多、工程复杂，最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

借助Intel的CPU、GPU等不同资源，火山引擎此次发布的大模型训练视频预处理方案依托于自研的多媒体处理框架BMF，能有效应对模型训练的算力成本挑战。此外，该方案还在算法和工程方面进行了调优，可以对海量视频数据高质量预处理，短时间内实现处理链路的高效协同，提高模型训练效率。值得一提的是，火山引擎本次还发布并开源了移动端后处理解决方案BMF lite版本。BMF lite支持端侧大模型接入和算子加速，更加轻量、通用。

据了解，豆包视频生成模型PixelDance于9月24日发布，该模型采用 DiT 架构，通过高效的DiT融合计算单元和全新设计的扩散模型训练方法，突破了多主体运动的复杂交互、多镜头切换的内容一致性难题。目前，豆包视频生成模型已通过火山引擎面向企业开启邀测。（定西）

字节跳动在大模型领域的布局与应用字节跳动虽入场较晚，但并未影响其在大模型领域的持续投入与探索。其内部自研的大模型，虽未正式对外宣布，但已通过相关备案及内部应用验证。 2023年8月，字节跳动云雀大模型成功备案，同时，新成立的AI部门——Flow，集结了一批核心人才，积极开发AI应用。过去大半年，字节跳动在AI应用领域广泛布局，豆包、扣子等产品展现出强劲的发展势头。在火山引擎原动力大会上，字节跳动首次揭开其自研大模型——豆包大模型家族的神秘面纱，包括豆包App及AI应用产品「扣子」的详细阐述。火山引擎总裁谭待透露，豆包大模型已成为使用量最大、应用场景最丰富的国内大模型之一，日均处理文本1200亿Tokens，生成图片3000万张。豆包大模型在模型推理价格方面表现突出，谭待指出，这将助力企业以更低的成本加速业务创新。当前，豆包大模型的主力模型在企业市场的定价仅为0.0008元/千Tokens，0.8厘即可处理1500多个汉字，相比行业水平便宜99.3%。除模型产品本身，字节跳动对大模型及AI产品的深入思考同样值得关注。在火山引擎原动力大会上，字节跳动分享了对大模型家族、火山方舟2.0、AI应用及AI云基础设施的最新布局。豆包大模型家族涵盖通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等九款模型，针对不同市场需求，提供多样化选择。字节跳动内部50多个业务已大量使用豆包大模型进行AI创新，覆盖抖音、番茄小说、飞书、巨量引擎等。字节跳动基于豆包大模型打造了AI原生应用，包括AI对话助手「豆包」、AI应用开发平台「扣子」、互动娱乐应用「猫箱」，以及星绘、即梦等AI创作工具。其中，豆包和「扣子」成为字节跳动发力的主要产品。字节跳动通过AI原生应用，如豆包App，在AIGC类应用中排名第一，拥有超过800万个智能体，月度活跃用户达到2600万。字节产品战略负责人朱骏分享了字节对做大模型应用的思考，包括拟人化设计、离用户近、个性化需求等原则。火山引擎的基础设施也在持续升级，提供联网插件、内容插件、知识库插件等服务，以及底层基础设施的系统承载力、安全防护和专业算法团队支持。此外，火山引擎还推出了新一代AI应用开发平台——扣子专业版，以满足应用开发的低门槛、个性化、实时性、多模态等需求。

声明：本站内容均来自互联网，如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://m.szsranl.com.cn/kuaibao/7368.html

相关文章