一套模型搞定图片 文本 视频 只基于下一个token预测 智源Emu3登场 网易科技10月21日消息,智源研究院正式发布了其最新的多模态AI模型——原生多模态世界模型3,该模型实现了视频、图像和文本三种模态的统一理解与生成,Emu3采用了完全基于下一个预测的技术架构,避免了以...