刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。
OpenCompass多模态大模型评测排名
商汤日日新平均得分达到77.4,领先GPT-4o、Claude 3.5 Sonnet以及国内所有不同尺寸的开源和闭源模型。尤其在涵盖算术、统计、代数、几何、数值常识、科学和逻辑的权威数据集MathVista维度上,取得78.4 分的最高分,展现了领先的“数理”能力。
OpenCompass 多模态评测包含八个核心数据集,从多种视角客观量化多模态大模型的能力。此次评测中,商汤日日新在几乎所有维度上都达到或超过GPT-4o水平,其中四个维度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。
OpenCompass大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。
商汤多模态进阶
作为计算机视觉领域的先行者和领军企业,早在几年前,商汤就确定了多模态大模型的研究方向,并在研发中,融合积累的领先算法、丰富数据和场景认知建立起核心优势。
2023年4月,商汤率先发布了行业领先的多模态大模型;
2024年2月,基于商汤日日新4.0的多模态大模型,在当时权威评测基准测试集MME Benchmark上位列第一,综合得分达2199.5(超过GPT-4V的1926.57),并应用到智能驾驶、智能车舱、电力行业等多个场景;
2024 年7 月,商汤发布国内首个交互体验上对标GPT-4o的大模型——日日新 5o,实现无延时的实时流式交互。
跨模态深度融合
今年三季度以来,商汤已跨越初期探索,进入了多模态大模型的研发新阶段——实现跨模态深度融合。以此目标,商汤打造了全新原生多模态大模型——日日新SenseNova多模态大模型。
跨模态深度融合指能够跨越不同模态(自然语言、代码、语音、图像、医疗影像、视频等)之间的鸿沟,充分利用不同模态的信息,通过跨模态逆渲染、多模态思维链等技术创新,实现数据之间的集成和交互。由此,模型的感知和理解能力将得到极大增强,并支持多模态融合推理的实现。
跨模态融合有多种方法。例如,通过融合预训练以及后训练技术,商汤日日新多模态大模型大幅增强了数理逻辑和推理能力。
评测中,当我们从“五年高考,三年模拟”里随机抽取几道高考数学题,日日新多模态大模型都可以轻松应对。
提问:这道选择题要怎么做?
商汤日日新输出结果,并给出详细解题过程:
提问:这道题要怎么解?请告诉我详细的思路
商汤日日新输出结果:
商汤日日新再次输出正确结果。
数学回答满分,再来看看物理。
商汤日日新输出结果:
物理题也答对啦~
此外,通过多模态融合并对模型进行定向优化,商汤日日新多模态大模型还大幅提升了对统计图表和多模态文档的理解能力。
评测中,当难度提升,让我们看看结果如何。
提问:使用下表中的数据,计算2011年每股FCFE的金额。
商汤日日新输出推理结果:
商汤日日新成功输出推理结果,效果令人惊叹。
随着融合模态有效提升AI大模型性能,多模态融合未来可广泛应用于诸多场景,例如在线上教育、语音客服等场景,结合语音和自然语言来提升交互体验;在自动驾驶场景,融合视觉及多种模态数据,来提升感知精度和决策能力等。
数理还只是起点。目前,日日新SenseNova多模态大模型已经可以通过API调用,即将开放普通用户体验。
一文读懂司南大模型评测体系 OpenCompass
在人工智能领域,上海人工智能实验室开发的OpenCompass司南大模型开源评测体系成为了评估和提升大语言模型性能的关键工具。 这个一站式评测平台旨在为大语言模型、多模态模型等各类模型提供全面的性能评估。 OpenCompass的核心特性包括开源、全面的评估维度、丰富的模型支持、分布式评测效率以及多样化的评测策略,它构建了高质量的中英文双语评测基准,涵盖了语言理解、常识逻辑、数学应用、编程能力、智能体交互和创作对话等多个方面,帮助深入理解大模型的真实能力。 OpenCompass的评测体系由评测工具链CompassKit、基准社区CompassHub以及权威评测榜单CompassRank组成。 CompassKit提供全套开源评测代码和模型支持,CompassHub则是一个开放的基准库,鼓励用户共享评测数据,加速大模型社区的发展。 CompassRank则确保评测公正性,通过CompassKit的评测手段定期更新,为业界提供动态洞见和专业解读。 OpenCompass的亮点在于其全面的能力维度,包括基础和综合能力,涵盖12个一级和50多个二级能力,支持零样本、小样本和思维链评测,量化模型在不同维度的性能。 此外,它对100多种开源模型进行评测,并与HuggingFace等平台紧密合作,支持API模型的接入和分布式评测,大大提升评测效率。 OpenCompass的灵活性和可扩展性体现在其支持用户添加自定义数据和模型,以及持续接受社区贡献。 其开源性质确保了评测的可复现性,用户可以直接下载相关数据和提示词。 通过关注“司南评测体系”微信公众号,可以获取更多评测体系的最新信息。
GPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 Turbo
金磊 发自 商汤AIDC 量子位 | 公众号 QbitAI一场震撼的对决在游戏界与AI领域同时上演!GPT-4,这款曾经的科技巨头,竟然在一场《街头霸王》的现场PK中,被一个“小而精悍”的选手彻底打败,连反击的机会都没有。 这个神秘的对手,正是由商汤科技最新发布的端侧大模型——日日新SenseChat Lite(商量轻量版)。 在游戏界,这个小模型展现了“天下武功,唯快不破”的气势,迅速将GPT-4击败。 不仅如此,商汤CEO徐立还现场增加难度,测试SenseChat Lite的离线模式,结果显示,这个小模型在生成员工请假一周的申请时,效果出人意料——假太长了,不予批阅。 在处理长段文字方面,SenseChat Lite同样展现其快速总结能力。 与GPT-4的决策时间相比,SenseChat Lite的推理速度更快,尤其在中等性能手机上,可以达到18.3字/秒,高端旗舰手机上则可飙至78.3字/秒。 商汤端侧模型的多模态能力同样令人印象深刻。 在扩图测试中,SenseChat Lite在慢启动的情况下,扩了3种不同图片的速度比友商快,甚至在拍照缩小图片后,自由扩图的能力也让人惊叹。 在“大基座”方面,商汤科技推出了日日新大模型5.0版本,全面对标GPT-4 Turbo,实力如何?我们现场实测一番。 “弱智吧” Benchmark,一个检验大模型逻辑能力的著名标准。 当SenseChat Lite遇到“弱智吧”,它展现出应对荒谬逻辑问题的能力,精准回答问题,展示了其强大的逻辑推理能力。 在自然语言生成方面,SenseChat Lite能够轻松应对高考作文题目,不仅句子工整,还能引经据典,显示出AI思路的打开与发散。 数学能力测试中,SenseChat Lite在处理复杂问题时表现出色,不仅正确解答了问题,还能处理游戏规则问题。 在常规客观评测中,SenseChat Lite的能力已经超越或达到GPT-4水平。 日日新5.0版的更新亮点在于数据与算力的双重加持。 超过10T的高质量数据和数千亿tokens的思维链数据,以及算法和算力的联合优化,使得模型在逻辑推理、数学计算和多模态生成等方面表现出色。 在文本生成与图生成方面,SenseChat Lite与Midjourney、Stable Diffuision和DALL·E 3进行同台竞技,展示了其在风格、人物形象和文字嵌入图像方面的强大能力。 在多模态能力方面,SenseChat Lite与拟人大模型一同展示,支持角色创建、知识库构建、长对话记忆等高级功能。 此外,办公小浣熊和编程小浣熊的出现,使得处理表格、文档、代码文件等任务变得轻松愉快。 办公小浣熊能够快速处理表格、文档和代码文件,提供Python代码解释,增强内容准确性与可控性。 编程小浣熊则能根据自然语言提需求,进行架构设计、代码生成、测试等编程任务。 商汤科技通过全面的发布,展示了其在AI领域的领先地位。 从端侧模型到大模型体系,再到多模态应用,商汤日日新在产业中的应用展现出显著的降本增效效果。 综上所述,商汤科技凭借其强大的技术实力、丰富的产品线和创新的应用场景,为AIGC时代的发展注入了新的活力。 在AI领域,商汤科技正在引领着行业的创新与发展。
2023 年热门的大型语言模型 (LLMs)汇总
在2023年,大型语言模型(LLMs)领域正呈现显著增长,全球范围内,企业和研究机构纷纷投入资源开发出性能卓越的模型。 以下是国内外一些热门大模型的概述:在国外,OpenAI的ChatGPT凭借GPT-3.5的强大能力,以其开放源码的聊天机器人成为焦点。 它基于深度学习,能够应对多种任务,如文本交互、信息检索和创意生成,且表现出接近人类水平的性能。 后续,OpenAI发布了GPT-4,能处理图像输入并取得显著进步,如通过律师考试。 Google的LaMDA模型则以1370亿参数和大量对话数据训练,展现出流畅对话和适应性。 PaLM和mT5分别以5400亿和130亿参数,展示了在复杂任务中的实力和跨语言处理的优势。 DeepMind的Gopher和Chinchilla凭借更大的参数量和更少的计算资源,展示出逻辑推理和推理能力。 Sparrow则注重对话安全,通过人类监督训练减少潜在风险。 国内方面,网络的Ernie 3.0 Titan和Ernie Bot,以及阿里M6和通义千问等,展示了强大的语言理解和生成能力,涉及多种任务和多模态处理。 华为的PanGu-Alpha和商汤的日日新模型也加入了这场技术竞赛,推动了中文大模型的发展。 这些模型的不断涌现,预示着人工智能技术的快速发展,将深刻影响医疗、金融、交通和教育等众多领域,提升智能化生活体验。 然而,随着技术进步,隐私和安全问题也将成为关注焦点。 未来,大模型将继续优化,解决挑战,以实现更广泛的应用和更深层次的智能化服务。