多样任务真实数据 MMLU开源 大模型在线购物基准Shopping

谁是 在线购物领域 最强大模型?也有评测基准了。

基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——

联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准 Shopping MMLU ,用以评估大语言模型在在线购物领域的能力与潜力。

一直以来,想要完整建模在线购物相当复杂,主要痛点是:

对这些实体、关系和行为和联合建模与理解构成一个复杂的 多任务(multi-task)学习问题

不过,诸如GPT,T5,LLaMA等的大语言模型(LLM)已经展现出了强大的多任务和少样本学习能力,因而有潜力在在线购物领域中得到广泛应用。

而为了进一步找出最强、最具潜力的LLM,测试基准Shopping MMLU应运而生——

与现有数据集相比,Shopping MMLU覆盖了更多的能力(四项)和任务(57个)。

同时,基于Shopping MMLU,亚马逊举办了KDD Cup 2024数据挖掘竞赛,吸引了全球超过500支队伍参赛。

广泛的能力和任务覆盖

为了全面、充分评估大语言模型在在线购物领域中的能力,研究首先分析了在线购物领域的独特性:

基于以上分析,研究构造了Shopping MMLU, 覆盖四项在线购物能力,共计57个任务

下表可见,Shopping MMLU相比现有数据集覆盖了更多的能力和任务。

能力和任务构成如下图所示。

Shopping MMLU大部分由 真实的 亚马逊在线购物数据构造,并且经过人工检验,尽可能排除低质量数据,例如标注错误,缺乏必要信息等。

部分问题示例如下。

主流大语言模型成绩单

研究选取了共 27个 主流大语言模型进行实验分析,其中包括:

实验结果如下表所示。

研究发现,虽然闭源模型仍然处于领先(例如Claude-3 Sonnet整体排名第一),但开源模型已经能够赶上闭源模型的性能(例如QWen和LLaMA3)。

此外,特定领域模型eCeLLM并未在同参数量级下取得最好成绩,说明Shopping MMLU是一个有相当难度的评测基准,无法通过简单的微调取得好成绩。

如何打造在线购物领域大模型

基于Shopping MMLU,研究分析常用的大模型增强手段,进一步探究如何打造强大的在线购物领域大模型。

首先,如下图所示,模型在不同能力和任务上的得分 高度正相关 。这说明了在线购物领域的不同任务之间存在共同的知识,可以使用大语言模型进行 整体性的建模和能力提升

其次,如下图所示,模型的Shopping MMLU得分和模型在通用大模型基准测试的得分(Open LLM Leaderboard)同样高度相关。

另外,随着同一个模型家族内模型增大,其Shopping MMLU得分同样增加。

这表明大语言模型的通用能力可以很好地迁移到在线购物领域中,构造特定领域大模型的基础是 强大的通用能力

随后,研究分析了微调对模型在Shopping MMLU得分的影响。

通用领域的微调一般对模型在Shopping MMLU上有提升 。不过,这一结论也与基础模型的能力,微调的数据质量等因素存在关系。

例如,在LLaMA2-70B上,研究观察到经过微调的LLaMA2-70B-chat得分低于LLaMA2-70B,而在LLaMA3-70B上没有观察到这一现象。

可能的原因是 ,相对较小的微调数据使得LLaMA2-70B过拟合,导致通用能力的部分丢失,进而导致Shopping MMLU上得分下降。

反之,LLaMA3使用了更高质量的微调数据,所以能够保留通用能力,同时增强模型回答问题的能力,得到更高的分数。

特定领域微调(如eCeLLM)并未能在Shopping MMLU上取得最高得分。

为了探究其中原因,研究测试了eCeLLM与其基础模型在通用能力上的对比。结果表明,经过特定领域微调的eCeLLM相比其基础模型的通用能力一般有所下降。

这可能是导致eCeLLM未能取得最高得分的原因,也同时强调了通用能力对于对特定领域的重要性。

总结

Shopping MMLU是一个针对大语言模型和在线购物领域设计的评测指标。其包含广泛的任务和能力覆盖(4项重要能力,共计57个任务),可以全面评估大语言模型在在线购物领域的能力和潜力。

Shopping MMLU基于亚马逊的真实购物数据打造,经过人工筛选,保证数据质量。基于Shopping MMLU,研究展开了大量实验分析,为这一领域后续的研究和实际应用提供了有价值的结论。

目前,Shopping MMLU以及其对应的资源 全部开源 并将持续维护,方便研究人员和开发者进行深入探索和应用。

Shopping MMLU的数据以及对应评测代码已经于GitHub公开。

同时,为了构造开放、开源的评测体系,研究基于Shopping MMLU建立了一个 排行榜

官方表示,Shopping MMLU欢迎新模型加入排行榜,如果有兴趣的话可以于GitHub上与Shopping MMLU维护者进行联系。


剖析大模型竞技擂台:如何快速解读排行榜数据?

要快速解读大模型竞技擂台排行榜,首先理解其关键指标。 排行榜主要包括Model(模型名称)、Arean Elo rating(竞技场ELO评级)、MT-bench(score)(多任务对话任务得分)和MMLU(多领域多任务理解)。 ELO评级是通过模型间的比赛,根据预期胜率计算得出的,能反映模型的整体实力。 MT-bench以多轮对话任务评估模型的对话理解和生成能力,而MMLU则侧重于模型在广泛问题上的泛化和准确度。 以GPT-4-Turbo为例,其在所有基准上得分最高,展示了主流模型的水平。 ELO评级的计算过程涉及模型间的对决,通过预期胜率和实际得分更新评分。 MT-bench通过GPT4打分,考察模型在多轮对话中的表现,权重可能影响最终分数。 MMLU则是基于大量问题的正确答案,评估模型的泛化能力。 理解这些评分方式后,当你遇到新模型,不再简单评价好坏,而是能深入分析其在竞技场中的位置。 这不仅能提升你的专业度,也让讨论更加有深度。 现在,你已经掌握了解读大模型竞技场排名的钥匙,可以信心满满地分析和比较它们的表现了。

近期大模型相关benchmark

近期,研究人员致力于开发一系列大模型的基准测试框架,以衡量其在真实世界任务中的性能。 WILDBENCH通过1,024个挑战性任务,使用从100万个人机对话中筛选出的数据,评估大型语言模型的响应质量和生成质量,其自动化评测结果与人工投票的Elo等级高度相关,表现出色。 CRAG基准测试针对RAG解决方案,构建了一个包含4,409组问题-答案对的问答数据集,评估了模型在多样性和动态性上的表现,尽管顶级模型仅达到34%的准确率,但RAG的引入显著提高了性能。 NATURAL PLAN聚焦于自然语言规划,通过旅行、会议和日程规划任务,评估模型的规划能力。 GPT-4和Gemini 1.5 Pro在复杂任务中的表现显示出显著差距,尤其在长上下文情境规划中,Gemini 1.5 Pro表现优异。 MMLU-Pro通过增加难度和扩大选择集,提高了MMLU的鉴别力,即使是顶级模型GPT-4也面临挑战,显示出在深层次认知处理方面的优势。 DevEval作为代码生成的基准,与真实代码库紧密结合,揭示了现有模型在实际应用中的不足。 GenAI Arena则是一个开放平台,鼓励用户参与对生成模型的评价,特别是图像和视频生成模型,尽管当前模型在质量评价上与人类偏好相关性不高,但其透明度和社区驱动的评价方式是创新之举。

YAYI 2:多语言开源大型语言模型

YAYI 2: 多语言开源大型语言模型摘要:在自然语言处理领域,大型语言模型(LLMs)展现出与人类相当的语言理解和生成能力,甚至被视为实现人工通用智能的潜在途径。 为了促进LLMs研究,许多开源模型,如Llama 2和Falcon,已经提出,性能与专有模型媲美。 然而,这些模型在非英语环境如中文中的表现有限。 本技术报告介绍YAYI 2,一个30亿参数的多语言基础和聊天模型,旨在解决上述问题。 YAYI 2基于包含2.65万亿令牌的多语言语料库从零开始预训练,通过监督微调和强化学习与人类价值观保持一致。 解决的问题:随着LLMs技术进步,模型在实际任务中表现出人类级别能力,被认为实现AI通用智能的潜在路径。 然而,缺乏统一评估方法导致LLMs评估困难。 本论文旨在提出标准化评估方法,解决评估问题,包括完整性、一致性、合规性、反幻想及人类价值观检查。 提供开源评估工具,方便其他研究人员。 创新点:YAYI 2针对中文应用,采用解码器-only架构,加速训练和推理。 采用FlashAttention 2和MQA技术。 构建指令数据集用于微调,支持长指令、多轮对话和领域应用。 通过RLHF过程增强与人类价值观一致性。 在知识理解、数学推理、编程等基准测试上,YAYI 2优于同类开源模型。 系统架构:YAYI 2采用解码器-only架构,加速训练和推理。 利用FlashAttention 2和MQA技术。 详细预训练信息包括计算集群、训练策略和技巧,对行业有巨大益处。 结果:YAYI 2基础模型在知识、语言理解、数学、逻辑和编程测试上表现优秀,超越同类开源LLMs。 尤其在MMLU、AGIEval、CMMLU和HumanEval测试中,性能优于规模更大的Qwen-72B模型。 YAYI 2作为多语言开源大型语言模型,在多个基准测试中表现优异,为解决LLMs评估问题提供了创新方法。 模型仍需改进,以减少有害输出和幻觉,用户在关键应用中需特别审查答案,并遵守相关法律法规。 欢迎提供反馈,促进模型持续发展。 实际应用价值:YAYI 2为中文应用提供强大支持,具备指令处理、长对话和领域特定应用能力,增强AI通用智能的实现,推动自然语言处理技术进步。

曝荣耀300将有档位最薄直屏设计 机型选择史上最多
成绩数据满天飞是什么情况