大语言模型根本无法进行逻辑推理苹果发文质疑

作者： 2024年10月13日创投浏览

大语言模型（LLM）是真的会数学推理？还是只是在“套路”解题？

近年来，大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现： 这些模型是否真正具备逻辑推理能力，还是仅仅通过复杂的模式匹配来应对看似推理的问题？ 尤其是在数学推理任务中，模型的表现究竟是在模拟人类思维，还是仅仅通过数据模式匹配得出答案？

日前，来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准，针对多个开源模型（如 Llama、Phi、Gemma、Mistral）和闭源模型（如 GPT-4o、o1 系列）进行了大规模评估。

结果显示， 当问题中的数值或名字变化时，模型的会表现出显著的波动 。此外，随着问题难度的提升（如增加更多子句），模型的表现迅速下降，这表明这些模型在推理复杂问题时非常脆弱。

研究团队认为，这种表现下降并非偶然，而是因为 当前的大语言模型缺乏真正的逻辑推理能力 ，更多是在基于训练数据中的模式进行匹配，而非像人类一样进行符号和逻辑推导。

即使是简单的变化，如调整问题中的数值，也能导致模型准确率 下降 10% 。而当问题增加一个额外但无关的子句时，性能下降幅度甚至 高达 65% 。

论文链接：https://arxiv.org/abs/2410.05229

大模型不具备形式推理能力？5 大证据来了

三年前，OpenAI 发布了 GSM8K 数据集（目前常用的一种小学数学推理基准数据集），测试 GPT-3（175B参数）在数学题上的表现，那时 GPT-3 的得分仅为 35%。如今，拥有约 30 亿参数的模型已能够在 GSM8K 测试中取得超过 85% 的得分，参数更大的模型甚至超过 95%。

然而，随着准确率的提升，疑问也随之而来：这些模型的推理能力是否真的进步了？它们的表现是否真的体现了逻辑或符号推理能力，抑或是简单的模式识别，数据污染，甚至过拟合的结果？

为进一步探索这一问题，研究团队此发了 GSM-Symbolic，用于测试大语言模型在数学推理中的极限。GSM-Symbolic 基于 GSM8K 数据集，通过符号模板生成多样化的问题实例，允许更可控的实验设计。

为了更清晰地观察模型在面对这些变体问题时的表现，他们生成了 50 个独特的 GSM-Symbolic 集合，这些问题与 GSM8K 问题类似，但更改了其中的数值和名称。

基于 GSM-Symbolic，他们从 5 个方面说明了为何他们认为大语言模型不具备形式推理能力：

1. GSM8K 的当前准确率并不可靠

通过对多个开源模型（如 Llama 8B、Phi-3）和闭源模型（如 GPT-4o 和 o1 系列）的大规模评估，他们发现模型在 GSM8K 上的表现存在显著波动。例如，Llama 8B 的准确率在 70%-80% 之间波动，而 Phi-3 的表现则在 75%-90% 之间浮动。

这也表明，模型在处理相似问题时表现并不稳定，GSM8K 上的高分并不能证明它们具备真正的推理能力。

图｜由 GSM-Symbolic 模板生成的 50 套 8-shot 思想链（CoT）性能分布，显示了所有 SOTA 模型之间准确性的显著差异性。

对于大多数型号来说，GSM-Symbolic 的平均性能低于 GSM8K（图中由虚线表示）。有趣的是，GSM8K 的性能落在分布的右侧，从统计学上讲，这应该非常低的可能性，因为 GSM8K 基本上只是 GSM-Symbolic 的一次单一抽样。

2. 对名称和数字变动的敏感性

研究还发现，当前的大语言模型对问题中的专有名称（如人名、食物、物品）的变化仍然很敏感，当数字发生变化时，大语言模型就会更加敏感。

例如，仅仅改变问题中的名字，就可能导致模型的准确率变化高达 10%。如果将这种情况类比到小学数学测试中，仅仅因为改变了人名而导致分数下降 10% ，是非常不可思议的。

图｜当只更改名称、专有编号或同时更改名称和编号时，大语言模型的敏感性如何？总体而言，即使只更改名称，模型也有明显的性能变化，但当更改编号或合并这些变化时，性能差异更大。

3. 问题难度的增加导致表现急剧下降

研究团队通过引入三种新的 GSM-Symbolic 变体（GSM-M1、GSM-P1、GSM-P2），通过删除一个分句（GSM-M1）、增加一个分句（GSM-P1）或增加两个分句（GSM-P2），来调整问题难度。

图｜通过修改条款数量来修改 GSM-Symbolic 的难度级别

图｜增加条款数量对性能的影响：随着GSM-M1→GSM-Symb→GSM-P1→GSM-P2的难度增加，性能分布向左移动（即准确性下降），方差增加。

结果发现，随着问题难度的增加（GSM-M1 → GSM-Symb → GSM-P1 → GSM-P2），模型的表现不仅下降显著，且表现波动也变得更加剧烈。面对更复杂的问题时，模型的推理能力变得更加不可靠。

4. 添加无关子句对性能的巨大影响

为进一步测试模型的推理能力，研究团队设计了 GSM_NoOp 实验，在原有问题中添加一个似乎相关但实际无关的子句 (hence "no-op")。

结果显示， 所有模型的表现都显著下降，包括性能较好的 o1 模型在内 。这种现象进一步说明，模型并没有真正理解数学概念，而是通过模式匹配来得出答案。

图｜在 GSM-NoOp 上，模型的性能明显下降，较新的模型比旧的模型下降更大。

5. 扩展规模和计算能力并不能解决根本问题

此外，他们还探讨了通过扩大数据、模型规模或计算能力是否能够解决推理能力不足的问题。

Mehrdad Farajtabar 表示，尽管 OpenAI 的 o1 系列在性能上有一定改善，但它们也会出现这样的愚蠢错误，要么是它不明白“现在”是什么意思，要么是它不明白“去年”是什么意思，还有一种更可能的解释是，更大的训练数据具有这种模式，所以它又沿用了这种模式。

图｜o1-mini 和 o1-preview 的结果：这两个模型大多遵循我们在正文中介绍的相同趋势。然而，o1-preview 在所有难度级别上都显示出非常强大的结果，因为所有分布都彼此接近。

他认为，理解大语言模型的真正推理能力对于在现实世界中的应用至关重要，尤其是在 AI 安全、教育、医疗保健和决策系统等对准确性和一致性要求极高的领域。

研究结果表明， 当前大语言模型的表现，更像是高级的模式匹配器，而非具备形式推理能力的系统 。为了在这些领域安全、可靠地部署大语言模型，开发更为鲁棒和适应性强的评估方法显得尤为重要。

逻辑推理：大语言模型的真正挑战

研究人员表示，总体而言，这项研究没有发现大语言模型具备正式的逻辑推理能力，无论是开源模型，还是闭源模型。

它们的行为更像是复杂的模式匹配，甚至很脆弱，以至于简单改变名字就能导致结果变化约 10%。尽管可以通过增加数据量、参数规模或计算能力，或者为 Phi-4、Llama-4、GPT-5 提供更好的训练数据来提高表现，但 他们认为这只会带来“更好的模式匹配者”，而不是“更好的推理者” 。

有读者对 10% 的表现波动提出了疑问。对此，Farajtabar 回应道：

“如果你指的是 Llama 3 8B，它确实是一个先进的模型，并且假设已经通过大量精心设计的数据进行了训练，然而即便如此，10% 的偏差对我来说还是太大了。对于较旧的模型来说，这种波动更为明显。 真正令人担忧的问题在于，当问题难度稍微提升（例如通过增加一个子句）时，偏差会迅速增加到 16%。 是的，或许我们可以通过收集更多类似数据来缩小这些差异，但 如果问题难度继续上升，这种偏差很可能会呈指数级增长 。”

随着大语言模型在各类应用场景中被广泛采用，如何确保它们能够处理更复杂、更多样化的问题，已成为 AI 研究领域面临的下一个重大挑战。

未来，大语言模型需要突破模式匹配，真正实现逻辑推理，才能应对不断变化的现实需求。这也是 AI 社区共同努力的方向。

：田小婷

对话吴翰清：把全世界AI联合起来，打败OpenAI这个垄断怪兽

在中国互联网技术圈中，吴翰清这位充满传奇色彩的“黑客”有着独特的地位。他以单挑阿里的网络和破解拉斯维加斯酒店Wi-Fi的过往，成为业界的焦点。如今，他虽离开阿里，但办公室依然象征着他的雄心，位于一座新兴的科技中心，周围是阿里云的旧址和各种未来感十足的建筑。在与我们的对话中，吴翰清提出了一个大胆的设想，即联合全球的力量来对抗OpenAI，这个意图打造“怪兽”的科技巨头。他认为，尽管大模型技术看似强大，但其应用方式被误解，工业界过分追求逻辑推理能力，而忽视了其局限。吴翰清将大语言模型的本质定义为“速成幻觉智能”，指出它无法自我增长知识，这限制了其实际应用价值没猛悄。为了揭示大模型的缺陷，吴翰清通过一个简单的问题，即《西游记》中孙悟空被提到的次数，揭示了大模型在逻辑推理上的不足。他构建了一个系统，将神经网络和高级编程语言统一，以解决大模型的幻觉问题，使AI具备更高的精度和可控性。他的目标是创建一个全新的计算机体系，其中大模型仅作为核心组件，而非全知全能的中心。吴翰清的创业项目，名为kOS，它的架构设计公开，包括输入输出模块、控制器等，旨在实现人机共生交互，通过数据脱水和浸泡技术，让普通人也能通过自然语言与之交互。他希望打造一个AI互联网，打破数据垄断，让每个个体都能拥有个性化的星伴和知识共享，避免单一超级枯渣智能的威胁。在这个乌知掘托邦构想中，吴翰清坚持开放和公平的原则，承诺开源和公众监督，以防止知识的集中和权力的滥用。他的目标是创造一个百花齐放、观点多元的未来，而不是单一的、被统一的AI世界。在这个还未完全成形的公司，吴翰清已经描绘出一幅关乎人类未来的愿景。

我在iPhone上装了70亿参数大模型，来自陈天奇团队最新成果

克雷西发自凹非寺量子位 | 公众号 QbitAI跑大语言模型的门槛，已降低至一部iPhone。安卓版本也有，只要大悔手机RAM达6G，听起来是否比使用2060更令人震撼？而且这次提供的是开箱即用的版本！该项目名为MLC LLM，与之前的WebLLM同出自陈天奇团队。目前GitHub上收获超过6800星。可测试的模型包括基于LLaMA的羊驼家族的RedPajama和Vicuna。可选模型参数分别为30亿和70亿，与很多在线Demo规模相当。 RedPajama团队表示，这一成果开启了大模型私有化部署的可能性。接下来，我们来看看它的实际体验。我们选择了Vicuna模型进行测试。首先测试它的文学造诣，让它为四个季节分别写了一首诗。韵律方面，基本上是两三句一押。除了诗歌，它还能创作故事，甚至还链仿搏能写出内心戏。不仅限于爱情，其他类型的故事也难不倒它。在文学应用之外，我们再试一试它棚祥的实用功能。我们让它生成了一道夏威夷披萨的菜谱，看上去还很不错。旅游计划也可以由它来安排。再来看看它在理工科上的表现。首先测试代码，让它用Python写了一段寻找最大数的代码。结果符合要求，但遇到稍难的问题，编程能力就有些不足。至于数学和逻辑推理，表现一般，毕竟为适配手机参数有限，情有可原。我们还试了试用中文进行提问，但发现目前对中文的适配还有问题。另外，移动APP目前还不具备保存聊天记录功能，切出界面时一定要小心。虽然目前手机上运行的大模型能力有限，但团队展示了未来更多发展方向。例如为用户定制模型并与云端公共基础模型交互、提供离线支持、App嵌入、去中心化等。这款大模型支持iOS、安卓移动设备，以及Windows和Mac。 iOS用户可以先安装好TestFlight，然后通过下面的传送门申请测试：传送门： /jo...如果名额已满，也可以使用GitHub上的代码自行编译安装：传送门： /mlc-ai/mlc-l...安卓用户直接下载apk安装即可，第一次运行时需联网下载数据包：传送门： /mlc-ai/binar...桌面用户请参阅官方教程：传送门： /mlc-llm/

使用频率较高的大语言模型有哪些

使用频率较高的大语言模型主要包括OpenAI的GPT系列，特别是GPT-3和GPT-4，它们因其强大的文本生成和理解能力，在自然语言处理领域获得了广泛关注。 GPT系列模型能够生成连贯的文本，回答问题，甚至进行简单的逻辑推理，因此在商业、教育、娱乐等多个领域都有广泛应用。此外，BERT模型也备受瞩目。它是一个双向模型，能够更好地理解上下文信息，在自然语言理解任务中表现出色，如文本分类、情感分析、问答系统等。 BERT模型的成功得益于其创新的预训练方法和Transformer架构，使其能够捕捉到文本中的深层语义信息。在国内，网络公司开发的文心一言也是使用频率较高的大语言模型。它基于自然语言处理技术，能够协助完成广泛的任务，提供准确的信息和建议。文心一言凭借网络的技术支撑和丰富的数据资源，在国内市场获得握贺纳了广泛的认可和应用。总的来说，GPT系列、段没BERT和拍或文心一言是目前使用频率较高的大语言模型，它们在不同领域都发挥着重要作用。