自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释

作者： 2024年11月18日科技浏览

自我纠错（Self Correction）能力，传统上被视为人类特有的特征，正越来越多地在人工智能领域，尤其是大型语言模型（LLMs）中得到广泛应用，最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。

传统的大语言模型，因为在输出答案的时候是逐个Token输出，当输出长度较长时，中间某些Token出错是必然发生。但即使LLM后来知道前面输出的Token错了，它也得用更多错误来“圆谎”，因为没有机制让它去修正前面的错误。

而OpenAI o1在“慢思考”也就是生成Hidden COT的过程中，通过分析OpenAI官网给出的Hidden COT例子可以发现，在解决字谜问题的思考过程中，o1首先发现了每两个连续的明文字母会映射到一个秘文字母，于是便尝试使用奇数字母来构建明文，但是经过验证发现并不合理（Not directly）；接着又重新修正答案最终成功解出字谜。

图1 OpenAI o1 官网示例（部分Hidden CoT）

Reflection 70B的关键技术也包括 错误识别 和 错误纠正 。他们用到了一种名为 Reflection-Tuning（反思微调） 的技术，使得模型能够在最终确定回复之前，先检测自身推理的错误并纠正。在实际的执行过程中，这会用到一种名为思考标签（thinking tag）的机制。模型会在这个标签内部进行反思，直到它得到正确答案或认为自己得到了正确答案。

频频应用于大语言模型的自我纠错技术为何有效？为什么纠错过程可以让模型把原本答错的问题重新答对？

为了探究这一问题，北大王奕森团队与MIT合作，从理论上分析了大语言模型自我纠错能力背后的工作机理。

团队将自我纠错的过程抽象为对齐任务， 从上下文学习（In-context learning）的角度对自我纠错进行了理论分析 。值得一提的是，他们并没有使用线性注意力机制下的线性回归任务进行理论分析，而是使用真实世界LLM在用的 softmax多头注意力机制的transformer结构 ，并利用 Bradley-Terry 模型和 Plackett-Luce 模型（LLM对齐的实际选择，用于RLHF和DPO）设计对齐任务 进行研究。受理论启发，他们提出了一种简单的自我纠错策略--上下文检查（Check as Context），并通过实验，在消除大语言模型中存在的潜在偏见以及 防御越狱攻击 中效果显著。