大模型是否有推理能力?
近期,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤」。然而,事实真的是这样吗?谷歌 DeepMind 的一篇论文似乎得出了相反的结论。
最近,DeepMind 今年 2 月份的一篇论文在社交媒体上掀起了一些波澜。
这篇论文题为「Grandmaster-Level Chess Without Search」。文中介绍说,DeepMind 的研究者训练了一个参数量为 2.7 亿的 Transformer 模型,这个模型无需依赖复杂的搜索算法或启发式算法就能达到「特级大师( Grandmaster-Level )」的国际象棋水平,优于 AlphaZero 的策略和价值网络(不含 MCTS)以及 GPT-3.5-turbo-instruct 模型。
这一结果非常有趣,也很容易激发想象力,因为到目前为止,能达到这个级别的计算机国际象棋系统 —— 无论是否基于机器学习 —— 都使用了搜索组件。而 DeepMind 模型不依赖搜索似乎就能达到如此强大的下棋水平。
很多人将其解读为:这表明 Transformer 不是简单的「随机鹦鹉」,而是具有一定的推理和规划能力。就连该论文的作者也在「结论」部分写道:「我们的工作为快速增长的文献增添了新的内容,这些文献表明,复杂而精密的算法可以被蒸馏为前馈 transformer,这意味着一种范式的转变,即从将大型 transformer 视为单纯的统计模式识别器,转变为将其视为通用算法近似的强大技术。」