AI 推理能力之爭:蘋果結論遭專家挑戰
IT之家 6 月 14 日消息,科技媒體 9to5Mac 昨日(6 月 13 日)發布博文,報道稱蘋果公司 6 月 6 日發布的 AI 研究論文《The Illusion of Thinking》引發爭議,專家質疑評估方法。
蘋果公司在論文中指出,即便是當前最先進的大型推理模型(LRMs),在復雜任務中也會崩潰。不過 Open Philanthropy 的研究員 Alex Lawsen 對此提出詳細反駁,認為蘋果的結論源于實驗設計缺陷,而非模型推理能力的根本性局限。
爭議的焦點是蘋果論文指出,即便是當前最先進的大型推理模型,在處理漢諾塔問題(Tower of Hanoi)等復雜任務時,也會出現徹底失敗的情況。

IT之家注:漢諾塔問題是一個經典的遞歸算法問題:上帝創造了三根柱子,并在第一根柱子上按順序套有 N 個大小不同的圓盤(自下而上,圓盤由大到小,呈金字形)。
規定每次只能移動最頂端的一個圓盤,并且保證整個過程中大圓盤不能放在小圓盤之上。欲將所有圓盤從第一根柱子移動到第三根柱子,試給出解決方案。
Open Philanthropy 的研究員 Alex Lawsen 近日發布反駁文章《The Illusion of the Illusion of Thinking》,認為蘋果的研究結果更多反映了實驗設計的缺陷,而非模型推理能力的真正局限。他在文章中直言,蘋果的研究混淆了輸出限制和評估設置問題,與實際推理失敗無關。

Lawsen 提出了三個核心問題,挑戰蘋果的結論。首先,他指出蘋果忽略了模型的 Token 預算限制。在處理 8 盤以上的河內塔問題時,如 Anthropic 的 Claude Opus 等模型已接近輸出上限,甚至明確表示“為節省 Token 而停止”。
其次,蘋果的 River Crossing(過河)測試中包含無解謎題,例如 6 個以上角色搭配無法滿足的船只容量限制,模型因拒絕解答而被扣分。
最后,蘋果的自動化評估腳本僅以完整步驟列表為標準,未能區分推理失敗與輸出截斷,導致部分策略性輸出被誤判為失敗。Lawsen 認為,這種僵硬的評估方式有失公允。
為支持觀點,Lawsen 重新設計了河內塔測試,要求模型生成遞歸 Lua 函數來打印解法,而非逐一列出所有步驟。
結果令人驚訝:Claude、Gemini 和 OpenAI 的 o3 模型均能正確生成 15 盤問題的算法解法,遠超蘋果報告的“零成功”復雜性界限。

Lawsen 得出結論:去除人為輸出限制后,LRMs 展現出處理高復雜任務的推理能力,至少在算法生成層面是如此。這表明,問題可能不在于模型本身,而在于評估方式。
來源:IT之家