<thead id="zopz9"><optgroup id="zopz9"></optgroup></thead>

    <label id="zopz9"><meter id="zopz9"></meter></label>

      <li id="zopz9"><meter id="zopz9"><th id="zopz9"></th></meter></li>

        您終于找到專注于電腦行業的管理軟件了

        由于貼近電腦行業 使用起來自然得心應手

        AI 推理能力之爭:蘋果結論遭專家挑戰


        IT之家 6 月 14 日消息,科技媒體 9to5Mac 昨日(6 月 13 日)發布博文,報道稱蘋果公司 6 月 6 日發布的 AI 研究論文《The Illusion of Thinking》引發爭議,專家質疑評估方法。

        蘋果公司在論文中指出,即便是當前最先進的大型推理模型(LRMs),在復雜任務中也會崩潰。不過 Open Philanthropy 的研究員 Alex Lawsen 對此提出詳細反駁,認為蘋果的結論源于實驗設計缺陷,而非模型推理能力的根本性局限。

        爭議的焦點是蘋果論文指出,即便是當前最先進的大型推理模型,在處理漢諾塔問題(Tower of Hanoi)等復雜任務時,也會出現徹底失敗的情況。

        IT之家注:漢諾塔問題是一個經典的遞歸算法問題:上帝創造了三根柱子,并在第一根柱子上按順序套有 N 個大小不同的圓盤(自下而上,圓盤由大到小,呈金字形)。

        規定每次只能移動最頂端的一個圓盤,并且保證整個過程中大圓盤不能放在小圓盤之上。欲將所有圓盤從第一根柱子移動到第三根柱子,試給出解決方案。

        Open Philanthropy 的研究員 Alex Lawsen 近日發布反駁文章《The Illusion of the Illusion of Thinking》,認為蘋果的研究結果更多反映了實驗設計的缺陷,而非模型推理能力的真正局限。他在文章中直言,蘋果的研究混淆了輸出限制和評估設置問題,與實際推理失敗無關。

        Lawsen 提出了三個核心問題,挑戰蘋果的結論。首先,他指出蘋果忽略了模型的 Token 預算限制。在處理 8 盤以上的河內塔問題時,如 Anthropic 的 Claude Opus 等模型已接近輸出上限,甚至明確表示“為節省 Token 而停止”。

        其次,蘋果的 River Crossing(過河)測試中包含無解謎題,例如 6 個以上角色搭配無法滿足的船只容量限制,模型因拒絕解答而被扣分

        最后,蘋果的自動化評估腳本僅以完整步驟列表為標準,未能區分推理失敗與輸出截斷,導致部分策略性輸出被誤判為失敗。Lawsen 認為,這種僵硬的評估方式有失公允。

        為支持觀點,Lawsen 重新設計了河內塔測試,要求模型生成遞歸 Lua 函數來打印解法,而非逐一列出所有步驟。

        結果令人驚訝:Claude、Gemini 和 OpenAI 的 o3 模型均能正確生成 15 盤問題的算法解法,遠超蘋果報告的“零成功”復雜性界限。

        Lawsen 得出結論:去除人為輸出限制后,LRMs 展現出處理高復雜任務的推理能力,至少在算法生成層面是如此。這表明,問題可能不在于模型本身,而在于評估方式。

        來源:IT之家
        電腦行業專用管理系統:IT江湖    上一篇    下一篇

        Copyright ? 2004-2025 宇然軟件(m.asdqqf.com) 版權所有
        粵ICP備14024714號

        主站蜘蛛池模板: 亚洲日本va在线视频观看| 国产日韩AV免费无码一区二区三区| 免费精品一区二区三区第35 | 在线综合亚洲欧洲综合网站| 120秒男女动态视频免费| 亚洲第一视频网站| 免费人成黄页在线观看日本| 亚洲va无码va在线va天堂| 怡红院免费的全部视频| 亚洲av永久无码精品国产精品| 国产伦精品一区二区免费| 亚洲中文字幕无码专区| 国产精品hd免费观看| 亚洲乱码国产乱码精品精| 182tv免费视频在线观看| 亚洲va在线va天堂va888www| 久久成人免费电影| 亚洲沟沟美女亚洲沟沟| 成人一a毛片免费视频| 亚洲6080yy久久无码产自国产| 免费a级毛片在线观看| 久久久久国色AV免费观看| 久久精品国产亚洲AV麻豆~| 最近最好最新2019中文字幕免费| 亚洲人成影院在线高清| 最好免费观看韩国+日本 | 久久夜色精品国产噜噜亚洲a| 免费观看激色视频网站bd| 亚洲AV无码精品蜜桃| 日韩中文字幕在线免费观看| 日韩毛片免费一二三| 亚洲欧洲日产国码av系列天堂| 91成人免费观看| 亚洲精品无码av中文字幕| 亚洲第一视频在线观看免费| 久久免费精品一区二区| 亚洲1234区乱码| 国内精品99亚洲免费高清| 久久久久久精品免费免费自慰| 亚洲AV成人片无码网站| 亚洲无线观看国产精品|