大模型基準(zhǔn)測試有了 ITU 國際標(biāo)準(zhǔn)，中國信通院牽頭制定

IT之家 4 月 11 日消息，據(jù)中國信通院今日消息，國際電信聯(lián)盟電信標(biāo)準(zhǔn)分局（ITU-T）于 2025 年 3 月正式發(fā)布 ITU-T F.748.44 基礎(chǔ)模型的評估標(biāo)準(zhǔn)：基準(zhǔn)測試 / Assessment criteria for foundation models: Benchmark。

該項(xiàng)國際標(biāo)準(zhǔn)由中國信息通信研究院（簡稱“中國信通院”）牽頭制定，規(guī)范了大模型基準(zhǔn)測試的指標(biāo)要求和測試方法。該標(biāo)準(zhǔn)旨在推動(dòng)大模型基準(zhǔn)測試體系架構(gòu)形成國際共識，為大模型技術(shù)提供方和應(yīng)用方提供高質(zhì)量的能力評估依據(jù)，引導(dǎo)大模型技術(shù)及產(chǎn)業(yè)健康有序發(fā)展。

近些年來，如何客觀、全面地衡量大模型能力并且充分挖掘大模型潛在缺陷得到產(chǎn)學(xué)研各界的廣泛關(guān)注。模型基準(zhǔn)測試（Benchmark）通過設(shè)計(jì)合理的測試任務(wù)和評價(jià)數(shù)據(jù)集來客觀、公正、量化的評估模型的性能，是目前產(chǎn)業(yè)界和學(xué)術(shù)界最為認(rèn)可的模型能力評估方法。

當(dāng)前已有數(shù)百個(gè)基準(zhǔn)測試方法和數(shù)據(jù)集用于衡量大模型的能力，例如 MMLU、C-Eval、AGIEval、GSM8K 等。但當(dāng)前產(chǎn)學(xué)研各界對大基礎(chǔ)模型基準(zhǔn)測試的體系、指標(biāo)、數(shù)據(jù)集、方法、平臺工具等仍未達(dá)成一致，缺乏統(tǒng)一的標(biāo)準(zhǔn)，導(dǎo)致大模型評測的結(jié)果公正性受到質(zhì)疑。為進(jìn)一步推動(dòng)大模型基準(zhǔn)測評的技術(shù)發(fā)展與實(shí)際應(yīng)用，充分釋放基準(zhǔn)測試在人工智能領(lǐng)域的價(jià)值，特聯(lián)合相關(guān)單位開展標(biāo)準(zhǔn)的編制工作。

本次發(fā)布的國際標(biāo)準(zhǔn)基于當(dāng)前產(chǎn)學(xué)研界 500 余項(xiàng)基準(zhǔn)測試系統(tǒng)性研究，一方面確立了大模型基準(zhǔn)測試的 4 項(xiàng)核心要素，包括測試維度（測試場景、測試能力、測試任務(wù)和測試指標(biāo)）、測試數(shù)據(jù)集、測試方法和測試工具。另一方面，針對通用場景的基礎(chǔ)模型，提供了標(biāo)準(zhǔn)化的測試用例和范例流程，以支持企業(yè)規(guī)范開展大模型能力評估。

IT之家從中國信通院官方獲悉，中國信通院人工智能研究所于 2023 年開始布局大模型基準(zhǔn)測試研究，并于 2023 年底發(fā)布“方升”大模型基準(zhǔn)測試體系，推出自適應(yīng)動(dòng)態(tài)測試方法，積累 600 萬條數(shù)據(jù)集，構(gòu)建 FactTeting 測試工具，支撐整個(gè)大模型測試過程的自動(dòng)化實(shí)施。

自 2024 年以來，參照已發(fā)布的 ITU 大模型基準(zhǔn)測試國際標(biāo)準(zhǔn)，對國內(nèi)外標(biāo)桿大模型以兩個(gè)月為周期開展持續(xù)監(jiān)測工作，包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型 X1 等上百個(gè)測試模型，目前已發(fā)布大語言通用能力、推理能力、代碼能力，多模態(tài)理解能力、文生圖能力、文生視頻能力等多個(gè)輪次的評測結(jié)果。國際標(biāo)準(zhǔn) ITU-T F.748.44 的發(fā)布是大模型測試領(lǐng)域的重要標(biāo)準(zhǔn)化成果，對推動(dòng)技術(shù)創(chuàng)新和發(fā)展、引領(lǐng)行業(yè)發(fā)展趨勢、促進(jìn)國際合作與交流等方面具有重要意義。

來源:IT之家

電腦行業(yè)專用管理系統(tǒng):IT江湖上一篇下一篇

久久精品国产亚洲AV电影网_精品亚洲综合久久中文字幕_亚洲国产成人久久精品影视_亚洲av专区无码观看精品天堂

購買咨詢

技術(shù)支持

微信交流群

大模型基準(zhǔn)測試有了 ITU 國際標(biāo)準(zhǔn)，中國信通院牽頭制定

更多資源