大模型基準(zhǔn)測試有了 ITU 國際標(biāo)準(zhǔn),中國信通院牽頭制定
IT之家 4 月 11 日消息,據(jù)中國信通院今日消息,國際電信聯(lián)盟電信標(biāo)準(zhǔn)分局(ITU-T)于 2025 年 3 月正式發(fā)布 ITU-T F.748.44 基礎(chǔ)模型的評估標(biāo)準(zhǔn):基準(zhǔn)測試 / Assessment criteria for foundation models: Benchmark。
該項(xiàng)國際標(biāo)準(zhǔn)由中國信息通信研究院(簡稱“中國信通院”)牽頭制定,規(guī)范了大模型基準(zhǔn)測試的指標(biāo)要求和測試方法。該標(biāo)準(zhǔn)旨在推動(dòng)大模型基準(zhǔn)測試體系架構(gòu)形成國際共識,為大模型技術(shù)提供方和應(yīng)用方提供高質(zhì)量的能力評估依據(jù),引導(dǎo)大模型技術(shù)及產(chǎn)業(yè)健康有序發(fā)展。

近些年來,如何客觀、全面地衡量大模型能力并且充分挖掘大模型潛在缺陷得到產(chǎn)學(xué)研各界的廣泛關(guān)注。模型基準(zhǔn)測試(Benchmark)通過設(shè)計(jì)合理的測試任務(wù)和評價(jià)數(shù)據(jù)集來客觀、公正、量化的評估模型的性能,是目前產(chǎn)業(yè)界和學(xué)術(shù)界最為認(rèn)可的模型能力評估方法。
當(dāng)前已有數(shù)百個(gè)基準(zhǔn)測試方法和數(shù)據(jù)集用于衡量大模型的能力,例如 MMLU、C-Eval、AGIEval、GSM8K 等。但當(dāng)前產(chǎn)學(xué)研各界對大基礎(chǔ)模型基準(zhǔn)測試的體系、指標(biāo)、數(shù)據(jù)集、方法、平臺工具等仍未達(dá)成一致,缺乏統(tǒng)一的標(biāo)準(zhǔn),導(dǎo)致大模型評測的結(jié)果公正性受到質(zhì)疑。為進(jìn)一步推動(dòng)大模型基準(zhǔn)測評的技術(shù)發(fā)展與實(shí)際應(yīng)用,充分釋放基準(zhǔn)測試在人工智能領(lǐng)域的價(jià)值,特聯(lián)合相關(guān)單位開展標(biāo)準(zhǔn)的編制工作。
本次發(fā)布的國際標(biāo)準(zhǔn)基于當(dāng)前產(chǎn)學(xué)研界 500 余項(xiàng)基準(zhǔn)測試系統(tǒng)性研究,一方面確立了大模型基準(zhǔn)測試的 4 項(xiàng)核心要素,包括測試維度(測試場景、測試能力、測試任務(wù)和測試指標(biāo))、測試數(shù)據(jù)集、測試方法和測試工具。另一方面,針對通用場景的基礎(chǔ)模型,提供了標(biāo)準(zhǔn)化的測試用例和范例流程,以支持企業(yè)規(guī)范開展大模型能力評估。
IT之家從中國信通院官方獲悉,中國信通院人工智能研究所于 2023 年開始布局大模型基準(zhǔn)測試研究,并于 2023 年底發(fā)布“方升”大模型基準(zhǔn)測試體系,推出自適應(yīng)動(dòng)態(tài)測試方法,積累 600 萬條數(shù)據(jù)集,構(gòu)建 FactTeting 測試工具,支撐整個(gè)大模型測試過程的自動(dòng)化實(shí)施。
自 2024 年以來,參照已發(fā)布的 ITU 大模型基準(zhǔn)測試國際標(biāo)準(zhǔn),對國內(nèi)外標(biāo)桿大模型以兩個(gè)月為周期開展持續(xù)監(jiān)測工作,包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型 X1 等上百個(gè)測試模型,目前已發(fā)布大語言通用能力、推理能力、代碼能力,多模態(tài)理解能力、文生圖能力、文生視頻能力等多個(gè)輪次的評測結(jié)果。國際標(biāo)準(zhǔn) ITU-T F.748.44 的發(fā)布是大模型測試領(lǐng)域的重要標(biāo)準(zhǔn)化成果,對推動(dòng)技術(shù)創(chuàng)新和發(fā)展、引領(lǐng)行業(yè)發(fā)展趨勢、促進(jìn)國際合作與交流等方面具有重要意義。
來源:IT之家