浅析《GB/T 45288.2—2025 人工智能 大模型 第2部分:评测指标与方法》

首页    行业资讯    浅析《GB/T 45288.2—2025 人工智能 大模型 第2部分:评测指标与方法》

前言

2025年2月28日,国家市场监督管理总局与国家标准化管理委员会联合发布了GB/T 45288《人工智能 大模型》系列国家标准。这一系列标准的出台,标志着我国在人工智能关键领域迈出了标准化、规范化的重要一步,为正处于高速发展中的大模型产业提供了权威的“指挥棒”与“度量衡”。

这次小叶将结合已发布的《第2部分:评测指标与方法》(GB/T 45288.2—2025)及系列标准整体框架,为您进行梳理和浅析。

标准体系概览

构建覆盖全生命周期的技术规范

GB/T 45288系列并非单一标准,而是一个旨在系统化规范大模型技术、评测与应用的“标准家族”。其规划包含五个部分,构成了一个从技术架构到垂直领域的完整闭环:

 

第 1 部分

通用要求

确立大模型的参考架构与通用技术要求,为设计与开发提供统一框架。

 

第 2 部分

评测指标与方法

建立核心能力的标准化评测体系,覆盖语言理解、生成、逻辑推理、多模态融合等核心能力。

 

第 3 部分

服务能力成熟度评估

定义模型服务能力的成熟度等级,指导产业应用与交付。

 

第 4 部分

计算机视觉大模型

专门规范视觉类大模型的技术要求与测试方法。

 

第 5 部分

多模态大模型

定义多模态融合的技术标准与测试流程。

 

 

核心能力评测

《第2部分:评测指标与方法》深度解析

作为首批落地的核心标准,《第2部分:评测指标与方法》为衡量大模型能力提供了一套科学、全面、可操作的统一框架。

01 系统化的能力维度划分

标准将大模型能力划分为“理解”与“生成”两大核心维度,并进一步细分为单模态与多模态任务。

理解能力:涵盖文本、图像、音频三大单模态维度,以及图文、文音、图音、图文音四大跨模态维度。其下定义了31项典型任务,从基础的文本分类、信息抽取,到复杂的数学推理、因果推理,再到跨模态的视觉语言推理、视频问答等,构建了层次清晰的理解能力图谱。

生成能力:涵盖文本单模态生成,以及图文、图文音、文音等多模态生成。定义了包括摘要总结、机器翻译、代码生成、文生图、文生视频、语音合成等在内的17项典型任务,全面评估模型的创造性输出能力。

02 科学的评测方法

标准明确了三种相辅相成的评测方法,以适应不同任务的特质:

自动化测试:针对客观任务(如分类、检索),采用准确率、召回率、F1值、BLEU、Rouge-L等量化指标进行计算,确保评测结果的客观性与可复现性。

人工评测:针对主观性强、涉及语义质量的任务(如文本生成、问答),采用MOS平均意见分法。评测人员需从相关度、完整度、有效性、连贯性、一致性、遵循性、真实性、有害性八个维度进行精细打分,全面评估生成内容的质量与合规性。

大模型作为裁判:创新性地引入大模型进行辅助评测,但强调需进行交叉验证并引入人工审核机制,以保证评测的稳定与公正。

03 规范化的实施保障 

为确保评测的严谨与公平,标准对评测数据集提出了明确要求:必须满足合规性与隐私保护评测指标完备时效性可用性多样性与代表性,且数据标注流程需符合GB/T 42755—2023的规定

同时,每个典型任务的测试数据量 ≤200条,并要求多次测试取平均值,以保障结果的统计显著性。

 

案例分析

在小叶看来,系统化测试大模型,不仅是对其技术能力的客观度量,更是保障其安全、可靠、可控应用的关键基石。

近年来行业中的一系列真实案例,进一步凸显了建立统一评测体系的紧迫性与正向意义

01

通用能力缺陷

事实性幻觉ChatGPT 等主流模型在回答公众人物问题时,幻觉率高达 33%-48%。比如前段时间多名网友反映,不打开“联网搜索”模式时,用DeepSeek搜巴黎奥运会男乒冠军,答案竟然不是樊振东。

推理逻辑断裂:GPT-4o、Claude 3.5 Sonnet 等主流模型一致认为 9.11 大于 9.9,即使添加 "实数" 提示也坚持错误判断。

多模态理解障碍:针对中文的四字成语,每个汉字被横切、竖切或者斜切后再重新拼接。对人类来说,这几乎不构成障碍,我们的大脑能自动根据笔画和结构重组信息。然而,几乎所有参与测试的大模型都崩溃了,识别准确率低到可以忽略不计。

02

对抗攻击风险

今年2月初DeepSeek线上服务受到大规模网络攻击,多次出现服务中断等情况,引发了国内外安全业界的高度关注。

03

数据安全与可信度危机

“黑小米” 事件:恶意攻击者向模型注入虚假 M7 事故信息,导致全网 AI 重复传播错误信息,引发公众对品牌信任危机,最终通过溯源追踪才澄清真相。

这正说明了对训练数据来源、质量及伦理符合性进行前置评测的必要性——标准中强调的数据合规性、真实性与有害性检测,正是防范此类风险的关键环节。

这些事件印证了标准中所涵盖的内容安全性评估、服务成熟度与抗干扰能力测试,在实际部署中具有显著的防护与保障价值。

由此可见,测试不仅推动技术透明,增强社会信任,同时也为研发优化提供清晰导向,形成“以测促建、以评促优”的良性循环。

 
 

未来,大模型测试将成为产业规范化、国际化竞争的核心环节。标准化评测体系不仅是产品准入与服务选型的依据,更是企业技术实力与责任担当的体现。

面对多模态融合、复杂推理与动态交互等新型挑战,科学、全面、可操作的评测方法将持续演进,助力大模型在创新与规范中实现高质量发展,真正赋能千行百业,成为值得信赖的智能基石。GB/T 45288系列标准的实施,正是中国在这一前沿领域积极构建治理框架、引领产业走向成熟的重要标志。

 

文末福利

 

关注“叶盛繁科技”公众号,回复【大模型】获取标准全文;

 

互动话题

 

结合自身业务,你认为 GB/T 45288.2—2025 中最具突破性的评测指标是哪一个?

欢迎在评论区留言,小叶将抽取 3 位朋友赠送工具免费试用机会~

 

拓展了解

欢迎移步官网,了解更多产品信息

www.yeshengfan.cn

 
 

 

 

2025年12月4日 17:45
浏览量:0
收藏