浅析《GB/T 45288.2—2025 人工智能大模型第2部分：评测指标与方法》

首页 ꄲ 行业资讯 ꄲ 浅析《GB/T 45288.2—2025 人工智能大模型第2部分：评测指标与方法》

前言

2025年2月28日，国家市场监督管理总局与国家标准化管理委员会联合发布了GB/T 45288《人工智能大模型》系列国家标准。这一系列标准的出台，标志着我国在人工智能关键领域迈出了标准化、规范化的重要一步，为正处于高速发展中的大模型产业提供了权威的“指挥棒”与“度量衡”。

这次小叶将结合已发布的《第2部分：评测指标与方法》（GB/T 45288.2—2025）及系列标准整体框架，为您进行梳理和浅析。

一

标准体系概览

构建覆盖全生命周期的技术规范

GB/T 45288系列并非单一标准，而是一个旨在系统化规范大模型技术、评测与应用的“标准家族”。其规划包含五个部分，构成了一个从技术架构到垂直领域的完整闭环：

第 1 部分

通用要求

确立大模型的参考架构与通用技术要求，为设计与开发提供统一框架。

第 2 部分

评测指标与方法

建立核心能力的标准化评测体系，覆盖语言理解、生成、逻辑推理、多模态融合等核心能力。

第 3 部分

服务能力成熟度评估

定义模型服务能力的成熟度等级，指导产业应用与交付。

第 4 部分

计算机视觉大模型

专门规范视觉类大模型的技术要求与测试方法。

第 5 部分

多模态大模型

定义多模态融合的技术标准与测试流程。

二

核心能力评测

《第2部分：评测指标与方法》深度解析

作为首批落地的核心标准，《第2部分：评测指标与方法》为衡量大模型能力提供了一套科学、全面、可操作的统一框架。

01 系统化的能力维度划分

标准将大模型能力划分为“理解”与“生成”两大核心维度，并进一步细分为单模态与多模态任务。

理解能力：涵盖文本、图像、音频三大单模态维度，以及图文、文音、图音、图文音四大跨模态维度。其下定义了31项典型任务，从基础的文本分类、信息抽取，到复杂的数学推理、因果推理，再到跨模态的视觉语言推理、视频问答等，构建了层次清晰的理解能力图谱。

生成能力：涵盖文本单模态生成，以及图文、图文音、文音等多模态生成。定义了包括摘要总结、机器翻译、代码生成、文生图、文生视频、语音合成等在内的17项典型任务，全面评估模型的创造性输出能力。

02 科学的评测方法

标准明确了三种相辅相成的评测方法，以适应不同任务的特质：

自动化测试：针对客观任务（如分类、检索），采用准确率、召回率、F1值、BLEU、Rouge-L等量化指标进行计算，确保评测结果的客观性与可复现性。

人工评测：针对主观性强、涉及语义质量的任务（如文本生成、问答），采用MOS平均意见分法。评测人员需从相关度、完整度、有效性、连贯性、一致性、遵循性、真实性、有害性八个维度进行精细打分，全面评估生成内容的质量与合规性。

大模型作为裁判：创新性地引入大模型进行辅助评测，但强调需进行交叉验证并引入人工审核机制，以保证评测的稳定与公正。

03 规范化的实施保障

为确保评测的严谨与公平，标准对评测数据集提出了明确要求：必须满足合规性与隐私保护、评测指标完备、时效性、可用性、多样性与代表性，且数据标注流程需符合GB/T 42755—2023的规定。

同时，每个典型任务的测试数据量 ≤200条，并要求多次测试取平均值，以保障结果的统计显著性。

三

案例分析

在小叶看来，系统化测试大模型，不仅是对其技术能力的客观度量，更是保障其安全、可靠、可控应用的关键基石。

近年来行业中的一系列真实案例，进一步凸显了建立统一评测体系的紧迫性与正向意义。

01

通用能力缺陷

事实性幻觉：ChatGPT 等主流模型在回答公众人物问题时，幻觉率高达 33%-48%。比如前段时间多名网友反映，不打开“联网搜索”模式时，用DeepSeek搜巴黎奥运会男乒冠军，答案竟然不是樊振东。

推理逻辑断裂：GPT-4o、Claude 3.5 Sonnet 等主流模型一致认为 9.11 大于 9.9，即使添加 "实数" 提示也坚持错误判断。

多模态理解障碍：针对中文的四字成语，每个汉字被横切、竖切或者斜切后再重新拼接。对人类来说，这几乎不构成障碍，我们的大脑能自动根据笔画和结构重组信息。然而，几乎所有参与测试的大模型都崩溃了，识别准确率低到可以忽略不计。

02

对抗攻击风险

今年2月初DeepSeek线上服务受到大规模网络攻击，多次出现服务中断等情况，引发了国内外安全业界的高度关注。

03

数据安全与可信度危机

“黑小米” 事件：恶意攻击者向模型注入虚假 M7 事故信息，导致全网 AI 重复传播错误信息，引发公众对品牌信任危机，最终通过溯源追踪才澄清真相。

这正说明了对训练数据来源、质量及伦理符合性进行前置评测的必要性——标准中强调的数据合规性、真实性与有害性检测，正是防范此类风险的关键环节。

这些事件印证了标准中所涵盖的内容安全性评估、服务成熟度与抗干扰能力测试，在实际部署中具有显著的防护与保障价值。

由此可见，测试不仅推动技术透明，增强社会信任，同时也为研发优化提供清晰导向，形成“以测促建、以评促优”的良性循环。

未来，大模型测试将成为产业规范化、国际化竞争的核心环节。标准化评测体系不仅是产品准入与服务选型的依据，更是企业技术实力与责任担当的体现。

面对多模态融合、复杂推理与动态交互等新型挑战，科学、全面、可操作的评测方法将持续演进，助力大模型在创新与规范中实现高质量发展，真正赋能千行百业，成为值得信赖的智能基石。GB/T 45288系列标准的实施，正是中国在这一前沿领域积极构建治理框架、引领产业走向成熟的重要标志。

文末福利

关注“叶盛繁科技”公众号，回复【大模型】获取标准全文；

互动话题

结合自身业务，你认为 GB/T 45288.2—2025 中最具突破性的评测指标是哪一个？

欢迎在评论区留言，小叶将抽取 3 位朋友赠送工具免费试用机会～

拓展了解

欢迎移步官网，了解更多产品信息

www.yeshengfan.cn

ꂃ前一个：无

ꁹ后一个：无

浅析《GB/T 45288.2—2025 人工智能 大模型 第2部分：评测指标与方法》

浅析《GB/T 45288.2—2025 人工智能大模型第2部分：评测指标与方法》