2版 要闻  查看版面PDF

2026年

6月9日

查看其他日期

国家数据局发文推进行业高质量数据集建设 壮大数据标注产业 培育为数据付费的市场共识

2026-06-09 来源:上海证券报

◎记者 于祥明

国家数据局近日印发《关于推进行业高质量数据集建设行动的实施方案》(下称“实施方案”),从国家层面首次对数据赋能人工智能发展作出系统性部署,圈定强基扩容、标注攻坚等六项专项行动。文件还首次提出探索以词元(token)为基础的价值体系、探索词元交易等新型交易模式,标志着“词元经济”和“词元交易”被纳入政策视野。

圈定六项专项行动

行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。实施方案圈定强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六项专项行动,旨在助推形成“数据飞轮”,加快构建数据要素与人工智能协同演进的共生生态。

其中,强基扩容行动提出,面向人工智能应用需求丰富行业高质量数据集建设形态,包括持续推进文本、代码、图像、音频、视频、点云、时序数据、科学数据等多模态高质量数据集建设,赋能人工智能预训练、指令微调、强化学习、测评等各阶段。

赛智产业研究院院长赵刚在接受上海证券报记者采访时表示,拓宽数据供给渠道,丰富数据供给类型,加快建设行业高质量数据集,将为我国人工智能发展和应用提供充足“燃料”。

关于标注攻坚行动,实施方案提出,引导数据标注从“以人为主”向“人机协同,专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。同时,持续推动数据标注先行先试。指导首批七个承担数据标注先行先试任务的城市,持续做强做深数据标注产业。并且,培育一批数据标注龙头企业、独角兽企业、瞪羚企业,壮大数据标注产业。

“词元交易”首次被纳入政策视野

值得注意的是,在价值释放行动中,探索以词元为基础的价值体系、探索词元交易等新型交易模式首次被纳入政策视野。这意味着,国家数据局已经开启了对词元经济从定义到制度化的初步建构。

实施方案提出,释放数据要素价值,推动数据集商业化、资产化,培育为数据付费的市场共识,探索以词元为基础的价值体系。

具体措施包括,完善数据集长效运营机制,鼓励数据集在数据交易所(中心)等数据流通服务机构挂牌交易,发展“订阅模式”“商场模式”“定制模式”等多元服务形态,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升。探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据价值体系等。

“当前,词元需求的爆发式增长速度,已经成为智能经济新形态的时代坐标之一。”赵刚认为,某种程度上,词元调用量已成为衡量AI产业活跃度、价值释放程度的“度量衡”。

今年3月,中国日均词元调用量已突破140万亿,两年增长超千倍。据摩根大通预测,2025年至2030年,中国token消耗量年复合增长率将高达330%,5年增长400倍。

有机构测算,当前我国国产词元定价约为海外的1/10。我国词元价格优势极为明显,这为我国探索以词元为基础的价值体系提供了条件。

就数据产业本身来看,我国词元调用量的大量增加,其背后离不开数据集大量供给的支撑。截至2025年底,我国已建成高质量数据集超过10万个,数据要素赋能人工智能创新发展已进入良性互动阶段。赵刚预计,我国若率先实现词元交易规范化,将为打造智能经济新形态提供重要支撑,并带动各个相关产业加速发展。