随着2026年全国两会的胜利闭幕,“数据要素潜力加快释放”被写入政府工作报告,数字经济核心产业增加值占国内生产总值的比重已突破10.5%。在这一宏观背景下,作为数据要素价值释放的核心载体,高质量数据集正以前所未有的速度走进产业视野,成为连接人工智能(AI)技术创新与实体经济深度融合的关键桥梁。
值此“2026第二届数据要素治理学术研讨会”即将于4月初召开之际,本文将从政策布局、技术手段、应用成果及未来趋势四个维度,全景式梳理我国高质量数据集领域的发展现状,为即将到来的思想碰撞提供背景注脚。

01 政策先行
制度供给为数据集建设“铺路架桥”
2026年开年以来,国家层面在数据领域的政策密集出台,为高质量数据集的建设与流通构筑起日益清晰的制度框架。
两会前夕,国家数据局、工业和信息化部、公安部、中国证监会四部门联合发布《关于培育数据流通服务机构加快推进数据要素市场化价值化的意见》,首次系统部署数据交易所、数据流通服务平台企业、数据商三类机构的功能定位与发展路径。这一政策与政府工作报告中“建设高质量数据集”和“深化拓展‘人工智能+’”的部署形成精准衔接。
更为关键的是,我国高质量数据集系列标准的研制工作正在加速推进。据中国电子技术标准化研究院消息,《高质量数据集分类指南》、《高质量数据集格式要求》、《高质量数据集数据标注要求》和《高质量数据集质量评测规范》等国家标准已形成征求意见稿,《高质量数据集建设指南》也已完成拟立项公示。
中国电子技术标准化研究院副院长范科峰指出,此次系列标准直击当前数据集建设中“方法论缺失、格式不统一、评测脱节”等产业痛点,形成了覆盖数据采集、预处理、标注、模型验证的全链条解决方案。
在数据产权制度建设层面,国家正致力于构建“保障权益、合规使用”的数据产权制度。吉林大学常务副校长蔡立东教授解读称,当前政策锚定“行为动态赋权”的基本取向,根据数据采集、加工、使用等实际行为赋予相应权利,明确了通过数据产权促进流通创新的基本政策导向。
02 技术赋能
从“经验驱动”迈向“工程化闭环”
高质量数据集的建设并非简单的数据堆积,而是一项涵盖数据采集、智能预处理、高质量标注的全链路系统工程。
在数据采集环节,多源异构数据的统一汇聚成为核心能力。以城市指挥中心等复杂场景为例,采集方式已涵盖FTP、对象存储对接、网络爬取、视频网关集成、模型推理数据回流等多种路径。值得关注的是,“数据回流集成”正成为闭环建设的关键一环——将模型推理过程中产生的数据重新注入数据体系,形成“数据—模型—应用—数据”的持续优化循环。
在数据预处理阶段,智能化手段正在大幅提升原始数据的“含金量”。视频脱敏与浓缩、图像几何变换与色彩优化、文本冗余过滤与隐私脱敏、语音去噪与分帧处理等一系列智能预处理插件的应用,使原始数据得以转化为精细化、高质量的可用样本。
在数据标注环节,端到端的标注流程已覆盖从样本接入到数据入库的全链路。众包标注、项目派单、智能预标等模式并行发展,对话指令标注、多模态标注、3D点云标注等复杂标注能力持续提升。与此同时,学术界也在探索利用大语言模型实现自动化、可扩展的科学数据库构建。最新研究显示,基于LLM的自动化框架能够实现与人工专家 curated 数据库90%的重叠度,显著降低人工负担。
03 成果涌现
行业数据集从“试点探索”走向“规模化落地”
当前,高质量数据集的建设已从概念验证阶段迈向行业纵深,在有色金属、智能网联、具身智能等多个领域涌现出一批标志性成果。
有色金属行业率先破题。中铝集团作为行业“链主”单位,构建了“以价值定场景、以场景定模型、以模型定数据”的工作模式,打造了8个高质量数据集,建成统一的数据中台、AI训练推理平台、智能体开发平台和高质量数据集标注平台。2025年底,中铝集团联合中国有色金属工业协会发起成立有色金属行业高质量数据集联盟,首批10家成员单位涵盖骨干央企、技术研发代表企业和高校院所。
西部地区在数据产品交易领域实现突破。今年3月,成都市锦江区自主研发的“车路协同感知源数据产品(高质量数据集)”和“基于特装具身智能四足机器人关节模组工况载荷谱的高质量数据集”在成都文化产权交易所成功挂牌交易,实现了西部地区车路协同、具身智能两大前沿领域数据产品挂牌交易“零的突破”。前者覆盖“车—路—云—网—图”全维度交通体系,后者深度覆盖奔跑、攀爬等多类机器人应用场景,可直接用于算法开发与产品验证。
具身智能领域开源数据集建设同步提速。3月16日,开放原子开源基金会在上海举办开源数据集专场活动,开源数据集工作组正式启动,具身智能开源数据集社区同步成立。作为首批成果,OpenLET“触觉灵巧操作+全身运动”数据集在AtomGit平台全球首发——这是全球首个融合触觉灵巧操作与全身高动态运动的稀缺数据集,包含800条真机操作数据,覆盖快递分拣、快消上料、家庭物品抓取等典型任务。
04 趋势展望
从“沉默矿藏”走向“流动黄金”
展望未来,高质量数据集的发展正呈现出三个清晰趋势:
其一,从“私有化沉淀”走向“开源共享”。过去,数据常被视为企业的“私有护城河”。而当前,业界正形成共识:数据需要成为共同培育的公共基础设施。正如开放原子开源基金会理事长程晓明所言,实现在流通中创造价值、在开放中形成商业闭环,是产业转型升级的关键。
其二,从“通用数据集”走向“垂直场景深耕”。无论是中铝集团的有色金属数据集,还是成都的车路协同与具身智能数据集,抑或是OpenLET的触觉灵巧操作数据集,都指向同一个方向:高质量数据集正在向行业深处扎根,以场景定义数据,以数据反哺场景。
其三,从“单一买卖”走向“多元价值流通”。四部门《意见》提出的“数据换数据、换订单、换服务、换模型、换场景”正在从政策文本走向市场实践。清华大学经济管理学院互联网发展与治理研究中心主任陈煜波指出,平台不是直接出让原始数据,而是以分析能力、模型服务、市场洞察等形态输出数据价值——这正是“数据换模型”“数据换服务”的生动体现。
05 结语
当数据不再只是被动沉积的资源,而成为可以在制度规范、技术赋能、行业应用中持续流动的“活水”,我国人工智能产业的高质量发展和数字经济的创新也将拥有更坚实的底座。
2026年4月10日,“第二届数据要素治理学术研讨会”即将在深圳举办的“第十四届中国电子信息博览会”期间启幕。届时,来自政产学研各界的专家学者将齐聚一堂,围绕高质量数据集的建设路径、治理机制与价值释放展开深度对话。我们期待这场思想盛宴能为数据要素的“流动黄金”注入更多智慧动能,也诚挚邀请各界同仁共赴盛会,共话未来。