📰 为AI发展提供充足“燃料” 行业高质量数据集建设方案落地_数字快讯_数字中国建设峰会

国家数据局印发实施方案,提出到2028年底建立覆盖重点领域、经过应用验证的行业高质量数据集,并打造数据驱动AI创新的典型场景、培育创新型数据企业和专业人才,形成数据集建设工具与标准。专家指出,高质量数据集是大模型训练与应用的基石,规模与质量直接决定AI创新高度与产业落地深度,数据标注、数据服务、模型应用等环节将因建设推进而受惠。当前全国已建成超11.6万个高质量数据集,总体量超960PB,Token日均调用量突破140万亿,但行业数据仍存在分散、质量参差、缺乏统一标准等问题,制约重点行业和复杂场景应用。实施方案聚焦强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大行动,构建“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的数据飞轮,推动数据要素与AI协同演进的共生生态。具体包括拓宽供给渠道、丰富数据类型、重点领域及创新领域建设高质量数据集;推动数据标注先行先试,培育龙头企业与独角兽;在价值释放方面创新商业模式,探索词元交易等可量化定价的数据价值体系。分析人士认为系列举措将促使数据标注、数据服务、模型应用等产业环节受益,推动数据清洗、增强、质检等关键技术攻关,鼓励仿真合成等解决稀缺场景数据难题,促进数据流通与商业化。最终目标是建立数据底数、提升产品化与服务化能力,构建需求-数据-模型闭环,形成可复用标杆案例,促进重点行业和新兴领域的数据采集、仿真建模、场景测试与模型训练的发展。

🏷️ #数据高质量 #数据飞轮 #行业应用 #数据标注 #模型应用

🔗 原文链接
 
 
Back to Top