📰 筑牢规范标准根基 释放数字中文价值
_光明网
随着生成式人工智能掀起新一轮科技浪潮,语言资源作为数据要素与文明载体的双重价值日益凸显。我国在20世纪就提出语言资源概念,并在教学、科研与行业中持续实践,经过数十载耕耘,已建成全球最大语言资源库与中国语言资源知识图谱。从数十亿字语料库到千亿参数大模型训练的超大规模数据集;从静态文本采集到动态、多模态、深标注的综合资源平台,语言资源实现从学术“象牙塔”到产业“新石油”的蝶变,为提升国家语言能力、推动数字中国建设提供了坚实基础。大规模交换催生对规范标准的需求,语言资源亦不例外,统一的前置约束与框架确保资源在形式、结构与描述上的一致性,是高质量集成、互操作与可持续利用的基础。
🏷️ #语言资源 #标准规范 #数据治理 #人工智能 #数字中文
🔗 原文链接
📰 筑牢规范标准根基 释放数字中文价值
_光明网
随着生成式人工智能掀起新一轮科技浪潮,语言资源作为数据要素与文明载体的双重价值日益凸显。我国在20世纪就提出语言资源概念,并在教学、科研与行业中持续实践,经过数十载耕耘,已建成全球最大语言资源库与中国语言资源知识图谱。从数十亿字语料库到千亿参数大模型训练的超大规模数据集;从静态文本采集到动态、多模态、深标注的综合资源平台,语言资源实现从学术“象牙塔”到产业“新石油”的蝶变,为提升国家语言能力、推动数字中国建设提供了坚实基础。大规模交换催生对规范标准的需求,语言资源亦不例外,统一的前置约束与框架确保资源在形式、结构与描述上的一致性,是高质量集成、互操作与可持续利用的基础。
🏷️ #语言资源 #标准规范 #数据治理 #人工智能 #数字中文
🔗 原文链接