中国社会科学网讯(记者 李永杰 通讯员 仲伟合 王立非)数据是新型生产要素,高质量数据标注是人工智能模型训练的核心支撑。6月7日,在澳门举办的2025年粤港澳大湾区中外语言服务创新峰会上,澳门中西创新学院与北京语言大学联合发布《粤港澳语言数据标注产业发展白皮书(2025)》(以下简称白皮书),首次公布全球、我国及粤港澳大湾区的语言数据标注产业发展现状。
图为白皮书 通讯员供图
白皮书显示,从全球与中国产业格局来看,2023年全球数据标注市场规模达140.7亿美元,美国以30%份额居首,形成“专业公司+众包平台+标准组织”的完整生态。同年中国市场规模约80亿元,以北京、广东为核心区域。粤港澳大湾区凭借多语言文化环境、密集科技企业集群及“数字湾区”“数据特区”等政策优势,构建起“国家顶层设计—区域协同—跨境合作”政策体系,成为语言数据标注产业重要集聚地。 2024年,大湾区语言数据标注产值44.02亿元,占区域数据标注产业69.9%,广深双核聚集88%的企业,形成“综合型企业主导、专业化企业补充”的格局。
白皮书在产业发展现状的分析显示,截至2024年,大湾区有3775家语言数据标注相关企业,实现产值44.02亿元,拥有从业人员1.28万人。其中,含语言数据标注的企业占94.9%,贡献85.8%产值;纯语言数据标注企业虽仅有52家,但标注精度高;外资语言数据标注企业占比3.7%,市场参与度有限。企业规模集中在100万—5000万元区间,呈现“纺锤形”分布,市场集中度中等。空间上,大湾区形成“广深双核+次级节点”结构,深圳、广州聚集88.24%的企业,贡献95.47%的产值。珠海、佛山等为次级节点,港澳特区虽直接参与有限,但可在跨语言数据标注标中发挥作用,且区域空间集聚度高,部分区域已形成“算法—数据—应用”生态闭环。产业链涵盖数据采集、工具研发、标注执行、质检交付,存在专业外包、众包平台、企业自建三种模式,与数字经济、人工智能、新质生产力高度协同,数据标注产业规模每增加10%,数字经济指数、人工智能企业数、新质生产力水平分别增长0.30%、8.96%和0.24%,对区域经济驱动作用显著。
白皮书在技术创新力与标准体系建设方面显示,自2015年起我国语言数据标注专利申请量快速增长,截止2024年,超过800件,大湾区专利申请量位居全国第二,腾讯、平安等企业在智能标注工具、质量控制算法上领先,但基础理论创新不足。AI辅助标注、联邦学习标注等技术广泛应用,“机器预标+人工精修”模式使效率提升50%以上。国家初步建立“国标—行标—团标” 体系,大湾区试点跨境数据流通标准,推动多模态标注、质量评估等区域规范,通过多级质检、标准化流程保障数据质量管理,强化隐私脱敏、众包权益保护等伦理措施,探索联邦学习等技术防止数据泄露。
白皮书在语言数据人才供需状况的分析显示,大湾区语言数据标注岗位以基础标注为主,通用标注员占比68.18%,AI训练师(15.13%)、大模型标注(3.34%)等新兴岗位逐渐崛起。岗位主要集中在广深,占比64.4%,薪资多在6000—20000元/月不等,高技能岗位稀缺。企业以中小微为主,64.4%的企业员工不足500人,外包现象普遍。全国语言数据标注人才缺口超100万人,大湾区面临“低端过剩、高端短缺”问题,亟待完善职业技能标准,推动产教融合,设立技能竞赛,保障从业者权益,构建 “初级标注员—高级训练师” 晋升通道。
粤港澳大湾区语言数据标注产业虽已具备规模与集群优势,但仍存在企业规模小、区域发展失衡、技术瓶颈等问题。为此,白皮书建议加强区域协同,打造世界级数据标注产业集群;培育数据标注龙头企业,建设产业园区;攻关智能标注技术,参与国际标准制定;健全语言数据标注人才培养与保障体系;强化数据治理与行业自律。通过政策、技术、人才协同发力,推动产业向 “规范化、智能化、高质量” 转型,为我国人工智能发展提供核心支撑。
白皮书由澳门中西创新学院校长仲伟合学术指导,北京语言大学外国语学部教授王立非带领两校研究团队编写。专家表示,白皮书为构建数字经济时代语言资源战略提供参考,为粤港澳大湾区打造数据要素集聚发展高地、抢抓人工智能发展战略机遇提供依据,也为业界把握数据标注市场机遇、为学界深化语言数据研究提供指南。