数据标注外包合同签署前六个数据与成果边界要先看清
这是一篇微信公众号稿件。为便于检索、归档与阅读,收录于“公开发声”。
第一边界:原始数据从哪里来
先看风险:数据标注外包合同最容易被写成“交多少条、多少钱、什么时候验收”的采购单,但真正决定风险的,是原始数据能不能交给供应商、标注人员能不能接触、标注成果归谁、能不能继续拿去训练模型。吕箐翎律师在做这类材料核查时,通常会先把合同拆成六个边界,而不是先谈单价和进度;边界不清,后面的交付验收和成果使用都会变成口径争议。
第一边界:原始数据从哪里来
第一要看的是原始数据来源,而不是标注规则写得多细。数据安全法相关底座支持的核查重点包括数据处理活动、数据来源、处理目的、数据类型、安全保护措施,以及共享、交易或委托使用前的安全义务。放到标注外包里,企业至少要能说清楚:数据来自自有业务、合作方提供、公开渠道整理,还是第三方采购;每一类数据是否允许被交给外部供应商处理。
合同里不宜只写“甲方提供数据”。更稳妥的做法,是把原始数据清单、来源说明、交付方式、使用目的和供应商接触范围放在同一组材料里。供应商只负责标注,不等于可以自由复制、转交、训练或保存原始数据。来源越复杂,越要把授权链和交付记录留在合同附件或验收底稿中,避免后续只剩一份抽象的保密条款。
这一边界还会影响项目能不能分包、能不能跨团队协作、能不能使用自动化标注工具。如果原始数据本身的取得和使用目的说不清,后面再写严密的成果归属,也挡不住“数据是否可以被外包处理”的基础疑问。
第二边界:个人信息和重要数据先分层
数据标注经常涉及图片、语音、文本、日志、客服记录、工单或用户反馈,其中可能包含个人信息。个人信息保护法相关底座支持核查处理目的、处理方式、个人信息种类、保存期限、保护措施,以及委托处理、共同处理或向第三方提供的法律关系。也就是说,标注外包不能只问“数据有没有脱敏”,还要问供应商在什么身份下处理这些信息。
如果供应商只是按企业指令处理个人信息,合同就要把处理目的、处理方式、个人信息种类、保存期限、安全措施和返还删除安排写清楚。如果供应商会自行决定用途、规则或再利用方式,关系就可能不再只是简单委托。网络数据安全管理条例相关底座还支持对网络数据分类、风险监测、安全事件处置、个人信息和重要数据义务的判断。标注前先分层,能减少合同签完后才发现数据类型不适合外包的风险。
实务上可以先做一个数据分层表:不含个人信息的业务样本、含个人信息但已处理的样本、需要严格权限控制的原始样本、可能触发重要数据或较高安全要求的数据,分别对应不同交付和访问方式。这个表比一句“依法合规处理数据”更能让采购、技术和供应商对齐。
第三边界:标注人员和供应商权限怎么控
关键不是供应商承诺保密,而是哪些人能接触哪些数据。数据标注项目通常会出现多级人员:项目经理、标注员、质检员、外包团队、临时人员,甚至平台化众包人员。合同应当把访问权限、账号管理、转包限制、留痕方式和安全事件通知放在可执行条款里,而不是只写“乙方应保证员工遵守保密义务”。
如果数据涉及个人信息、重要数据风险或商业敏感信息,权限边界还要对应交付方式。例如,是否允许下载到本地,是否只能在受控环境中标注,是否可以使用自带工具,是否能把样本发给第三方质检,异常访问如何发现和记录。合同越早把这些问题写成材料清单,后续越容易判断供应商有没有越权。只靠结果验收,很难发现标注过程中已经发生的数据外泄或不当留存。
权限还应当和质量验收连接起来。质检人员为了复核结果需要看到哪些原始样本,技术人员为了排查错误能否查看全部数据,项目经理能否导出完整数据集,这些都不是单纯的内部管理细节。它们决定供应商处理范围,也决定企业能否追踪处理活动。
第四边界:标注成果归属和再利用要分开写
很多争议不是发生在原始数据,而是发生在标注成果。标注后的标签、分类结果、质检记录、规则说明、数据集切片、错误样本、反馈日志,可能都对模型训练或产品迭代有价值。合同如果只写“成果归甲方所有”,仍然不够,因为还要区分供应商能否留存副本、能否用于内部质检、能否用于训练自己的工具、能否向其他客户复用相似规则。
生成式人工智能服务管理暂行办法相关底座支持训练数据来源合法性、知识产权、个人信息或同意、标注质量和数据处理记录等核查。若标注成果后续会用于生成式人工智能训练、微调或评测,合同就要把训练用途和再利用边界提前写清楚。企业不能等到模型已经训练完,再回头补“标注成果当然可以用于训练”的解释;供应商也不能把参与项目产生的标签经验直接当成可自由复用资产。
这里建议把“成果归属”和“使用许可”拆开。归属解决谁拥有交付物,使用许可解决谁能在什么范围内继续使用,保留副本解决项目结束后的控制,训练用途解决数据是否可以进入后续模型链路。四件事混成一句,后期最容易各说各话。
第五边界:质量验收不只看数量和准确率
验收条款常见写法是条数、准确率、返修次数和交付日期。这个写法有用,但不够。对数据标注外包来说,质量验收还应包括标注规则版本、抽检方法、争议样本处理、错误类型记录、质检人员权限和处理活动留痕。特别是用于模型训练或评测的数据,标注质量本身就是后续合规和技术效果的基础。
合同可以把验收拆成三类材料:第一是交付格式和字段说明,确保企业拿到的不是无法复核的结果;第二是质量记录,包括抽检范围、错误样本和返修过程;第三是处理记录,包括数据接收、标注、质检、返还、删除或留存的时间线。这样做不是把合同写厚,而是让质量问题有证据可查。只写一个准确率,出了问题很难判断是数据源错误、规则错误、人员错误,还是供应商越权处理。
如果标注数据后续用于模型训练,还要把验收记录和训练数据来源说明衔接起来。企业将来解释模型训练材料时,不能只拿出一份结果文件,而要说明这批标注数据是如何形成、如何抽检、如何返修、如何留痕的。
第六边界:删除返还和审计留痕要闭环
不要把项目结束理解为付款结束。数据标注外包真正的收口,是原始数据、标注成果、过程记录和供应商副本如何返还、删除、留存或封存。数据安全、个人信息保护和网络数据安全义务都要求企业对处理活动、安全保护和风险处置保持可解释的控制。合同里如果没有删除返还和审计留痕安排,企业很难证明外部处理已经被收住。
这一部分至少应当回答:供应商保留哪些记录,保留多久,为什么保留;哪些原始数据必须删除或返还;标注成果交付后是否允许留样;发生安全事件时如何通知、定位和补救;企业是否有权抽查处理记录。对于长期滚动标注项目,还要设置阶段性收口,而不是等项目全部结束才统一清理。否则,数据批次越多,后续核查越难还原。
审计留痕不是为了事后追责才存在。它还可以反过来帮助企业判断供应商是否适合继续合作,标注规则是否需要调整,个人信息和重要数据是否需要更高等级的处理安排。没有留痕,下一轮合同只能凭经验继续往前走。
收口:先做边界表,再谈外包效率
一份可执行的数据标注外包合同,至少要先形成六张边界表:原始数据来源表、个人信息和重要数据分层表、人员权限表、成果归属和再利用表、质量验收记录表、删除返还和审计留痕表。它们不替代合同条款,但能让条款有可核查对象,也能让业务、法务、技术和供应商在同一张事实底稿上沟通。
以上内容仅作为一般法律信息和材料整理参考,不构成针对具体项目的法律意见,也不能替代正式咨询或专项审查。具体项目仍要结合数据来源、数据类型、标注目的、供应商处理方式、模型训练用途和内部安全措施判断。后续可以继续关注数据来源核查、标注质量记录和 AI 训练数据复用边界的拆解。
参考资料
- [1] 《中华人民共和国数据安全法》
- [2] 《中华人民共和国个人信息保护法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》