供应商说可商用,为什么别先签AI训练数据合同?
AI 训练数据、语料包和标注成果采购前,应核查来源证明、授权范围、个人信息、用途矩阵、客户交付、删除返还和止损条款。
买 AI 训练数据、语料包或标注成果时,我不建议企业只看供应商一句“可商用”。吕箐翎律师的实务判断是,这句话最多说明供应商愿意给出某种商业使用承诺,但不能自动覆盖训练、微调、评测、RAG、客户交付、再转授权和模型输出。真正要核查的是谁授权、授权给谁、允许做什么、项目结束后怎么删、客户投诉后谁负责。
来源和授权链先成表
供应商说来源合法,企业不能只把这句话放进合同首页。我的处理习惯是先做来源和授权链表:数据来自公开采集、合作方授权、自有平台、用户上传还是第三方购买;每一类来源是否有授权文件、采集规则、权利声明、个人信息字段说明和删除机制。技术合同和著作权许可规则都要求把标的、范围、履行方式、保密、成果归属和使用边界写清,AI 训练数据更不能只停留在概括保证。
| 审查项 | 不够的写法 | 下一步要落到 |
|---|---|---|
| 数据来源 | 来源合法 | 来源清单、采集方式、授权链样本 |
| 权利范围 | 可商用 | 训练、微调、评测、RAG、客户项目分别列明 |
| 个人信息 | 不涉及隐私 | 字段说明、脱敏方法、处理关系 |
| 再分发 | 项目可用 | 是否可给关联公司、客户或外包方使用 |
| 输出使用 | 结果归买方 | 模型输出、向量库、衍生标签边界 |
| 删除返还 | 到期处理 | 删除证明、日志、备份清除和审计配合 |
用途矩阵不要混成一个AI项目
训练、微调、评测、RAG 知识库、标注质检、客户交付和产品上线不是同一个用途。供应商允许内部测试,不一定允许沉淀到通用模型;允许某个客户项目,不一定允许复用到其他项目;允许读取分析,不一定允许再分发数据集。我的建议是做用途矩阵表,每个用途只填允许、禁止、需补授权或需脱敏后使用。
这张表会直接影响采购价格、验收标准、客户合同和上线范围。若销售准备向客户承诺“训练数据来源合规、可永久商用、无第三方权利负担”,就必须确认上游供应商合同是否给了同等范围。否则企业可能在上游拿到有限许可,却在下游向客户作出过度承诺。
供应商证明要能进入证据包
吕箐翎律师通常会要求供应商给出可复核材料,而不是只给盖章承诺函。证据包可以包括来源说明、授权文件样张、采集规则、权利声明、个人信息字段说明、标注流程、保密承诺、质量验收标准、删除返还模板、投诉处理联系人和历史争议说明。若供应商说不清来源,企业应把该批数据标为高风险,限制训练、压缩用途或要求替换。
验收时也不要只验文件数量。下一步要核查样本字段、重复率、异常来源、是否混入客户个人信息、是否含第三方水印或版权标记、是否有标注人员权限记录。合同里可以把这些材料列成附件,作为付款、上线和客户交付前的条件。
个人信息和跨境处理要单列停止条件
如果语料里有客户记录、用户对话、账号标识、头像、语音、位置或投诉文本,就不能只按版权素材审查。下一步要核查个人信息处理目的、委托处理关系、保存期限、安全措施和删除返还。如果供应商使用境外模型、境外云或海外标注团队,还要判断是否形成数据出境路径,不能把跨境节点藏在技术附件里。
客户交付和止损条款要写在前面
我的实务建议是,采购合同必须有客户交付表和止损条款。客户交付表写明企业是否会交付原始数据、模型接口、向量库、标注成果、报告或输出内容;止损条款写明发现授权不清时,供应商要补材料、替换数据、协助删除、承担投诉处理成本,企业有权暂停使用、限制客户交付、要求删除证明和审计日志。
验收节点不要只看数据量
很多训练数据采购合同把验收写成“交付多少条数据、格式是否正确”,这对 AI 项目不够。我的判断框架是,验收节点至少要看四类材料:来源证明是否齐,字段说明是否清,授权用途是否和项目一致,删除返还是否可执行。若供应商交付的是标注成果,还要看标注人员权限、质检比例、错误修正方式和保密记录。若交付的是语料包,还要看是否混入第三方水印、用户头像、客户对话、代码片段或不能转授权的素材。
下一步可以把付款节点和这些材料绑定:来源证明不齐不付款,个人信息字段说不清不进入训练,删除模板缺失不允许上线,客户交付边界未确认不允许销售承诺。吕箐翎律师通常会把这些节点写成合同附件,而不是只写在邮件里。附件越具体,后续补授权、整改、止损和谈判越有抓手。
对 AI 训练数据来说,合同审查的目标不是把“可商用”四个字写得更漂亮,而是让企业知道哪些数据能训练、哪些只能评测、哪些需要补授权、哪些必须止损。吕箐翎律师建议企业至少保留供应商授权表、用途矩阵表、证据包目录、客户交付表和整改清单,后续客户验收、投诉处理或争议谈判才有材料可用。
以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国民法典》第八百四十三条至第八百四十五条
- [2] 《中华人民共和国著作权法》
- [3] 《中华人民共和国数据安全法》
- [4] 《中华人民共和国个人信息保护法》
- [5] 《生成式人工智能服务管理暂行办法》
- [6] 《促进和规范数据跨境流动规定》