数据集可商用,为什么别跳过训练和交付边界?
数据集、图片、文本、代码或标注成果进入 AI 训练前,应核查许可范围、供应商证明、客户交付、输出复核和整改机制。
看到数据集页面写着“可商用”,我不会直接建议企业拿去训练模型。吕箐翎律师的实务判断是,可商用只是入口,不是无边界许可。它可能只允许在单个项目中展示或分析,可能禁止再分发,可能没有覆盖模型训练,也可能排除了个人信息、第三方作品、字体图片、代码片段或数据库权益。企业真正要核查的是:能不能训练、能不能沉淀到模型能力、能不能交付客户、能不能证明来源。
授权表:先把许可范围翻译清楚
著作权许可和技术合同规则都要求明确标的、范围、履行方式、资料保密、成果归属和验收标准。只写“可商用”或“版权归买方”,通常不足以覆盖 AI 训练、微调、评测、RAG 知识库、客户交付、模型输出和再转授权。我的处理习惯是先做授权表,把每批数据对应到具体使用场景。
| 核查项 | 要问的问题 | 下一步动作 |
|---|---|---|
| 授权对象 | 授权给购买企业、关联公司还是最终客户 | 不清楚就先限制客户交付 |
| 使用方式 | 展示、复制、改编、训练是否分别允许 | 把训练用途写入附件 |
| 期限地域 | 是否限时间、地区或项目 | 到期前设置删除提醒 |
| 再分发 | 是否允许打包、嵌入产品或转授权 | 未授权就禁止二次销售 |
| 输出使用 | 输出、向量库、衍生标签如何归属 | 设置人工复核和投诉替换 |
| 个人信息 | 是否含头像、账号、语音、文本记录 | 另做个人信息处理判断 |
供应商证明表:不要只留购买页面截图
我不建议企业只留购买页面截图。供应商证明应当能支撑“企业做过合理审查”这个事实。证据包可以包括来源说明、授权链样本、采集规则、权利声明、个人信息字段说明、脱敏方法、标注流程、质量验收标准、删除返还模板、投诉处理联系人和历史争议说明。若供应商不能说明来源,企业应把该批数据列为高风险,限制训练或要求替换。
下一步要把供应商证明和合同条款对应起来:来源说明对应授权来源,字段说明对应个人信息风险,删除模板对应退出机制,投诉联系人对应止损流程。只有承诺没有材料,后续发生客户投诉、权利人通知或监管问询时,企业很难证明自己不是盲目使用。
客户交付表:不要和内部训练混在一起
内部训练能不能用,和客户交付能不能用,是两张表。企业可能只被允许内部测试,却在销售合同里承诺客户可以长期商用;也可能只获得单项目许可,却把训练能力复用到多个客户。吕箐翎律师通常会要求单独做客户交付清单,列明交付物是否含原始数据、衍生标签、模型接口、向量库、报告、输出内容,客户是否还能下载、转交第三方或继续训练。
如果客户合同写了“数据来源合法、无第三方权利负担、可永久商用”,就要确认上游供应商合同是否给了同等范围。否则上游许可有限,下游承诺过度,企业会在客户侧形成违约和侵权风险。
输出复核表:只交付结果也不是安全区
只交付模型输出,不等于没有风险。若训练数据包含受保护作品、客户个人信息、商业秘密或合同禁止用途,输出可能仍然出现相似内容、泄露、投诉或违约问题。生成式人工智能服务规则也要求关注训练数据来源合法性、知识产权、个人信息和标注质量。我的建议是输出前再做复核表:是否复现训练材料,是否用于广告、包装、网站、软件或客户报告,是否保留提示词、截图、版本和时间线。
授权不清时先限制,再整改
如果项目已经使用“可商用”数据集,但训练和客户交付边界不清,下一步不是继续扩大使用,而是先限制:暂停新增训练、隔离该批数据、标记模型版本、冻结对外承诺、保留使用日志。随后再补授权、改合同、替换数据、删除无法证明来源的数据,必要时调整客户交付文案。
客户问能不能商用时,不要只回答能或不能
很多企业最终面对的是客户追问:这个模型输出、报告、图片、代码片段能不能商用。我的建议不是简单回答能或不能,而是把回答拆成三层。第一层看上游数据集许可,确认训练和输出是否被允许;第二层看企业对客户的交付合同,确认是否承诺永久、排他、无第三方权利负担或可再转授权;第三层看实际输出是否复现训练材料、是否含个人信息、是否有明显相似素材或投诉线索。
这三层判断应形成一张客户答复表。表里写清可用场景、禁止场景、需人工复核场景、投诉替换流程和证据保存路径。吕箐翎律师通常会建议企业不要把“可商用数据集”写成对客户的无限承诺,而是写成有来源、有范围、有复核、有止损的使用说明。这样既能支持业务交付,也能避免销售话术超过上游授权。
吕箐翎律师建议企业至少保留四张表:授权表、供应商证明表、客户交付表、输出复核表。授权表回答能不能训练,供应商证明表回答能不能举证,客户交付表回答能不能对外承诺,输出复核表回答出问题时怎么替换和止损。四张表齐全,企业才更接近可控使用;四张表缺失,就不要把“可商用”理解成没有训练和转授权边界。
以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国民法典》第八百四十三条至第八百四十五条
- [3] 《中华人民共和国数据安全法》
- [4] 《中华人民共和国个人信息保护法》
- [5] 《生成式人工智能服务管理暂行办法》