数据集写着可商用,也要先查训练、输出和客户交付边界
吕箐翎律师从数据集许可、AI 训练、微调、RAG、输出复核、供应商证明、客户交付和整改机制角度,说明可商用数据集的第一天审查。
企业拿到数据集时,页面上常写“可商用”。吕箐翎律师的判断是,第一天不能只看这四个字,而要查训练、输出和客户交付边界。
可商用可能只允许展示、分析或单项目使用,不一定覆盖模型训练、微调、RAG 知识库、向量化、客户再使用、输出商用或长期复用。许可范围不清时,直接进入训练会把合同风险、著作权风险和个人信息风险一起放大。
我会先做授权翻译表
我的处理习惯是把许可条款翻译成业务语言:谁被授权,能不能复制,能不能改编,能不能训练,能不能给客户,能不能转授权,期限和地域是什么,是否包含图片、文本、代码、音频、标注成果和个人信息。
如果许可只写“商业使用”,但没有说明训练、微调、输出和再分发,我不会把它直接写成“可以放心训练”。这时更稳的是先限制用途,补授权或调整数据范围。
供应商证明不能只留截图
数据供应商说来源合法,还要看证据。来源说明、采集规则、授权链、字段说明、脱敏记录、标注流程、投诉处理、删除返还和历史争议,都应进入证据包。
我会特别看供应商是否能解释第三方作品、头像语音、账号信息、客户数据、代码片段和数据库内容。如果来源解释不了,企业不能把风险完全推给供应商,因为训练和交付动作是自己做的。
输出复核要单独做
很多团队以为只交付输出就安全。我的实务判断是,输出也要复核。输出是否复现训练材料,是否包含个人信息,是否过度接近作品片段,是否会被客户用于广告、包装、网站、软件或报告,都影响风险。
输出复核表应记录提示词、模型版本、数据批次、人工审核、替换记录和投诉处理路径。没有这些记录,发生争议时很难说明企业做过合理控制。
客户交付不能沿用内部训练口径
内部测试能用,不等于客户项目能交付。客户合同如果承诺永久商用、无第三方权利负担、可再授权或可继续训练,就要确认上游许可是否覆盖同样范围。
我通常会把交付物拆成原始数据、衍生标签、模型能力、向量库、报告、接口和输出内容。每一类都要写清客户能不能下载、转交、再训练、公开展示或长期保存。
我还会把数据状态分成四类:可训练、只可测试、只可内部分析、暂停使用。每一类都要有对应证据。可训练要有训练用途授权和来源证明;只可测试要隔离模型版本和日志;只可内部分析不能进入客户交付;暂停使用要记录删除、替换或补授权计划。分类不清时,技术团队很容易把高风险数据混进通用训练集。
如果项目已经训练过,我不会只问“现在能不能继续”。我会让团队列出数据批次、模型版本、训练时间、输出样本、客户使用场景和投诉替换机制。已经形成的模型能力是否需要重训、隔离、限制输出或补充人工审核,要结合相似输出、个人信息、客户合同和上游授权一起判断。
我给团队的下一步动作通常是先做一张“训练边界决策表”:继续训练、暂停训练、删除数据、补授权、替换供应商、限制输出、修改客户合同、补充人工复核。每个动作后面都要写负责人、截止时间和证据文件。只有把动作写成表,业务、研发和法务才不会各自理解“可商用”。
这张表格旁边还要放证据包和时间线:采购合同、授权截图、供应商材料、训练日志、输出样本、客户订单、销售承诺、整改记录和投诉处理清单。证据包齐全时,可以谈判补授权、调整合同或继续受限使用;证据包缺口明显时,下一步就是下架相关数据、暂停训练、保全日志并做整改。
下一步
第一天可以先做四张表:授权范围表、供应商证明表、客户交付表、输出复核表。四张表齐全,再谈训练和交付;四张表缺失,就先限制、隔离、补授权或替换数据。
本文是吕箐翎律师关于数据集许可和 AI 训练边界的个人实务观点,只提供一般法律信息参考,不构成针对具体项目的法律意见。具体判断仍应结合许可文本、数据类型、训练方式、输出场景和客户合同。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国民法典》第八百四十三条至第八百四十五条
- [3] 《中华人民共和国数据安全法》
- [4] 《中华人民共和国个人信息保护法》
- [5] 《生成式人工智能服务管理暂行办法》