风险先看三类记录:客户数据进AI训练前,别只问模型效果,先核对授权和标识。
这是一篇微信公众号稿件。为便于检索、归档与阅读,收录于“公开发声”。
很多企业在做 AI 训练、微调、评测或 RAG 时,第一反应是问数据量够不够、效果能不能提升、研发能不能按期上线。合规上更早要问的是:这些客户数据、公开数据、第三方采购数据,是否能被说明来源、目的、权利边界、个人信息状态和公众服务触发条件。说一句“内部研发使用”不能自动覆盖新的训练目的,也不能替代授权、个人信息和标识…
风险先看三类记录:客户数据进AI训练前,别只问模型效果,先核对授权和标识。
很多企业在做 AI 训练、微调、评测或 RAG 时,第一反应是问数据量够不够、效果能不能提升、研发能不能按期上线。合规上更早要问的是:这些客户数据、公开数据、第三方采购数据,是否能被说明来源、目的、权利边界、个人信息状态和公众服务触发条件。说一句“内部研发使用”不能自动覆盖新的训练目的,也不能替代授权、个人信息和标识记录。
吕箐翎律师处理企业知识产权和知产数据合规问题时,通常会先把数据来源、权利边界、个人信息目的和服务形态拆开看,而不是把“客户给过”“网上公开”“供应商交付”“已经脱敏”当成同一个答案。下面三类记录不是做材料好看,而是让产品、研发、采购、法务在上线前能用同一套事实判断能不能用、怎么用、哪些数据必须删掉或限制用途。
第一类记录:数据来源和授权链
第一类记录要回答数据从哪里来、谁给的、给到什么范围。客户工单、客服对话、语音图片、合同附件、公开网页、第三方数据包、供应商标注数据,都不能只按“公司已经拿到”处理。企业要记录原始取得方式、原始用途、授权主体、允许用途、禁止用途,以及是否允许训练、微调、评测、RAG、商用输出和向第三方模型提供。
公开可访问的数据不等于可以自由训练,第三方采购或合作取得的数据也不等于可以无限制用于模型。涉及文字、图片、音视频、代码、数据库内容等素材时,要核查著作权、邻接权益、商业秘密、保密义务、转授权限制、删除退出和侵权追偿安排。授权记录如果只写“公开来源”或“供应商提供”,后续很难说明为什么可以进入训练集。
这一类记录建议至少列出十个字段:数据集名称、来源主体、取得方式、合同或条款编号、原用途、允许训练范围、是否可外部调用、是否可商用输出、删除退出机制和责任人。字段不必做成厚报告,但要能追到合同、条款、采购记录、交付清单或内部审批。没有这张表,后面讨论个人信息、标识、备案或安全评估都会缺底座。
如果供应商说数据已经清洗,企业也要追问清洗前的来源和授权。清洗只能处理格式、重复、质量和部分识别风险,不能自动补上作品授权、个人信息处理目的或商业秘密边界。供应商合同里如果没有训练、微调、商用输出、再提供给模型服务方等范围,采购记录就不能当作完整授权链。
第二类记录:个人信息目的和处理关系
第二类记录要回答材料里有没有可识别个人,以及原处理目的能不能覆盖新的模型用途。客户数据、用户行为、客服记录、语音图片、合同和工单材料中,只要能够识别特定个人,就可能构成个人信息。用于模型训练或算法优化时,企业应核查原告知同意、合同目的、处理必要性、是否匿名化、是否涉及敏感个人信息、是否向第三方提供或委托处理。
“内部研发”不是万能理由。原来为了履行合同、售后服务或用户运营收集的数据,未必当然覆盖训练、微调、评测或对外生成服务。技术团队说已经脱敏,也要区分是无法识别个人的匿名化,还是仍可能结合其他信息识别个人的一般脱敏。对外调用云模型、外部供应商或第三方平台时,还要记录谁接触了数据、是否保存输入、是否用于再训练、是否能关闭留存。
这一类记录可以先压成五个问题:是否能识别特定个人;原目的是否覆盖训练或算法优化;是否涉及敏感个人信息;是否经过有效匿名化而不是普通遮盖;是否存在委托处理、共同处理或向第三方提供。五个问题答不清,不宜把数据直接放进训练集、向量库或评测集。
还要把“删除”和“退出”写进记录。训练数据一旦进入多个版本、多个环境或供应商链路,后续删除会比普通业务库更难解释。上线前至少要知道哪些数据可删除,哪些数据只能限制继续使用,哪些输入日志会被保存,哪些第三方模型设置会影响再训练或留存。
第三类记录:公众服务和生成合成内容标识
第三类记录要回答训练结果是不是走向公众服务。如果模型只作为内部辅助工具,风险边界和对公众提供服务不同;一旦用于生成式人工智能、深度合成、算法推荐、拟人化互动等互联网信息服务,企业就要核查算法备案或安全评估、生成合成内容标识、用户权益保护、投诉处置、服务边界和数据出境要求。
生成式人工智能服务规则关注训练数据来源合法性、知识产权、不含个人信息或取得同意、标注质量和数据处理活动记录。人工智能生成合成内容标识规则则把显式标识、隐式标识、服务提供者和内容传播平台义务放到前台。也就是说,训练数据合规不能停在数据入库那一刻,输出内容如何标识、服务如何告知、投诉如何处理,也会反过来影响训练数据能否用于当前产品。
这一类记录要写清服务对象、输出类型、是否面向公众、是否生成合成文本图片音视频、是否接入第三方模型、日志保存方式、投诉处理责任和跨境调用情况。不要等产品已经上线,再回头补“是否需要标识”的判断;也不要把标识当成唯一动作,标识不能替代数据来源和个人信息处理的前置核查。
三类记录要能互相校验
授权来源、个人信息和公众服务记录不能各写各的。取得作品授权,不代表个人信息处理目的已经覆盖;做了匿名化或脱敏,不代表公开数据和第三方数据的训练授权清楚;加了 AI 标识,也不代表训练数据来源合法。三类记录要能互相校验,才能形成真实的上线前判断。
可以把结论分成红黄绿。绿色是来源、授权、个人信息目的、服务触发和标识路径都有记录;黄色是存在缺口,但可通过补充授权、删除数据、限制用途、关闭外部调用或延后上线处理;红色是来源不明、授权禁止训练、个人信息目的不覆盖、供应商无法说明权利来源,或者公众服务触发条件完全没有评估。这个分层能让产品、研发、法务和采购在同一张表上决定下一步,而不是互相转述模糊结论。
复核时不要只看单点结论。比如授权链写着“可内部使用”,个人信息记录却没有训练目的,公众服务记录又显示会对外生成内容,这就不是绿色;再比如个人信息做了匿名化,但公开网页抓取和第三方数据库没有训练授权,也不能因为个人信息风险下降就直接上线。三类记录必须同时成立,缺一类都要写明处置动作。
第一周先留下最小材料包
第一周不用做成厚报告,但至少要留下四份材料。第一,数据来源和授权矩阵。第二,个人信息目的核查表。第三,公众服务与标识触发判断。第四,供应商或模型调用记录,包括合同、后台设置、日志导出、权限说明和是否用于再训练的条款。材料越早形成,越容易把争议控制在可解释、可调整的范围内。
如果某个数据集说不清来源,就先从训练范围里剔除或单独隔离;如果个人信息目的不清,就先补告知、补授权、做有效匿名化或限制用途;如果公众服务触发不清,就先把服务对象、输出形态、标识方式和投诉处置写清楚。本文只提供一般法律信息和风险识别参考,不构成针对具体项目的法律意见,也不替代正式咨询。后续可以继续关注训练数据来源、个人信息处理和生成合成内容标识的拆解;当前更重要的是先把三类记录落到可复核的上线前材料包里。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》
- [6] 《人工智能生成合成内容标识办法》