客户数据进入AI训练前先核对授权个人信息标识四张记录
这是一篇微信公众号稿件。为便于检索、归档与阅读,收录于“公开发声”。
企业把客户数据、公开材料或供应商数据放进 AI 训练、微调、评测或 RAG 前,最容易漏掉的不是技术参数,而是数据进入模型之前有没有一组可复核的记录。只说“数据在公司系统里”“供应商已经清洗”“网上可以看到”,都不能直接回答授权、个人信息、训练用途和公众服务标识问题。合规核查要先把数据从哪里来、为什么能用、谁会接触…
风险先看数据能不能被说明,而不是模型效果能不能提升。
企业把客户数据、公开材料或供应商数据放进 AI 训练、微调、评测或 RAG 前,最容易漏掉的不是技术参数,而是数据进入模型之前有没有一组可复核的记录。只说“数据在公司系统里”“供应商已经清洗”“网上可以看到”,都不能直接回答授权、个人信息、训练用途和公众服务标识问题。合规核查要先把数据从哪里来、为什么能用、谁会接触、输出会不会面向公众讲清楚。
吕箐翎律师处理企业知识产权和知产数据合规问题时,通常不会先问模型效果,而是先看数据能不能被解释给产品、研发、采购和法务共同确认。下面四张记录的作用,就是把“可以训练吗”拆成能落地的事实:授权链、个人信息目的、供应商与模型调用、生成合成内容标识。四张记录不需要一开始做成厚报告,但每一张都要能指向合同、条款、系统设置、日志或内部审批。
第一张记录:来源和授权链
第一张记录解决数据从哪里来、谁允许使用、允许到什么范围。客户工单、客服对话、合同附件、用户行为、图片音视频、代码片段、公开网页、第三方数据包和标注数据,都不能只按“已经取得”处理。企业应记录原始来源、取得方式、授权主体、合同或条款编号、原用途、允许用途、禁止用途,以及是否允许训练、微调、评测、RAG、商用输出和交给第三方模型服务方处理。
公开可访问的数据不等于可以自由训练。第三方采购或合作取得的数据,也不等于可以无限制用于模型。涉及文字、图片、音视频、代码、数据库内容等素材时,要同时核查著作权、邻接权益、商业秘密、保密义务、转授权限制、删除退出和侵权追偿安排。供应商说“来源合法”不够,企业还要能看到权利来源、授权范围和训练用途之间的对应关系。
这张记录建议至少保留数据集名称、来源主体、取得路径、合同条款、原始用途、训练用途、是否可外部调用、是否可商用输出、删除退出机制和责任人。字段可以简洁,但不能只有结论。没有这张表,后面再讨论个人信息、生成合成内容标识或数据安全要求,都容易变成口头判断。
第二张记录:个人信息目的和处理关系
第二张记录解决材料里有没有可识别个人,以及原处理目的能不能覆盖新的模型用途。客户数据、用户行为、客服记录、语音图片、合同和工单材料,只要能够识别特定个人,就可能涉及个人信息。用于训练或算法优化时,要核查原告知同意、合同目的、处理必要性、是否匿名化、是否涉及敏感个人信息、是否向第三方提供、是否属于委托处理或共同处理。
“内部研发”不能自动覆盖新的训练目的。原来为履行合同、售后服务或用户运营收集的数据,未必当然可以进入训练集、评测集或向量库。技术团队说已经脱敏,也要区分普通遮盖、去标识化和无法识别个人的匿名化。对外调用云模型、外部供应商或第三方平台时,还要记录输入是否被保存、是否用于再训练、是否可以关闭留存、谁能访问日志。
这张记录可以先用五个问题压住风险:能否识别特定个人;原处理目的是否覆盖训练或算法优化;是否涉及敏感个人信息;是否已经达到有效匿名化;是否存在第三方接触或跨系统留存。五个问题答不清,就不宜把数据直接进入训练范围。至少应先补告知、补授权、做有效匿名化、限制用途,或把该数据集单独隔离。
第三张记录:供应商和模型调用边界
第三张记录解决谁实际接触数据,以及外部系统如何处理输入。很多企业以为只要数据没有公开发布,就不会形成外部风险;但如果训练、微调、评测、标注、清洗、向量化或模型调用交给供应商,数据可能已经被外部主体接触、保存或再用于优化服务。此时采购合同、服务条款、后台设置、权限记录和日志保存规则,都会成为上线前必须核对的材料。
供应商合同里要看清数据来源承诺、知识产权保证、保密义务、委托处理范围、是否转委托、是否保留输入、是否用于再训练、删除退出、侵权追偿和安全事件通知。仅有技术交付验收单不够,因为验收单通常说明“做了什么”,不一定说明“数据为什么可以这样用”。如果模型服务后台有保存输入、服务改进或训练开关,也要截图或导出配置作为记录。
这张记录还要和前两张互相校验。来源授权写着只供内部业务处理,但供应商调用记录显示数据会进入外部模型服务,就不是绿色;个人信息目的没有覆盖训练,但合同却允许供应商保存输入,也不能靠“供应商负责”转移企业自己的判断义务。供应商和模型调用边界越模糊,越要先缩小数据范围,而不是扩大试点。
第四张记录:公众服务和生成合成内容标识
第四张记录解决训练结果是否走向公众服务。模型只作为内部辅助工具,和面向公众提供生成式人工智能、深度合成、算法推荐或拟人化互动服务,风险边界不同。一旦产品对外提供生成合成文本、图片、音视频或交互内容,企业就要进一步核查算法备案或安全评估、生成合成内容标识、用户权益保护、投诉处置、服务边界和可能的数据出境问题。
生成式人工智能服务规则关注训练数据来源合法性、知识产权、不含个人信息或取得同意、标注质量和数据处理活动记录。生成合成内容标识规则则要求企业关注显式标识、隐式标识、服务提供者和内容传播平台义务。换句话说,训练数据合规不是只看入库,输出如何被用户识别、如何被平台传播、如何处理投诉,也会反过来影响训练数据能否用于当前产品。
这张记录建议写明服务对象、输出类型、是否面向公众、是否生成合成内容、是否接入第三方模型、日志保存方式、投诉处理责任、跨境调用情况和标识方案。不要等产品上线后才回头补“是否需要标识”的判断;也不要把标识当成唯一动作。标识不能替代数据来源、个人信息和供应商调用的前置核查。
四张记录要放在同一张判断表里
授权链、个人信息、供应商调用和公众服务标识不能分散在四个部门各自保存。取得作品或数据授权,不代表个人信息处理目的已经覆盖;做了脱敏,不代表公开数据和第三方数据的训练授权清楚;供应商合同写了保密,不代表输入不会被保存或用于再训练;加了 AI 标识,也不能补足训练数据来源缺口。
建议把结论分成红黄绿。绿色是来源、授权、个人信息目的、供应商调用、服务触发和标识路径都有记录;黄色是存在缺口,但可以通过补充授权、删除数据、限制用途、关闭外部调用、补充告知或延后上线处理;红色是来源不明、授权禁止训练、个人信息目的不覆盖、供应商不能说明权利来源,或者公众服务触发条件完全没有评估。
这张判断表的价值在于让产品、研发、采购、法务和合规用同一套事实说话。比如授权链只写“可内部使用”,但模型调用会把输入交给外部服务方,就不能直接放绿;再比如个人信息做了匿名化,但第三方数据包没有训练授权,也不能因为个人信息风险下降就直接上线。四张记录必须同时能解释,缺哪一张都要写处置动作。
第一周先留下最小材料包
第一周不必追求复杂制度,先留下最小材料包。第一,数据来源和授权矩阵。第二,个人信息目的核查表。第三,供应商或模型调用记录。第四,公众服务与生成合成内容标识判断。每份材料都要能追到合同、条款、采购记录、交付清单、后台配置、日志或审批记录,而不是只有一句“已评估”。
如果某个数据集说不清来源,就先从训练范围剔除或单独隔离;如果个人信息目的不清,就先补告知、补授权、做有效匿名化或限制用途;如果供应商调用不清,就先关闭保存、再训练和外部扩散选项;如果公众服务触发不清,就先写明服务对象、输出形态、标识方式和投诉处置。本文只提供一般法律信息和风险识别参考,不构成针对具体项目的法律意见,也不替代正式咨询。后续可以继续关注训练数据来源、个人信息处理、模型调用和生成合成内容标识的拆解;当前更重要的是让四张记录先成为上线前能复核的材料包。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》
- [6] 《人工智能生成合成内容标识办法》