企业客户数据用于AI训练上线前先查授权个人信息标识三类记录
这是一篇微信公众号稿件。为便于检索、归档与阅读,收录于“公开发声”。
风险先看三类记录:企业把客户数据、公开数据、第三方采购数据放进 AI 训练、微调、评测或 RAG 之前,不应只问模型效果,也不能只让研发写一句“内部使用”。真正决定能不能进入上线节奏的,是授权来源记录、个人信息处理记录、公众服务与标识触发记录是否能互相对上。
企业客户数据用于AI训练上线前先查授权个人信息标识三类记录
风险先看三类记录:企业把客户数据、公开数据、第三方采购数据放进 AI 训练、微调、评测或 RAG 之前,不应只问模型效果,也不能只让研发写一句“内部使用”。真正决定能不能进入上线节奏的,是授权来源记录、个人信息处理记录、公众服务与标识触发记录是否能互相对上。
这个判断适合在产品立项或上线评审前完成。吕箐翎律师处理企业知识产权和知产数据合规问题时,通常会先把数据来源、权利边界、个人信息目的和服务形态拆开,而不是把“已脱敏”“网上公开”“供应商提供”当成统一答案。三类记录不是做给形式看的,它们决定后面能否解释数据从哪里来、为什么能用、谁处理过、输出如何标识。
第一类记录:授权来源和权利链
第一类记录要回答数据从哪里来、谁给的、给到什么范围。客户工单、客服对话、语音图片、合同材料、公开网页、第三方数据包、供应商标注数据,都不能只按“公司已经拿到”处理。企业要记录原始取得方式、原始用途、授权主体、允许用途、禁止用途、是否允许训练、微调、评测、RAG、商用输出和向第三方模型提供。
公开可访问的数据不等于可以自由训练,第三方采购或合作取得的数据也不等于可以无限制用于模型。涉及文字、图片、音视频、代码、数据库内容等素材时,还要核查著作权、邻接权益、商业秘密、保密义务、转授权限制、删除退出和侵权追偿安排。授权记录如果只写“公开来源”或“供应商交付”,后续很难支撑对客户、用户或监管的解释。
这一类记录最好形成矩阵:数据集名称、来源主体、取得方式、合同或条款编号、原用途、允许训练范围、是否可外部调用、是否可商用输出、删除退出机制和责任人。没有这张矩阵,后面讨论个人信息、标识、备案或安全评估都会缺底座。
第二类记录:个人信息处理目的
第二类记录要回答材料里有没有可识别个人,以及原处理目的能不能覆盖新的模型用途。客户数据、用户行为、客服记录、语音图片、合同和工单材料中,只要能够识别特定个人,就可能构成个人信息。用于模型训练或算法优化时,企业应核查原告知同意、合同目的、处理必要性、是否匿名化、是否涉及敏感个人信息、是否向第三方提供或委托处理。
“内部研发”不是万能理由。原来为了履行合同、售后服务或用户运营收集的数据,未必当然覆盖训练、微调或对外生成服务。技术团队说已经脱敏,也要区分是无法识别的匿名化,还是仍可能结合其他信息识别个人的处理。对外调用云模型、外部供应商或第三方平台时,还要记录谁接触了数据、是否保存输入、是否用于再训练、是否能关闭留存。
这一类记录可以压缩成五个问题:是否能识别个人;原目的是否覆盖训练或算法优化;是否涉及敏感个人信息;是否经过有效匿名化或只是一般脱敏;是否存在委托处理、共同处理或向第三方提供。五个问题答不清,就不要把数据直接放进训练集或知识库。
第三类记录:公众服务和生成合成内容标识
第三类记录要回答训练结果是不是走向公众服务。如果模型只作为内部辅助工具,风险边界和对公众提供服务不同;一旦用于生成式人工智能、深度合成、算法推荐、拟人化互动等互联网信息服务,企业就要核查算法备案或安全评估、生成合成内容标识、用户权益保护、投诉处置、服务边界和数据出境要求。
生成式人工智能服务规则关注训练数据来源合法性、知识产权、不含个人信息或取得同意、标注质量和数据处理活动记录。人工智能生成合成内容标识规则则把显式标识、隐式标识、服务提供者和内容传播平台义务放到前台。也就是说,训练数据合规不能停在数据入库那一刻,输出内容如何标识、服务如何告知、投诉如何处理,也会反过来影响训练数据能否用于当前产品。
这一类记录应写清服务对象、输出类型、是否面向公众、是否生成合成文本图片音视频、是否接入第三方模型、日志保存方式、投诉处理责任和跨境调用情况。不要等产品已经上线,再回头补“是否需要标识”的判断。
三类记录要能互相校验
授权来源、个人信息和公众服务记录不能各写各的。取得作品授权,不代表个人信息处理目的已经覆盖;做了匿名化或脱敏,不代表公开数据和第三方数据的训练授权清楚;加了 AI 标识,也不代表训练数据来源合法。三类记录要能互相校验,才能形成真实的上线前判断。
可以把结论分成红黄绿。绿色是来源、授权、个人信息目的、服务触发和标识路径都有记录;黄色是存在缺口,但可通过补充授权、删除数据、限制用途、关闭外部调用或延后上线处理;红色是来源不明、授权禁止训练、个人信息目的不覆盖、供应商无法说明权利来源,或者公众服务触发条件完全没有评估。这个分层有助于产品、研发、法务和采购在同一张表上决定下一步。
第一周先留下最小材料包
第一周不用做成厚报告,但至少要留下四份材料。第一,数据来源和授权矩阵。第二,个人信息目的核查表。第三,公众服务与标识触发判断。第四,供应商或模型调用记录,包括合同、后台设置、日志导出、权限说明和是否用于再训练的条款。材料越早形成,越容易把争议控制在可解释、可调整的范围内。
本文只提供一般法律信息和风险识别参考,不构成针对具体项目的法律意见,也不替代正式咨询。后续可以继续关注训练数据来源、个人信息处理和生成合成内容标识的拆解;当前更重要的是先把三类记录落到可复核的上线前材料包里。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》
- [6] 《人工智能生成合成内容标识办法》