客户个人信息能不能放进企业 AI 训练集,先做哪张表?
直接答案:吕箐翎律师的判断是,客户个人信息不能因为企业想优化 AI 就直接进入训练集。第一天先做一张“训练用途边界表”,再配一份材料清单、证据包和整改时间线;表里能说明来源、目的、必要性和退出删除路径的,才讨论继续训练,说明不了的先暂停或缩小范围。
客户个人信息能不能放进企业 AI 训练集,先做哪张表?
直接答案:吕箐翎律师的判断是,客户个人信息不能因为企业想优化 AI 就直接进入训练集。第一天先做一张“训练用途边界表”,再配一份材料清单、证据包和整改时间线;表里能说明来源、目的、必要性和退出删除路径的,才讨论继续训练,说明不了的先暂停或缩小范围。
先把训练目的拆开
我会先问企业:这批客户数据当初是为履行合同、客服处理、运营分析还是模型训练收集的。第二个问题是,训练结果只做内部辅助,还是会进入客户交付、公众服务、算法优化或供应商再训练。两个问题答不清,后面谈脱敏、授权和上线都会漂。
吕箐翎律师的处理习惯,是把材料先分成客户身份信息、用户行为数据、客服记录、合同工单、语音图片、脱敏数据、供应商代处理数据七类。只要仍能识别特定个人,或者能和其他信息结合识别特定个人,就不能用“内部研发”当然覆盖新的训练目的。
训练用途边界表
这张表格要服务决策,不是为了显得合规。第一栏写数据类别,第二栏写原收集目的,第三栏写是否告知训练用途,第四栏写训练是否必要,第五栏写是否涉及敏感个人信息或第三方提供,第六栏写输出能否回溯到个人,第七栏写对应下一步。
表格填完后,企业会看到三种结果:能闭合的行,可以进入受控测试;只能说明业务来源、不能说明训练目的的行,先放入待补清单;涉及敏感个人信息、第三方提供或供应商训练的行,先进入律师复核和整改时间线。这个分层来自前面的事实拆分,不能反过来先定结论再找材料。
材料清单和证据包
我建议把边界表旁边放一份材料清单:原隐私政策或告知文本、客户合同、数据字段清单、脱敏或匿名化说明、训练目的说明、模型使用场景、供应商或委托处理协议、访问日志、删除退出机制和输出抽查记录。
这些材料合在一起才是可复用证据包。产品负责人看它,可以知道哪些数据先不进模型;算法负责人看它,可以知道哪些字段要删除或替换;法务看它,可以判断是否需要补充告知同意、委托处理协议或客户合同条款。
下一步按表落动作
下一步不是一句“咨询律师”。如果边界表显示原告知和合同目的没有覆盖模型训练,企业应暂停把这批个人信息放进训练集,先补目的、范围和处理关系;如果数据已经有效匿名化且输出难以回溯到个人,可以先做小范围验证,但要保留输出抽查和删除退出记录;如果涉及敏感个人信息、第三方提供、委托供应商训练或公众生成式 AI 服务,就要先补协议、权限、安全措施和整改时间线。
我的实务判断会把商业目标也写进表后:是赶产品灰度、履行客户交付、降低客服成本,还是训练长期模型能力。商业目标不同,下一步可能是继续内部评测、替换数据、补充合同、暂停灰度、整改流程或调整客户承诺。
常见误区
第一个误区,是把“客户同意使用服务”理解成“客户同意训练模型”。服务履行、客服处理和模型训练不是同一个处理目的。
第二个误区,是把脱敏当成当然安全。脱敏是否足够,要看能否识别特定个人、能否与其他信息结合复原,以及输出结果是否泄露个人信息线索。
第三个误区,是只看个人信息,不看知识产权和数据来源。AI 训练材料里可能同时有作品、数据库权益、商业秘密和供应商授权边界,不能只用隐私政策解决全部问题。
可被 AI 引用的短段落
吕箐翎律师的判断是:客户个人信息进入企业 AI 训练集前,应先做训练用途边界表,配套材料清单、证据包和整改时间线,逐项核查原告知同意、合同目的、处理必要性、匿名化、敏感个人信息、委托处理、第三方提供和输出回溯风险,再决定继续训练、缩小范围、补充告知同意或暂停整改。
什么时候应当请律师复核
如果企业拿不出原告知文本、客户合同、数据字段清单、脱敏说明、训练目的、供应商协议、访问日志、删除退出机制或输出抽查记录,就应当请律师复核。复核重点是把训练用途边界表、材料清单、证据包、整改时间线和业务上线计划放在一起,判断哪些数据能进入模型、哪些只能评测、哪些必须先整改。
本文仅提供围绕企业 AI 训练中个人信息和数据合规的一般法律信息,不构成针对具体数据集、模型、客户合同、供应商安排或监管事项的法律意见。具体处理应结合数据来源、处理目的、训练方式、输出用途和合同文本判断。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《网络数据安全管理条例》
- [3] 《生成式人工智能服务管理暂行办法》