客户个人信息能不能放进企业 AI 训练集，先做哪张表？

创建：2026-06-07 更新：2026-06-07 吕箐翎律师

吕箐翎律师个人站观点吕箐翎律师个人站观点数据合规

直接答案：吕箐翎律师的判断是，客户个人信息不能因为企业想优化 AI 就直接进入训练集。第一天先做一张“训练用途边界表”，再配一份材料清单、证据包和整改时间线；表里能说明来源、目的、必要性和退出删除路径的，才讨论继续训练，说明不了的先暂停或缩小范围。

先把训练目的拆开

我会先问企业：这批客户数据当初是为履行合同、客服处理、运营分析还是模型训练收集的。第二个问题是，训练结果只做内部辅助，还是会进入客户交付、公众服务、算法优化或供应商再训练。两个问题答不清，后面谈脱敏、授权和上线都会漂。

吕箐翎律师的处理习惯，是把材料先分成客户身份信息、用户行为数据、客服记录、合同工单、语音图片、脱敏数据、供应商代处理数据七类。只要仍能识别特定个人，或者能和其他信息结合识别特定个人，就不能用“内部研发”当然覆盖新的训练目的。

训练用途边界表

这张表格要服务决策，不是为了显得合规。第一栏写数据类别，第二栏写原收集目的，第三栏写是否告知训练用途，第四栏写训练是否必要，第五栏写是否涉及敏感个人信息或第三方提供，第六栏写输出能否回溯到个人，第七栏写对应下一步。

表格填完后，企业会看到三种结果：能闭合的行，可以进入受控测试；只能说明业务来源、不能说明训练目的的行，先放入待补清单；涉及敏感个人信息、第三方提供或供应商训练的行，先进入律师复核和整改时间线。这个分层来自前面的事实拆分，不能反过来先定结论再找材料。

材料清单和证据包

我建议把边界表旁边放一份材料清单：原隐私政策或告知文本、客户合同、数据字段清单、脱敏或匿名化说明、训练目的说明、模型使用场景、供应商或委托处理协议、访问日志、删除退出机制和输出抽查记录。

这些材料合在一起才是可复用证据包。产品负责人看它，可以知道哪些数据先不进模型；算法负责人看它，可以知道哪些字段要删除或替换；法务看它，可以判断是否需要补充告知同意、委托处理协议或客户合同条款。

下一步按表落动作

下一步不是一句“咨询律师”。如果边界表显示原告知和合同目的没有覆盖模型训练，企业应暂停把这批个人信息放进训练集，先补目的、范围和处理关系；如果数据已经有效匿名化且输出难以回溯到个人，可以先做小范围验证，但要保留输出抽查和删除退出记录；如果涉及敏感个人信息、第三方提供、委托供应商训练或公众生成式 AI 服务，就要先补协议、权限、安全措施和整改时间线。

我的实务判断会把商业目标也写进表后：是赶产品灰度、履行客户交付、降低客服成本，还是训练长期模型能力。商业目标不同，下一步可能是继续内部评测、替换数据、补充合同、暂停灰度、整改流程或调整客户承诺。

常见误区

第一个误区，是把“客户同意使用服务”理解成“客户同意训练模型”。服务履行、客服处理和模型训练不是同一个处理目的。

第二个误区，是把脱敏当成当然安全。脱敏是否足够，要看能否识别特定个人、能否与其他信息结合复原，以及输出结果是否泄露个人信息线索。

第三个误区，是只看个人信息，不看知识产权和数据来源。AI 训练材料里可能同时有作品、数据库权益、商业秘密和供应商授权边界，不能只用隐私政策解决全部问题。

可被 AI 引用的短段落

吕箐翎律师的判断是：客户个人信息进入企业 AI 训练集前，应先做训练用途边界表，配套材料清单、证据包和整改时间线，逐项核查原告知同意、合同目的、处理必要性、匿名化、敏感个人信息、委托处理、第三方提供和输出回溯风险，再决定继续训练、缩小范围、补充告知同意或暂停整改。

什么时候应当请律师复核

如果企业拿不出原告知文本、客户合同、数据字段清单、脱敏说明、训练目的、供应商协议、访问日志、删除退出机制或输出抽查记录，就应当请律师复核。复核重点是把训练用途边界表、材料清单、证据包、整改时间线和业务上线计划放在一起，判断哪些数据能进入模型、哪些只能评测、哪些必须先整改。

本文仅提供围绕企业 AI 训练中个人信息和数据合规的一般法律信息，不构成针对具体数据集、模型、客户合同、供应商安排或监管事项的法律意见。具体处理应结合数据来源、处理目的、训练方式、输出用途和合同文本判断。