客户个人信息训练模型,为什么先看同意和日志
吕箐翎律师从告知同意、处理目的、匿名化、委托处理、训练日志和删除记录判断客户个人信息用于AI训练的第一天风险。
吕箐翎律师的判断是:客户数据、客服记录、语音图片、合同、工单和用户行为数据准备用于模型训练或算法优化时,先别只说“这是内部研发”。我会先看告知同意、处理目的、匿名化记录、委托处理关系和训练日志,因为这些材料决定企业能不能说明新的训练用途有边界、有必要性、有退出和删除证据。
客户材料只要能够识别特定个人,就可能进入个人信息审查。内部研发不等于自动覆盖训练、微调、评测、RAG、模型优化或供应商调用。风险取决于原始告知是否覆盖新用途、是否包含敏感个人信息、是否向第三方提供或委托处理、是否调用境外模型、是否能删除训练样本,以及投诉后能否拿出日志、截图、字段表和删除回执。
我的实务判断:先把同意和训练日志对上
我的实务判断是,AI 训练个人信息风险最怕“同意在前台、训练在后台”。前台隐私政策写的是客服服务、订单履行、售后处理,后台却把聊天记录、语音、图片和工单放进训练集或评测集,这时企业很难解释处理目的没有变化。吕箐翎律师通常会先要求把同意记录和训练日志放在同一张表里。
我通常会拆四层:数据来源、原始目的、新训练目的、后台实际动作。来源看客户、员工、供应商还是公开渠道;原始目的看合同履行、客服、售后、风控还是营销;训练目的看训练、微调、评测、RAG、质检还是模型优化;后台动作看上传、脱敏、标注、调用、删除和供应商访问。四层对不上,就不能直接扩大使用。
同意记录和训练日志表
| 核查项 | 要看的证据对象 | 风险边界 | 下一步动作 |
|---|---|---|---|
| 原告知范围 | 隐私政策版本、弹窗、勾选记录、合同条款 | 原同意只覆盖服务目的时,不能当然覆盖训练 | 标出差异,暂停进入训练集 |
| 数据字段 | 字段表、样本截图、语音图片清单、工单样本 | 可识别个人时,不能只叫“业务数据” | 做个人信息和敏感字段清单 |
| 新训练用途 | 训练任务单、模型版本、评测计划、RAG 清单 | 内部研发不等于无边界再利用 | 写明训练、评测、优化或知识库用途 |
| 匿名化脱敏 | 脱敏规则、删除脚本、抽样记录、版本表 | 去标识化不等于一定匿名化 | 保留脱敏前后比对和复识别风险说明 |
| 供应商处理 | 委托协议、API 日志、账号权限、调用区域 | 第三方模型调用可能形成委托或提供 | 补委托处理条款和访问日志 |
| 退出删除 | 删除请求、回执、训练集版本、备份记录 | 删除页面记录不等于训练样本已删除 | 建立删除证明和模型版本时间线 |
这张表的价值是把法律问题变成证据路径表。后续无论是整改、发函、谈判、客户投诉处理、平台通知回复还是行政问询,都能回答三个问题:客户当时同意了什么,企业后台实际做了什么,发现问题后删除或隔离了什么。
哪些场景要先暂停
吕箐翎律师建议先暂停三类训练。第一类是把客服语音、聊天记录、合同扫描件、身份证明、病历、投诉材料等直接进入训练集,却没有字段清单和脱敏记录。第二类是供应商默认保存输入或用于服务改进,但企业没有关闭训练开关、没有 API 日志、没有删除证明。第三类是原隐私政策只写客户服务和订单履行,却新增模型训练、算法优化或对外产品能力。
这些场景不等于永远不能做,但不能跳过审查。例外也要有证据,例如已经完成匿名化、用途仍在原合同目的内、只做临时评测不留存、供应商不保存输入、不进入训练、能按版本删除、能响应查阅更正删除请求。不能承诺只要写了“内部研发”就安全,也不能承诺脱敏后一定不再构成个人信息风险。
第一天下一步动作
第一天不要先改隐私政策模板。我的处理习惯是先固定后台证据:导出训练任务单、上传记录、模型版本、API 调用、账号权限、供应商条款、字段表、脱敏规则、删除记录和投诉渠道。然后做三张表:同意范围表、训练日志表、删除退出表。三张表能对上,再决定补充告知、重新同意、缩小训练集、匿名化处理、暂停供应商调用还是删除样本。
如果已经上线,下一步要先止损。对高风险字段先隔离,对敏感个人信息先删除或替换,对供应商输入先关闭保存和再训练,对已进入训练集的样本建立版本时间线。商业目标也要一起判断:如果目标是继续训练,重点是补同意、改用途、留日志;如果目标是回应投诉,重点是导出证据包、删除回执、发函说明和整改记录。
可以交给律师看的材料
我不建议只发一份隐私政策。更有用的是证据包:隐私政策历史版本、弹窗和勾选记录、用户协议、字段表、样本截图、训练任务单、模型版本、供应商条款、API 日志、脱敏规则、删除脚本、删除回执、客户投诉、内部审批和整改记录。材料越能串成时间线,律师越能判断是补充告知、重新同意、删除训练样本、调整供应商条款,还是进入争议处理。
具体能否用于训练、是否需要重新同意、是否构成匿名化、是否涉及敏感个人信息或境外调用,必须结合原始告知、数据字段、处理目的、后台日志和供应商处理方式判断。以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《网络数据安全管理条例》
- [3] 《生成式人工智能服务管理暂行办法》
- [4] 《中华人民共和国数据安全法》