客户数据用于模型训练前先查目的变更告知同意和授权边界

创建：2026-06-08 更新：2026-06-08 吕箐翎律师

微信公众号数据合规

这是一篇微信公众号稿件。为便于检索、归档与阅读，收录于“公开发声”。

先把“客户数据”拆成可判断的几类

关键不是企业有没有把数据放进内部系统，而是原来收集客户数据时说清楚的处理目的，能不能覆盖今天的模型训练、微调、评测或 RAG。很多争议不是出在模型本身，而是出在第一步：客服记录、合同、工单、语音图片和用户行为数据本来用于履约、售后、风控或运营分析，现在被拿去做训练语料，却没有重新核查个人信息、授权链和记录留存。

先把“客户数据”拆成可判断的几类

做 AI 训练前，不要先问“能不能训练”，先问这些数据到底是什么。客户姓名、手机号、地址、账号、沟通记录、订单轨迹、投诉工单、录音、图片、合同联系人、企业微信聊天记录，只要能够识别特定自然人，就可能进入个人信息处理边界。即使字段看起来是企业客户资料，只要里面混有经办人、联系人、使用人或消费者信息，也不能只按普通商业资料处理。

第二层要看数据来源。自有业务系统、外采数据、公开网页、第三方 SaaS 导出、合作方共享、供应商标注样本，对应的授权链不同。自有系统也不是天然安全，因为最初告知和授权可能只覆盖交易履行、售后服务或安全风控；第三方数据更要看提供方有没有权利把数据交给你用于训练、评测或检索增强。

第三层要看数据类型。文本、图片、音视频、代码、数据库内容和客服话术可能同时涉及个人信息、作品权益、商业秘密或重要数据风险。训练前的合规判断不能只做个人信息一张表，也不能只做知识产权一张表。吕箐翎律师在处理这类材料核查时，通常会先把数据来源、识别性、原目的、拟用途和对外服务形态放在同一张事实表里，否则后面讨论授权、脱敏或删除都容易跑偏。

目的变更不是一句“内部研发”就能带过

企业最常见的误区，是把模型训练写成内部研发，然后认为它仍属于原来的业务处理目的。这个判断过粗。客户为了下单、维保、投诉或签约而留下数据，并不当然意味着同意这些材料进入训练集、微调集、评测集或向量库。即使模型只在公司内部使用，也要看新用途和原用途之间的关联、必要性、影响范围和用户合理预期。

可以先做一个简单分流：如果只是为了完成原合同或安全运行而做必要的数据处理，风险相对容易解释；如果要把历史客服记录沉淀成通用问答能力，把合同条款喂给模型生成销售话术，把用户行为轨迹用于推荐或画像，把投诉录音转成训练样本，就已经接近新的处理目的。新的目的越独立、越可复用、越可能影响个人权益，越不能只靠旧版隐私政策里的宽泛研发表述。

目的变更还要和必要性一起看。不是所有可用数据都应进入训练。能用合成样本、规则库、匿名化统计结果或人工整理后的知识条目解决的问题，就不应默认把原始客户明细、完整聊天记录和合同附件搬进去。必要性不足时，即使技术上能清洗，也可能在合规解释上站不稳。

告知同意要回到原场景和新用途

核查告知同意时，不要只看有没有勾选框，而要看用户当时被告知了什么。原告知是否说明数据会用于算法训练、模型优化、智能客服、检索增强或自动化分析？是否说明处理的数据类型、处理方式、保存期限、委托处理或第三方提供安排？如果没有，企业至少要评估是否需要重新告知、取得同意，或者改用匿名化、删除、最小化等方式降低风险。

对员工代客户录入、客服转写、合同经办人信息、企业联系人信息，也不要简单认为“这是 B 端客户数据”。个人信息保护边界关注的是能否识别个人，而不是表格归属哪个部门。合同中的联系人、收货人、实际使用人、投诉人和通话对象，往往是训练样本里最容易被忽视的个人信息。

敏感个人信息要单独拉出来。语音、图片、精确定位、身份信息、金融账户、健康信息，或者能反映特定身份、行为轨迹和交易偏好的内容，不能混在普通字段里统一处理。企业如果确实需要使用，应当把处理目的、必要性、影响、保护措施和替代方案写清楚；如果说已经匿名化，也要能说明为什么不再识别到特定个人，不能用普通脱敏、遮盖或删除姓名来替代匿名化结论。

第三方、委托处理和境外模型要另列清单

很多 AI 项目不是企业自己闭环完成，而是把数据交给模型厂商、云服务商、标注团队、咨询公司或外包研发。此时要区分委托处理、共同处理、向第三方提供和单纯工具调用。不同关系下，合同条款、处理目的、数据范围、保存期限、安全措施、再委托、删除返还和事故响应都不一样。

如果供应商会用客户数据改进自己的模型，风险就更高。企业不能只看采购合同里有没有保密条款，还要看供应商是否承诺不把数据用于自身训练，是否支持关闭训练留存，是否能隔离租户数据，是否能在项目结束后删除或返还，是否能提供处理活动记录。没有这些边界，所谓“只是调用模型 API”也可能变成向外部提供个人信息或重要业务数据。

调用境外模型、境外团队远程访问、把训练数据上传到境外平台，或者让境外供应商处理境内个人信息和重要数据时，还要单独判断数据出境路径。这里不宜在正文里直接下结论说一定可以或一定不可以，而应先确认数据主体、数量规模、数据类型、访问方式、接收方和用途，再决定是否需要走相应的合规程序。

训练数据还要看作品、商业秘密和记录留存

客户数据里常常夹杂作品和商业秘密。客服话术、商品图片、用户上传图片、设计图、代码片段、合同模板、数据库内容、竞品材料和第三方报告，不因为被放进训练集就脱离著作权或商业秘密边界。训练前至少要核查素材来源、授权范围、许可期限、可否再加工、可否用于模型训练，以及是否包含客户或合作方的保密信息。

记录留存同样重要。企业应保留数据来源、处理目的、字段范围、清洗规则、删除规则、匿名化或脱敏说明、供应商合同、权限审批、模型用途、评测结果和退出机制。面向公众提供生成式人工智能服务时，还要特别关注训练数据来源合法性、知识产权、个人信息处理、标注质量和数据处理活动记录。没有记录，后续即使实际做了清洗，也很难向客户、监管或合作方解释。

不要把留存理解成越多越好。原始数据留得越久、权限越散、复用越广，风险也越大。更可取的是保留可审计的处理记录和必要样本，把不必要的个人明细、敏感字段和第三方素材从训练集、评测集、日志和备份里拆出去。

可以先做一张训练前核查表

第一列写数据来源：自有系统、客户提供、公开网页、第三方采购、合作方共享、供应商生成。第二列写数据类型：个人信息、敏感个人信息、重要数据、作品素材、商业秘密、普通业务数据。第三列写原处理目的和拟训练目的，判断是否发生目的变更。第四列写授权或告知依据，区分原同意、重新告知同意、合同必要、匿名化处理或不得使用。

第五列写处理关系：自用、委托处理、共同处理、向第三方提供、境外调用。第六列写控制措施：最小化、去标识化、匿名化、字段删除、权限隔离、供应商禁训、日志留存、删除返还和人工复核。第七列写结论：可进入训练、只能进入评测、只能进入 RAG 检索、仅能使用匿名化统计、需要补授权，或者应当剔除。

这张表的价值不是让 AI 项目变慢，而是把“能不能用”从口头判断变成可复核的事实链。尤其在客服、合同、工单和语音图片混合的数据池里，先拆清目的变更和授权边界，往往比后期补隐私政策、补供应商条款或删除模型记忆更省成本。

以上内容仅为一般法律信息和合规核查参考，不构成针对具体项目的法律意见，也不能替代正式咨询或专项审查。后续可以继续关注客户数据、训练数据和知识产权素材在不同 AI 场景下的边界拆解。

先把“客户数据”拆成可判断的几类

目的变更不是一句“内部研发”就能带过

告知同意要回到原场景和新用途

第三方、委托处理和境外模型要另列清单

训练数据还要看作品、商业秘密和记录留存

可以先做一张训练前核查表

参考资料