客户数据用于模型训练前先查目的变更告知同意和授权边界
这是一篇微信公众号稿件。为便于检索、归档与阅读,收录于“公开发声”。
先把“客户数据”拆成可判断的几类
关键不是企业有没有把数据放进内部系统,而是原来收集客户数据时说清楚的处理目的,能不能覆盖今天的模型训练、微调、评测或 RAG。很多争议不是出在模型本身,而是出在第一步:客服记录、合同、工单、语音图片和用户行为数据本来用于履约、售后、风控或运营分析,现在被拿去做训练语料,却没有重新核查个人信息、授权链和记录留存。
先把“客户数据”拆成可判断的几类
做 AI 训练前,不要先问“能不能训练”,先问这些数据到底是什么。客户姓名、手机号、地址、账号、沟通记录、订单轨迹、投诉工单、录音、图片、合同联系人、企业微信聊天记录,只要能够识别特定自然人,就可能进入个人信息处理边界。即使字段看起来是企业客户资料,只要里面混有经办人、联系人、使用人或消费者信息,也不能只按普通商业资料处理。
第二层要看数据来源。自有业务系统、外采数据、公开网页、第三方 SaaS 导出、合作方共享、供应商标注样本,对应的授权链不同。自有系统也不是天然安全,因为最初告知和授权可能只覆盖交易履行、售后服务或安全风控;第三方数据更要看提供方有没有权利把数据交给你用于训练、评测或检索增强。
第三层要看数据类型。文本、图片、音视频、代码、数据库内容和客服话术可能同时涉及个人信息、作品权益、商业秘密或重要数据风险。训练前的合规判断不能只做个人信息一张表,也不能只做知识产权一张表。吕箐翎律师在处理这类材料核查时,通常会先把数据来源、识别性、原目的、拟用途和对外服务形态放在同一张事实表里,否则后面讨论授权、脱敏或删除都容易跑偏。
目的变更不是一句“内部研发”就能带过
企业最常见的误区,是把模型训练写成内部研发,然后认为它仍属于原来的业务处理目的。这个判断过粗。客户为了下单、维保、投诉或签约而留下数据,并不当然意味着同意这些材料进入训练集、微调集、评测集或向量库。即使模型只在公司内部使用,也要看新用途和原用途之间的关联、必要性、影响范围和用户合理预期。
可以先做一个简单分流:如果只是为了完成原合同或安全运行而做必要的数据处理,风险相对容易解释;如果要把历史客服记录沉淀成通用问答能力,把合同条款喂给模型生成销售话术,把用户行为轨迹用于推荐或画像,把投诉录音转成训练样本,就已经接近新的处理目的。新的目的越独立、越可复用、越可能影响个人权益,越不能只靠旧版隐私政策里的宽泛研发表述。
目的变更还要和必要性一起看。不是所有可用数据都应进入训练。能用合成样本、规则库、匿名化统计结果或人工整理后的知识条目解决的问题,就不应默认把原始客户明细、完整聊天记录和合同附件搬进去。必要性不足时,即使技术上能清洗,也可能在合规解释上站不稳。
告知同意要回到原场景和新用途
核查告知同意时,不要只看有没有勾选框,而要看用户当时被告知了什么。原告知是否说明数据会用于算法训练、模型优化、智能客服、检索增强或自动化分析?是否说明处理的数据类型、处理方式、保存期限、委托处理或第三方提供安排?如果没有,企业至少要评估是否需要重新告知、取得同意,或者改用匿名化、删除、最小化等方式降低风险。
对员工代客户录入、客服转写、合同经办人信息、企业联系人信息,也不要简单认为“这是 B 端客户数据”。个人信息保护边界关注的是能否识别个人,而不是表格归属哪个部门。合同中的联系人、收货人、实际使用人、投诉人和通话对象,往往是训练样本里最容易被忽视的个人信息。
敏感个人信息要单独拉出来。语音、图片、精确定位、身份信息、金融账户、健康信息,或者能反映特定身份、行为轨迹和交易偏好的内容,不能混在普通字段里统一处理。企业如果确实需要使用,应当把处理目的、必要性、影响、保护措施和替代方案写清楚;如果说已经匿名化,也要能说明为什么不再识别到特定个人,不能用普通脱敏、遮盖或删除姓名来替代匿名化结论。
第三方、委托处理和境外模型要另列清单
很多 AI 项目不是企业自己闭环完成,而是把数据交给模型厂商、云服务商、标注团队、咨询公司或外包研发。此时要区分委托处理、共同处理、向第三方提供和单纯工具调用。不同关系下,合同条款、处理目的、数据范围、保存期限、安全措施、再委托、删除返还和事故响应都不一样。
如果供应商会用客户数据改进自己的模型,风险就更高。企业不能只看采购合同里有没有保密条款,还要看供应商是否承诺不把数据用于自身训练,是否支持关闭训练留存,是否能隔离租户数据,是否能在项目结束后删除或返还,是否能提供处理活动记录。没有这些边界,所谓“只是调用模型 API”也可能变成向外部提供个人信息或重要业务数据。
调用境外模型、境外团队远程访问、把训练数据上传到境外平台,或者让境外供应商处理境内个人信息和重要数据时,还要单独判断数据出境路径。这里不宜在正文里直接下结论说一定可以或一定不可以,而应先确认数据主体、数量规模、数据类型、访问方式、接收方和用途,再决定是否需要走相应的合规程序。
训练数据还要看作品、商业秘密和记录留存
客户数据里常常夹杂作品和商业秘密。客服话术、商品图片、用户上传图片、设计图、代码片段、合同模板、数据库内容、竞品材料和第三方报告,不因为被放进训练集就脱离著作权或商业秘密边界。训练前至少要核查素材来源、授权范围、许可期限、可否再加工、可否用于模型训练,以及是否包含客户或合作方的保密信息。
记录留存同样重要。企业应保留数据来源、处理目的、字段范围、清洗规则、删除规则、匿名化或脱敏说明、供应商合同、权限审批、模型用途、评测结果和退出机制。面向公众提供生成式人工智能服务时,还要特别关注训练数据来源合法性、知识产权、个人信息处理、标注质量和数据处理活动记录。没有记录,后续即使实际做了清洗,也很难向客户、监管或合作方解释。
不要把留存理解成越多越好。原始数据留得越久、权限越散、复用越广,风险也越大。更可取的是保留可审计的处理记录和必要样本,把不必要的个人明细、敏感字段和第三方素材从训练集、评测集、日志和备份里拆出去。
可以先做一张训练前核查表
第一列写数据来源:自有系统、客户提供、公开网页、第三方采购、合作方共享、供应商生成。第二列写数据类型:个人信息、敏感个人信息、重要数据、作品素材、商业秘密、普通业务数据。第三列写原处理目的和拟训练目的,判断是否发生目的变更。第四列写授权或告知依据,区分原同意、重新告知同意、合同必要、匿名化处理或不得使用。
第五列写处理关系:自用、委托处理、共同处理、向第三方提供、境外调用。第六列写控制措施:最小化、去标识化、匿名化、字段删除、权限隔离、供应商禁训、日志留存、删除返还和人工复核。第七列写结论:可进入训练、只能进入评测、只能进入 RAG 检索、仅能使用匿名化统计、需要补授权,或者应当剔除。
这张表的价值不是让 AI 项目变慢,而是把“能不能用”从口头判断变成可复核的事实链。尤其在客服、合同、工单和语音图片混合的数据池里,先拆清目的变更和授权边界,往往比后期补隐私政策、补供应商条款或删除模型记忆更省成本。
以上内容仅为一般法律信息和合规核查参考,不构成针对具体项目的法律意见,也不能替代正式咨询或专项审查。后续可以继续关注客户数据、训练数据和知识产权素材在不同 AI 场景下的边界拆解。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《网络数据安全管理条例》
- [3] 《生成式人工智能服务管理暂行办法》
- [4] 《中华人民共和国数据安全法》
- [5] 《中华人民共和国著作权法》
- [6] 《促进和规范数据跨境流动规定》