吕箐翎律师的判断是:企业用公开网页数据训练 AI,不能先问“网页能不能打开”,要先问“这批数据能不能按训练目的、模型用途和商业化输出被合法使用”。如果来源、授权、权利对象或退出机制说不清,就不应直接进训练集。
先拆开四个问题
我会先把企业的公开网页数据拆成四个问题:第一,数据怎么取得;第二,网页里有哪些权利对象;第三,训练、微调和输出商业化是否被授权或被条款允许;第四,出问题时能不能删除、替换、回滚并向供应商追责。这个处理习惯的重点,是把技术团队口中的“公开数据”变成法务、产品和算法团队都能核对的风险边界。
公开可访问不等于自由训练。《著作权法》能支撑的判断是:网页文字、图片、视频、音频、代码、页面数据库内容或选择编排,可能分别涉及作品、邻接权益或数据库内容的保护边界。《数据安全法》要求企业关注数据来源、处理目的、数据类型和安全保护措施;《生成式人工智能服务管理暂行办法》又把训练数据来源合法性、知识产权、个人信息、标注质量和处理记录放在同一个前置审查框架里。
吕箐翎律师会先看哪些材料
我的实务判断是,第一轮不要让律师只看一份“数据来源说明”。更有用的是材料包:网页 URL 或 API 入口、抓取日志、平台条款截图、授权合同、供应商权利来源说明、付款和交付记录、样本数据字段、个人信息过滤记录、后台删除或替换方案、模型训练用途说明、输出商业化场景说明。
这些材料能帮助判断风险在哪一层:如果网页条款禁止复制、抓取或商业使用,问题可能先卡在取得方式;如果供应商只写“可使用”却没写训练、微调、再授权、输出商用和追偿,问题可能先卡在授权合同;如果样本里混有图片、代码、视频、文章或用户信息,问题可能先卡在权利对象和数据合规;如果企业没有删除、回滚和投诉响应记录,问题会在上线后变成止损困难。
一张表把训练边界落下来
我通常会让企业先做一张表,表名可以叫“公开网页训练数据授权表”。这张表至少有五列:来源与取得方式、权利对象、授权或条款依据、训练和输出用途、缺口与下一步。它不是装饰性的表格,而是决定数据能否进入训练集的证据清单。
表格填完后,下一步按缺口分流:来源和权利对象清楚、条款允许、训练用途被覆盖的,可以进入小范围留痕测试;来源清楚但授权没有覆盖训练或商用输出的,应先补授权或改用替代数据;供应商无法提供权利链、合同没有追偿、样本数据含个人信息或商业秘密线索的,应先暂停进入训练集;已经抓取但证据不足的,要保留抓取时间线、截图、录屏、后台记录和删除记录,避免后续无法解释数据处理过程。
企业下一步怎么决策
企业下一步不是把所有公开网页数据一刀切删掉,也不是因为“行业都这么做”就继续训练。更稳妥的做法,是把训练集分成可继续、需补授权、需替换、需暂停四类,并把每一类对应到产品排期、算法实验和客户交付承诺。这样产品负责人能知道哪些数据可以先做内部验证,法务能知道哪些合同要补,算法团队也知道哪些样本不能进入正式训练。
如果企业的商业目标是对外提供生成式 AI 服务,还要把个人信息、标注质量、处理记录和投诉响应机制一起纳入清单。这里的风险边界很现实:一个网页能公开访问,不代表平台允许批量复制;一个供应商愿意交付数据,不代表它能授权训练;一个模型内部测试能跑通,不代表输出可以商业交付。
什么时候需要律师介入
出现下面任何一种材料缺口,就应当在训练前做律师审查:网页条款或 robots 规则与抓取方式冲突;授权合同没有写训练、微调、再授权、商用输出或追偿;供应商不能说明权利来源;样本中包含图片、代码、文章、视频、个人信息或疑似商业秘密;企业已经准备把模型能力交付客户或对外上线。
这篇回答只提供一般法律信息,不构成针对个案的法律意见。具体项目还要结合数据来源、合同文本、抓取方式、训练目的、模型部署范围、输出使用场景和投诉响应能力判断。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《生成式人工智能服务管理暂行办法》