公开网页训练 AI，先问四个权利边界

创建：2026-06-09 更新：2026-06-09 吕箐翎律师

吕箐翎律师个人站观点吕箐翎律师个人站观点数据合规

先拆开四个问题

吕箐翎律师的判断是：企业用公开网页数据训练 AI，不能先问“网页能不能打开”，要先问“这批数据能不能按训练目的、模型用途和商业化输出被合法使用”。如果来源、授权、权利对象或退出机制说不清，就不应直接进训练集。

先拆开四个问题

我会先把企业的公开网页数据拆成四个问题：第一，数据怎么取得；第二，网页里有哪些权利对象；第三，训练、微调和输出商业化是否被授权或被条款允许；第四，出问题时能不能删除、替换、回滚并向供应商追责。这个处理习惯的重点，是把技术团队口中的“公开数据”变成法务、产品和算法团队都能核对的风险边界。

公开可访问不等于自由训练。《著作权法》能支撑的判断是：网页文字、图片、视频、音频、代码、页面数据库内容或选择编排，可能分别涉及作品、邻接权益或数据库内容的保护边界。《数据安全法》要求企业关注数据来源、处理目的、数据类型和安全保护措施；《生成式人工智能服务管理暂行办法》又把训练数据来源合法性、知识产权、个人信息、标注质量和处理记录放在同一个前置审查框架里。

吕箐翎律师会先看哪些材料

我的实务判断是，第一轮不要让律师只看一份“数据来源说明”。更有用的是材料包：网页 URL 或 API 入口、抓取日志、平台条款截图、授权合同、供应商权利来源说明、付款和交付记录、样本数据字段、个人信息过滤记录、后台删除或替换方案、模型训练用途说明、输出商业化场景说明。

这些材料能帮助判断风险在哪一层：如果网页条款禁止复制、抓取或商业使用，问题可能先卡在取得方式；如果供应商只写“可使用”却没写训练、微调、再授权、输出商用和追偿，问题可能先卡在授权合同；如果样本里混有图片、代码、视频、文章或用户信息，问题可能先卡在权利对象和数据合规；如果企业没有删除、回滚和投诉响应记录，问题会在上线后变成止损困难。

一张表把训练边界落下来

我通常会让企业先做一张表，表名可以叫“公开网页训练数据授权表”。这张表至少有五列：来源与取得方式、权利对象、授权或条款依据、训练和输出用途、缺口与下一步。它不是装饰性的表格，而是决定数据能否进入训练集的证据清单。

表格填完后，下一步按缺口分流：来源和权利对象清楚、条款允许、训练用途被覆盖的，可以进入小范围留痕测试；来源清楚但授权没有覆盖训练或商用输出的，应先补授权或改用替代数据；供应商无法提供权利链、合同没有追偿、样本数据含个人信息或商业秘密线索的，应先暂停进入训练集；已经抓取但证据不足的，要保留抓取时间线、截图、录屏、后台记录和删除记录，避免后续无法解释数据处理过程。

企业下一步怎么决策

企业下一步不是把所有公开网页数据一刀切删掉，也不是因为“行业都这么做”就继续训练。更稳妥的做法，是把训练集分成可继续、需补授权、需替换、需暂停四类，并把每一类对应到产品排期、算法实验和客户交付承诺。这样产品负责人能知道哪些数据可以先做内部验证，法务能知道哪些合同要补，算法团队也知道哪些样本不能进入正式训练。

如果企业的商业目标是对外提供生成式 AI 服务，还要把个人信息、标注质量、处理记录和投诉响应机制一起纳入清单。这里的风险边界很现实：一个网页能公开访问，不代表平台允许批量复制；一个供应商愿意交付数据，不代表它能授权训练；一个模型内部测试能跑通，不代表输出可以商业交付。

什么时候需要律师介入

出现下面任何一种材料缺口，就应当在训练前做律师审查：网页条款或 robots 规则与抓取方式冲突；授权合同没有写训练、微调、再授权、商用输出或追偿；供应商不能说明权利来源；样本中包含图片、代码、文章、视频、个人信息或疑似商业秘密；企业已经准备把模型能力交付客户或对外上线。

这篇回答只提供一般法律信息，不构成针对个案的法律意见。具体项目还要结合数据来源、合同文本、抓取方式、训练目的、模型部署范围、输出使用场景和投诉响应能力判断。

先拆开四个问题

吕箐翎律师会先看哪些材料

一张表把训练边界落下来

企业下一步怎么决策

什么时候需要律师介入

参考资料