大模型企业做 IP 布局,为什么先看证据图
吕箐翎律师从训练配置、数据集清单、源码提交、评测报告、RAG 引用日志、SBOM、NDA、访问记录和客户验收判断大模型企业的专利、著作权、商业秘密与数据合规布局。
吕箐翎律师的判断是:大模型企业做 IP 布局,不能先从“要不要申请多少件专利”开始。我会先看证据图,因为训练配置、数据集清单、源码提交、模型评测报告、RAG 引用日志、SBOM、NDA、访问记录和客户验收记录,决定哪些成果能主张专利,哪些更适合著作权、商业秘密、合同控制或数据合规整改。
大模型产品的技术价值往往分散在模型训练、推理加速、RAG 检索、数据治理、安全评测、应用工作流和工程部署里。只把提示词、功能页面或论文结论包装成专利,不等于形成可防守的权利组合。先画证据图,是为了把“算法想法”落到可核查材料:谁产生、何时产生、在哪个代码版本、用过哪些数据、是否含客户个人信息、是否有授权、是否被公开披露、是否已经交付客户。
我的实务判断:先做证据分层
我的实务判断是,LLM 企业先要把证据分成五层:技术形成层、数据来源层、代码资产层、外部披露层、商业使用层。技术形成层看训练配置、参数变更记录、实验日志、模型评测报告和失败实验记录;数据来源层看数据集清单、来源表、授权合同、脱敏记录和删除记录;代码资产层看 commit hash、代码仓库权限、模型服务脚本、部署记录和 SBOM;外部披露层看论文、路演 PPT、官网白皮书、开源仓库和客户演示材料;商业使用层看客户合同、验收记录、SLA、访问日志和投诉下架记录。
这张证据图不是形式文件。它会直接影响布局策略:训练方法、推理流程或检索排序如果有稳定技术方案,可以进入专利可行性评估;源代码、提示词模板、评测脚本和文档可以先做著作权和版本留痕;未公开参数、数据清洗规则、标注规范、客户场景知识库和成本优化流程,可能更适合商业秘密和权限控制;涉及个人信息、客户数据或第三方作品的数据集,要先看告知同意、合同目的、授权范围和删除机制。
LLM IP 证据图怎么画
| 证据层 | 要固定的材料 | 对应风险边界 | 下一步动作 |
|---|---|---|---|
| 技术形成 | 训练配置、实验日志、评测报告、失败记录 | 只有概念描述不等于可保护技术方案 | 建立版本时间线和技术贡献表 |
| 数据来源 | 数据集清单、来源表、授权合同、脱敏记录 | 客户数据和个人信息不能被“内部研发”当然覆盖 | 做数据来源、目的和删除路径表 |
| 代码资产 | commit hash、仓库权限、SBOM、部署脚本 | 开源依赖和员工代码会影响权利归属 | 固定代码版本和许可证清单 |
| 商业秘密 | NDA、访问记录、权限审批、离职交接 | 未采取保密措施会削弱秘密保护 | 补权限矩阵和保密证据包 |
| 外部披露 | 论文、路演 PPT、官网、开源仓库、客户演示 | 公开披露会影响新颖性和保密性 | 标注披露版本和披露时间 |
| 商业使用 | 客户验收、SLA、RAG 引用日志、下架记录 | 交付使用会暴露侵权、数据和质量责任 | 建客户场景证据包和整改记录 |
这张表的目标,是让企业把 IP 布局从“申请清单”变成“证据清单”。没有证据图,专利、著作权、商业秘密、数据合规和客户合同会各说各话,等到融资、合作、被投诉或员工离职时才发现证据断裂。
哪些内容不宜直接拿去申请
吕箐翎律师通常会先排除三类材料。第一类是没有训练配置、实验日志、commit hash 和评测报告支撑的泛化想法,例如“用大模型提高客服效率”。第二类是来源不清的数据集、爬取素材、客户资料、聊天记录和含个人信息的工单,如果没有授权合同、告知同意、匿名化记录或删除机制,不宜直接作为成果基础。第三类是已经在论文、官网、开源仓库、路演材料、客户演示里公开过的方案,不能只看内部立项时间,还要看公开披露版本和披露时间。
这些排除不是说永远不能保护,而是先换保护路径。已经公开的内容,要看还能否围绕改进点、工程部署、评测方法或具体工作流重新识别技术方案;不适合申请专利的代码和文档,可以先补著作权登记、仓库权限、SBOM 和许可证清单;更适合商业秘密的部分,要补 NDA、访问记录、权限审批、客户披露边界和离职交接记录。
第一天下一步动作
第一天不要只开专利选题会。我的处理习惯是先让企业拉出三张表:证据路径表、权利路径表、数据合规路径表。证据路径表列训练配置、数据集清单、来源表、commit hash、评测报告、RAG 引用日志、SBOM、NDA、访问日志、客户验收记录、下架记录和披露版本。权利路径表区分专利、著作权、商业秘密、商标和合同控制。数据合规路径表标明个人信息、客户数据、第三方作品、开源代码、委托处理和删除退出机制。
如果企业正在融资、招投标、对外合作或准备开源,下一步要先做披露控制。对未公开核心技术,先定披露版本;对客户数据和个人信息,先核查处理目的、必要性、授权和删除路径;对开源依赖,先跑 SBOM 和许可证清单;对客户交付场景,先保存验收记录、RAG 引用日志、投诉记录和整改记录。商业目标也要同步判断:如果目标是融资展示,重点是权属和证据完整;如果目标是对外合作,重点是授权边界;如果目标是防员工或供应商带走成果,重点是保密措施和访问记录。
可以交给律师看的材料
我不建议只发一份产品介绍或专利交底书。更有用的是材料包:训练配置、实验日志、模型评测报告、数据集清单、数据来源表、授权合同、脱敏记录、commit hash、代码仓库权限、SBOM、开源许可证清单、NDA、访问记录、论文和路演披露版本、客户合同、客户验收记录、RAG 引用日志、投诉下架记录和删除回执。材料越能形成时间线,律师越能判断哪些进专利,哪些留商业秘密,哪些补著作权或合同条款,哪些先做数据合规整改。
具体能否申请专利、是否构成著作权作品、商业秘密能否成立、数据处理是否合法、客户交付责任怎么分配,必须结合技术方案、材料来源、公开披露、合同约定、保密措施和使用场景判断。以上内容仅作一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国专利法》(2020年修正)
- [2] 《中华人民共和国著作权法》
- [3] 《中华人民共和国反不正当竞争法》
- [4] 《中华人民共和国数据安全法》
- [5] 《中华人民共和国个人信息保护法》