开源人工智能的快速发展,正在重塑全球人工智能技术扩散的路径与格局。以权重公开为主要特征的开源模型,因其可下载、可微调、可二次开发的特性,使技术创新的参与门槛大幅降低,推动了人工智能技术能力在更广泛主体之间的流通与应用。2026年国务院《政府工作报告》明确提出“支持人工智能开源社区建设,促进开源生态繁荣”。“十五五”规划纲要也明确要求“推进开源体系建设,完善开源运行机制”。在这一产业变革与政策推动相互叠加助力的背景下,面向产业创新赋能的开源人工智能规则体系建设,不能仅停留在对于个别法律争议的零散回应,而应立足开源人工智能的运行逻辑和生态特征,系统回应产业格局与制度供给之间的不适应,着力构建能够兼顾创新激励与安全治理的规则体系,为开源人工智能健康发展和产业生态繁荣提供更具前瞻性、稳定性和适配性的法治保障。
开源人工智能产业需求与制度保障的不平衡
开源人工智能技术发展所引发的制度问题,根源在于其产业运行逻辑与现行规则体系保障预设之间的适配滞后。以开放共享和协同迭代为特征的开源模式,正在推动人工智能由封闭供给走向开放扩散,由集中控制走向多主体参与。与之相对,现行制度规则仍主要建立在以软件源代码为主的规则中心化治理和传统责任主体相对集中易发现的基础之上。在这种产业格局持续变化而制度结构相对滞后的关系中,开源人工智能所进行的训练数据利用、安全监管覆盖以及开源许可证功能等问题日益显现,并逐步成为开源人工智能规则体系构建中必须回应的核心议题。
在训练数据利用层面,开源模型发展对于版权规则的适配性提出了更高要求。开源人工智能的能力高度依赖于大规模数据训练、持续迭代优化以及模型的再开发与再利用,而现行版权制度对于模型训练数据使用合法性的回应仍然较为有限。《生成式人工智能服务管理暂行办法》第7条虽然已经明确要求使用具有合法来源的数据和基础模型、涉及知识产权的,不得侵害他人依法享有的知识产权,但从现行《著作权法》合理使用规则的结构来看,其规范设计主要仍围绕个人学习、课堂教学、科学研究等传统利用场景展开,对于模型训练这一兼具规模性、技术性和产业性的使用方式,尚未形成清晰、稳定且具有可操作性的规则支撑。特别是在开源场景下,模型权重公开和衍生链条延伸使得训练数据来源合法性和权利责任配置问题更容易暴露出来,使开源模型相较于闭源模型会承担更高的版权合规压力。
在安全监管层面,现有规制框架与开源模型的扩散机制之间存在明显错位。当前人工智能安全治理总体上仍然以服务提供者为主要规制对象,围绕算法备案、内容安全、模型管理和服务合规展开,其背后所预设的运行结构仍是相对中心化和可识别归责的服务供给关系。然而,开源模型一经发布,便可能基于其许可证的扩散机制迅速进入多层次、多主体和多场景的衍生应用链条,以此形成“模型发布者-微调开发者-场景部署者-终端使用者”相互叠加的复杂结构。在此过程中,模型能力的实际提供者与法律意义上的责任承担者未必始终保持一致,传统围绕单一服务提供者所展开的监管模式,也就难以完整覆盖开源模型“发布即扩散”的运行现实。
在开源许可证层面,现有通用许可证与人工智能产业发展需求之间存在制度保障空隙。近年来,国内头部开源模型在许可证选择上逐渐向MIT、Apache2.0等通用宽松许可证迁移,这种变化有助于降低合作门槛、扩大生态参与范围,并促进模型能力的传播与应用。但需要看到的是,这类许可证原本主要针对传统软件源代码的复制、修改和再分发规则设计,其制度功能集中于源代码开放与利用自由,对于人工智能模型输出结果的权利归属无相关规定,对高风险场景的使用限制、训练数据来源声明等人工智能特有问题,尚未提供充分、恰当的规则安排。随着开源人工智能由技术社区内部协作逐步走向通用化、规模化和产业化,许可证所承载的制度功能也面临新的边界,单靠既有通用协议已难以完成对模型开放条件、产业使用秩序和风险控制要求的全面协调。
开源人工智能治理核心规则的制度构建
现有规则不足以保障通过开源形式建立的人工智能产业健康发展需求,对此,如何构建面向产业创新赋能的开源人工智能规则体系,关键在于围绕模型运行链条中的核心法律关系形成与其开放扩散、协同开发和多主体参与特征相适应的制度安排。从现实产业运行看,当前规则短板主要集中于前述训练数据利用、安全监管适配和开源许可证功能三个主要面向,核心法律规则的建构可以尝试就这三方面同步推进。
训练数据合规治理构成开源人工智能规则体系建构的基础环节。开源模型的能力形成高度依赖大规模数据训练学习与优化,训练数据的合法性基础由此成为模型开发和开源发布的前提。围绕这一问题,实践中有两个基本前提需要澄清。一是“开源”不等于免于授权约束。开源的核心法律机制是以许可证为中心的有条件授权,权利人并未永久放弃版权,而是通过格式化合同向公众有条件让渡特定版权权利。二是算法开源与训练数据公开是两个相互独立的法律规则领域。模型权重的开放并不意味着训练数据可一并对外披露,强制要求数据公开,在医疗、金融等涉及敏感信息的场景中反而将迫使企业违反个人信息保护义务。而《著作权法》第24条设定的合理使用规则采用的封闭式列举模式,则使“合法来源”这一规范性要求难以得到制度支撑,现行合理使用情形对模型训练场景均存在适用障碍,法院缺乏认定人工智能模型训练合理使用的规范依据。
训练数据合规治理需要在立法、政策和司法层面共同推进。立法上,可依托《著作权法》第24条第13项兜底条款预留制度接口,在配套规范中增设面向文本与数据挖掘、机器学习或模型训练的专门权利限制规则,并探索机器可读的“声明保留”机制。政策上,应统筹推进国家公共语料库建设,系统开放政务数据、公共文化资源与科学数据,鼓励科研机构以开放许可证形式发布经过合规处理的中文语料,以供给侧的有效扩容降低企业寻找合规数据来源的难度。司法上,则应通过司法解释或指导性案例,逐步统一模型训练合理使用、输出侵权判断和平台责任边界等核心标准。
开源模型安全监管分级治理是开源人工智能规则体系建构的关键环节。在训练数据合法性问题之外,开源人工智能进一步提出的制度挑战主要集中体现在现有安全监管框架与开源扩散逻辑之间的适配不足,具体体现为现行备案制度与开源人工智能模型运行逻辑的不适配。第一,将模型权重发布至开源社区,在现行制度下并不直接触发备案义务,但一旦模型被开源,研发者无法通过云端接口进行事后管控,这与闭源服务的治理逻辑存在本质差异;第二,基于开源模型进行垂直场景微调的下游企业,须承担构建数十万量级拦截关键词库、覆盖多项风险场景评估测试题集等繁重义务,合规成本与实际算力投入严重不相称,制约了开源模型在垂直行业的应用推广。
安全监管规则有必要转向更符合产业逻辑的分级治理结构。“十五五”规划纲要提出“构建技术标准研制调整、技术应用分级管理机制”和“推动建立人工智能全生命周期风险管理制度”,为制度转型提供了政策依据。制度设计上,可围绕模型能力水平、应用场景敏感度和现实风险强度实行差异化监管。对于未达到系统性风险阈值的普通开源基础模型,豁免技术文档披露、下游信息报告等义务,保留版权合规等基本底线要求;对于算力规模较大、能力较强的开源模型,引入安全评估与红蓝对抗测试,体现技术能力与防控能力相匹配的原则,但需注意单纯依赖算力阈值可能遗漏能力已较强但训练成本较低的模型,建议将算力阈值与实际能力评估相结合。同时,还应建立“基础模型-微调模型-应用服务”的分层备案通道,使不同环节主体依据其实际控制能力和风险贡献承担相应责任,从而实现合规成本在产业链上的合理分配。
开源许可证规则效果的规范化是开源人工智能规则体系建构的重要支撑。在训练数据规则与安全监管规则之外,开源人工智能的制度运行还需要借助更具适配性的许可证规则安排,对开放条件、责任边界和风险传导机制加以协调。传统开源许可证设计以软件源代码为规制对象,在人工智能模型场景下存在三类具体空白。一是对模型输出结果的权利归属均未做规定;二是缺乏针对生化武器开发、大规模监控等高安全风险场景的使用限制条款;三是对训练数据来源合法性声明、安全对齐措施披露、下游商业部署方法与合规承诺等人工智能特定义务缺乏安排。
人工智能开源许可证规则的完善应朝着人工智能专门化和制度激励化两个方向推进。一方面,产业界应推动研制人工智能专用开源许可证,在现有框架基础上增设人工智能特定条款,内容应至少涵盖训练数据主要来源类别及合法性基本声明、已采取安全对齐措施的原则性描述、模型输出物的权利归属默认规则,以及特定高风险场景的使用限制。如木兰宽松许可证(MulanPSL v2)已获国际开源组织认证,可在此基础上增设人工智能特定内容形成系列许可证,具备一定可行性。另一方面,可探索建立“合格开源许可证”认定机制,将采用符合安全要求的许可证作为享受分级监管豁免的条件之一,形成以许可证合规换取备案简化的规则激励。对于未采用合格开源许可证的开源模型,可要求其在发布时附随安全说明文档就训练数据来源、模型能力边界和已知风险作出基本披露,并由人工智能行业或产业协会提供附加条款范本,降低企业合规成本,通过行业自治实现有效治理。
开源人工智能跨境治理的规则边界与标准建设
面向产业创新赋能的开源人工智能规则体系建设,不仅需要着眼于国内法层面训练数据利用、安全监管适配和许可证规范化等核心议题,还应关注开源人工智能跨境治理的相关规则建设。开源模型一经发布即可在全球范围内传播、部署和二次开发,由此产生的跨境治理问题在现行规则框架中尚无系统回应。由此,我国面向产业创新赋能的开源人工智能规则建构,既要着眼于国内制度完善,也要将视野进一步拓展至跨境场景中的规则边界和制度衔接问题。开源人工智能跨境治理的重点应主要集中于出口管制边界的明确、数据合规接口的细化以及整体行业标准建设能力的提升。
进一步明确开源模型跨境流动中的出口管制边界。尽管《中国禁止出口限制出口技术目录》已规定涉及个性化信息推送服务技术等相关条款,但在面对“模型开源发布”这一新型技术扩散方式时仍存在适用边界不清的问题。在人工智能开源场景下,基础模型的开源发布与通过商业交易向特定主体转让核心技术的方式,在传播路径、控制能力和商业目的上均存在实质差异,现行规则对开源模型是否应当纳入出口管制的规制范围缺乏明确规定。此外,对于在境外对中国开源模型进行超大算力微调并在境外部署的情形,是否会触发中国侧的技术出口管制,同样需要在规则层面作出界定。这两个边界的模糊,既会增加国内企业参与全球开源生态的制度不确定性,也会影响监管规则域外适用的稳定性和可预期性。较为可行的处理路径可以参照《技术进出口管理条例》关于技术许可与技术转让的既有区分框架,将“以开放许可证向不特定公众发布模型权重”定性为有别于定向技术转让的特殊扩散方式,并在此基础上形成更具针对性的差异化规则。
形成更具操作性的开源人工智能跨境运行中数据合规的规则指引。境外开源模型以中国境内数据为语料进行蒸馏训练、调用境外算力处理境内数据、境内企业向境外开源平台传输训练日志,均可能引发《数据安全法》《个人信息保护法》《网络安全法》等关于数据出境安全评估的要求。当前,上述场景中哪些属于须经安全评估的出境行为,尚缺乏可操作的细化规则。面向开源人工智能的制度供给,需要在守住网络安全、数据安全和个人信息保护底线的前提下,围绕不同类型数据的跨境流动进一步细化规则,并为高质量训练数据集的合规双向流动建立明确通道,使中国开源人工智能模型既能够依法参与全球协作,也能够在跨境合规上形成更明确的制度预期。
依托标准建设和完善规则衔接机制提升跨境治理能力。开源人工智能的跨境扩散表明,单边规则固然重要,但规则是否能够被不同法域的开发者、平台和经营主体识别和采纳,同样构成治理有效性的重要条件。当前,以木兰宽松许可证(MulanPSL v2)为代表的本土开源协议已经具备一定制度基础,但国内头部企业开源模型仍普遍采用MIT、Apache等国际通行协议,这一现实表明,本土标准在国际开发者社区中的识别度、适用便利性和传播能力仍有进一步提升空间。
标准建设的重点不在于形式上的许可证协议替换,而在于围绕开源人工智能的特殊需求,形成兼具国际可读性、制度稳定性与本土治理关切的规则表达。一方面,应推动人工智能专用开源许可证与国际开源社区既有认证机制、合规工具体系形成更加紧密的衔接,提升本土开源许可证的国际可信度与适用便利性。另一方面,应依托人工智能国际标准制定平台,推动在ISO/IEC JTC 1/SC 42人工智能标准工作组中将开源人工智能许可证的合规框架纳入标准议题,增强我国在新兴规则领域中的议题设置能力。同时,还可在双边科技合作协议和自由贸易协定中,探索开源人工智能规则互认与标准衔接的制度路径,为本土规则积累更多国际适用经验,推动国内规则进一步转化为国际可采纳的标准表达。