北京房产继承律师|大语言模型训练语料收集面临的法律风险及防范路径
来源: 北京伊志律师事务所
作者: 北京伊志律师事务所
2024-08-06 09:39:43
454
民主与法制网是由中国法学会主管、《民主与法制》社主办的中央政法媒体,于2000年上线开通。2014年2月获得国务院新闻办公室颁发的《互联网新闻信息服务许可证》,具有新闻信息采编、发布及转载权限。2017年9月,再次获得国家互联网信息办公室换发的《互联网新闻信息服务许可证》,同时民主与法制网微博、微信公众号也获得新闻发布权。2020年7月,民主与法制网荣获中央政法委第二届“四个一百”优秀政法新媒体“优秀资讯类账号”。民主与法制网集全网之力,成为集政治、经济、法治、文化、社会、信息、视频、互动等为一体的国家一类新闻网站,同时与新浪微博、今日头条、一点资讯等均建立了一键分享功能,开通了民主与法制网抖音、快手等视频账号,欢迎网友转载互动。伊志律师事务所位于北京市朝阳区朝外大街乙6号朝外SOHO-C座1209,优越的地理位置,便利的交通条件,安静、专业的办公环境为需求提供方便。 电话:010-84493343 微信:18401228075 电话:18401228075
1月5日,美国作家尼古拉斯·巴斯贝恩和尼古拉斯·盖奇向纽约曼哈顿联邦法院提起集体诉讼,指控美国微软公司与美国人工智能研究公司(OpenAI)未经允许使用他们书中的信息训练其人工智能模型。这两名作家在诉讼中称,微软和OpenAI使用他们书中的信息来训练包括聊天机器人ChatGPT在内的人工智能产品,其行为构成“对版权作品的恶意大规模窃取”。 上述案件并非孤例。自2023年以来,微软公司和OpenAI公司就屡陷知识版权类诉讼“泥潭”,起诉方不仅有作家群体甚至包括美国《纽约时报》。大语言模型作为人工智能技术迅猛发展的产物,其广泛应用被认为是一场新的技术革命与生产力革命。但是,其中蕴含的与各国现行法律框架的冲突与风险同样值得注意,尤其是大语言模型在训练语料来源上的合法性问题已成为各国生成式人工智能技术可持续发展的重要议题之一。这些案例启发我们,应当积极注意大语言模型训练语料收集面临的法律风险,思考如何建构大语言模型训练语料来源的合法性标准。
大语言模型训练语料收集面临的法律风险 ChatGPT等生成式人工智能之所以能够高效、准确生成逻辑性的内容,有赖于其背后有能够持续深度学习的大语言模型(LLM)。大语言模型的训练语料来源于海量数据的搜集与整合,这使得其存在侵犯个人、企业合法权益,甚至是公共利益的法律风险。同时,由于ChatGPT等生成式人工智能的技术特性,这种风险的发现往往存在滞后性、隐蔽性、复杂性等特征。目前,国外已经暴露出的大量案件显示,大语言模型训练语料收集过程中的法律风险主要集中在侵害知识产权与信息安全问题上。未来,这些开放式人工智能平台收集数据的范围可能延伸至国内互联网,这应引起我国相关部门及企业的思考。 其一,大语言模型的训练语料在获取过程中可能涉及对他人知识产权的侵犯。ChatGPT、文心一言等生成式人工智能产品在生成内容过程中产生的知识产权问题被科技界、法律界长期关注,但这仅是生成式人工智能运行的后端环节,率先引发大量诉讼案件的却是大语言模型训练过程这一前端环节。一方面,大语言模型为获取训练语料在国内互联网进行广泛、复杂的数据搜集,这些数据如果未经他人授权许可,则可能构成对他人著作权等知识产权的侵害;另一方面,相关平台还可能获取中国用户在使用其产品过程中输入的个人智力成果,并作为其训练语料的一部分,甚至直接提供给其他用户。在我国,根据《中华人民共和国著作权法》第十条的规定,以上行为可能因为侵犯版权作品的复制权、信息网络传播权、改编权等原因落入著作权的保护范畴。但不仅如此,由于生成式人工智能的特殊性,被大语言模型侵犯权利的个体或企业在发现模型侵权、举证侵权行为和权利定性等问题上均有较高难度,可能会存在“版权失灵”等问题,这引人深思。 其二,大语言模型的训练语料在获取过程中可能涉及个人与企业的信息安全问题。据媒体公开报道,OpenAI为其大语言模型的训练语料搜集了千亿级的词汇量,且其数据量还在持续增大。在这些数据中,可能存在未经信息所有者同意或明确授权的大量个人或企业信息,存在突出的信息安全问题。因此,我国在类似风险规制的过程中,要注意以下两个问题:从个人信息安全层面看,大语言模型存在侵害公民个人信息权益及其隐私权的可能。大语言模型开发者在整合训练语料过程中,其搜集的数据涉及大量的公民个人信息。这种信息搜集行为,根据《中华人民共和国民法典》第一千零三十五条及《中华人民共和国个人信息保护法》第十三条之规定,个人信息处理者处理个人信息应当取得个人同意,且应公开处理信息的规则,明示处理信息的目的、方式和范围。如果这些公民个人信息的获取没有经过授权或者合法途径,可能涉及对公民个人信息的侵犯。从企业信息安全层面看,已经出现了企业内部信息被生成式人工智能技术开发者非法获取的案例,例如,三星半导体部门因为使用ChatGPT导致企业内部商业信息被泄露。可见,我国应当注意企业信息被大语言模型开发者非法用于训练语料可能存在侵犯商业秘密的法律风险。
构建大语言模型训练语料来源的合法性标准 目前,我国人工智能行业还没有出现大语言模型训练语料来源侵权的相关司法案例。但是,正如美国与欧盟等纷纷针对生成式人工智能探索研究监管模式一样,我国也应未雨绸缪,及时防范新技术应用带来的法律风险。其中,大语言模型训练语料来源的合法性标准关系公民权利的合理保护与生成式人工智能服务提供者的良性发展之间的平衡。建议从构建大语言模型训练语料来源的合法性标准出发,树立鼓励创新与防范风险相结合的理念,针对突出的法律风险完善法律框架,明晰技术平台提供者责任。 其一,以鼓励创新与防范法律风险相结合的理念构建大语言模型训练语料来源的合法性标准。目前,我国秉持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。大语言模型训练语料以海量的数据为前提,在保护知识产权与信息安全的前提下,在标准设立上应尽可能排除数据收集等方面的不合理障碍,促进数据要素的合理流通利用。对于大语言模型带来的法律风险,应避免采取“一刀切”暂停技术使用的保守态度,但也不能对已经出现的侵权风险视而不见,可以坚持鼓励创新、防范风险、符合规律、分级统筹的原则。 其二,针对突出的法律风险完善风险防范体系。目前,我国已经前瞻性地针对大语言模型可能存在的法律风险设置了制度框架。在现有《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律基础上,2023年8月实施的《生成式人工智能服务管理暂行办法》(以下简称《办法》)为进一步规制大语言模型训练语料收集面临的法律风险提供了更准确的指导。《办法》强调,尊重知识产权、商业道德,保守商业秘密;尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益。但是,大语言模型训练语料收集工作不仅涉及生成式人工智能的服务提供者,往往还涉及技术开发者。《办法》主要针对服务提供者设置规范,对于技术开发者在收集数据中可能存在的法律风险若不能有效规制,可能导致技术开发者避免监管,放大其侵权风险。建议将技术开发者也作为未来法律监管和规范的关键主体,补全规制链条。此外,大语言模型的技术特性决定了其风险治理存在复杂性、创新性,较为笼统、模糊的规范引导不足以充分应对可能出现的风险挑战。因此,可以从知识产权保护和信息安全保障这两个突出的方面,进一步完善制度设计,将大语言模型训练语料来源的合法性标准进一步细化为操作性强、科学合理、贴合实际的体系化标准,提前防范可能出现的法律风险。 其三,明晰技术平台提供者责任。大语言模型的发展已经展现出巨大的科技潜力与经济价值,在支持大语言模型开发与发展的同时,可以强化企业社会责任,明晰技术平台提供者责任义务。一方面,要求企业遵循透明公开原则。技术平台提供者应当明确数据收集范围及来源、数据收集过程中的可能风险、风险防控措施等。另一方面,采取措施保障训练语料数据来源的合法性与正当性。技术平台提供者可采取的措施包括建立个人信息收集同意制度、构建风险分级管控制度、深化违法信息内部审查合规制度、违法信息人工审查或建立监测系统等。通过具体措施助力企业从内部建立训练语料来源的合法性标准,从而推动多元治理体系健全完善。 大语言模型的发展与完善让我们看到了生成式人工智能技术广阔的运用场景,其中蕴含的重大经济价值和战略机遇可能对科技变革、社会发展产生深远影响。美国微软公司与OpenAI公司陷入版权诉讼困境的先例同样提醒我们,虽然当前某些法律风险还没有出现,但是随着人工智能技术的进一步发展与应用,带有前瞻性地研究大语言模型可能出现的法律风险具有必要性与正当性。训练语料来源的合法性标准的建立将有效控制大语言模型在运行前端的法律风险,推动我国关于人工智能技术配套制度的探索,为实现数字强国、科技强国提供智力支持。
(作者单位:重庆大学法学院)伊志律师事务所位于北京市朝阳区朝外大街乙6号朝外SOHO-C座1209,优越的地理位置,便利的交通条件,安静、专业的办公环境为需求提供方便。 电话:010-84493343 微信:18401228075 电话:18401228075