七部门为生成式人工智能立规,鼓励自主创新、分类分级监管

合规科技王俊,冯恋阁,吴立洋 2023-07-13 20:08
关联内容
AI契约论

21世纪经济报道记者 王俊 南财全媒体记者 冯恋阁 吴立洋 北京、广州报道

中国生成式人工智能迎来重大节点。

7月13日,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》(以下称《办法》),并将于2023年8月15日起施行。

去年底,OpenAI推出的聊天生成预训练转换器(ChatGPT)的爆火,带来了人工智能“iPhone时刻”,多家科技公司加码生成式人工智能竞赛。但技术“狂飙”同时,也带来生成式人工智能发展的“副作用”——虚假新闻、AI诈骗、个人信息泄露、知识产权纠纷等逐渐显现。

对此,各国都在寻求新的治理思路。中国率先交出一份答卷,4月份,网信办发布《生成式人工智能服务管理办法(征求意见稿)》(以下简称“征求意见稿”),公开征求意见。7月13日,《办法》正式落地。

21世纪经济报道记者注意到,与此前征求意见稿相比,《办法》有较大的思路调整,“坚持目标导向和问题导向”,一开始便强调实行包容审慎和分类分级监管,并单设“技术发展与治理”章节,新增了不少有力措施来鼓励生成式人工智能技术发展,比如推动生成式人工智能基础设施和公共训练数据资源平台建设,促进基础技术的自主创新。并明确了训练数据处理活动和数据标注等要求

核心理念:发展与治理“双轮驱动”

对比征求意见稿,正式《办法》增加了大量促发展的内容——“国家坚持发展和安全并重、促进创新和依法治理相结合的原则。”

“技术发展与治理独立成章,契合我国一直以来的人工智能治理原则和理念。”在对外经济贸易大学数字经济与法律创新研究中心执行主任张欣看来,我国在人工智能发展与治理问题上,一直抱持发展与治理“双轮驱动”的平衡理念,强调体现了技术逻辑、产业逻辑和法律逻辑的有机融合。

北京航空航天大学法学院副教授赵精武认为,结合人工智能产业实践现状而言,距离生成式人工智能技术全面普及应用仍然存在一段差距,故政策制定者选择在《办法》中更多地强调“鼓励创新发展”,尤其是鼓励该项技术在各行业、各领域的创新应用。即便技术滥用风险仍然客观存在,但良好的应用生态体系和规范化的技术研发流程更有助于从根源上解决这些滥用风险可能导致的社会问题。

《办法》指出,鼓励生成式人工智能算法、框架、芯片及配套软件平台等基础技术的自主创新,平等互利开展国际交流与合作,参与生成式人工智能相关国际规则制定

“一个共识或者趋势是人工智能的全球竞争已经从技术扩展到治理领域。积极参与国际规则的制定具有非常重要的意义。”张欣告诉21世纪经济报道记者。

对于如何促发展,《办法》还给出了具体指引:推动生成式人工智能基础设施和公共训练数据资源平台建设。促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。鼓励采用安全可信的芯片、软件、工具、算力和数据资源。

在推动生成式人工智能基础设施和公共训练数据资源平台建设方面,张欣认为,生成式人工智能的训练和研发需要大量的基础设施和基础资源支持,平台化的建设有助于更好地协调和优化训练资源,更好地集中精力完成技术层面的攻关和突破。

推动公共数据有序开放,扩展高质量的训练数据资源也是必须要划出的重点。“大模型时代,得数据者得天下。”张欣指出,一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续;另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。

从各地实践也可以看出,加码训练高质量数据集建设已成为重要方向。5月,北京市发布的《北京市促进通用人工智能创新发展的若干措施》中提及:要归集高质量基础训练数据集;谋划建设数据训练基地

明确红线:强调数据合法合规

《办法》对生成式人工智能服务提供者提出了多项要求:应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。此外,明确了数据标注的相关要求。

针对《办法》对数据标注做出的诸多规定,观韬中茂(上海)律师事务所合伙人吴丹君指出:“生成式人工智能涉及的数据标注的问题,官方未发布可以依循的规则或标准,实务中建议生成式人工智能服务提供者做好质量评估的书面留痕工作。

大模型训练数据的合法性和透明性在欧盟的立法和美国近期执法中也有体现,且逐步形成治理层面的共识。来源合法的数据为后续人工智能模型的训练和部署增加了合法性。对于大模型而言,删除模型中不合法或者违反知识产权的数据无法达成有效的救济,因此规定训练数据来源的合法性和合规性非常重要。

此外,大模型随着训练时间、参数量和训练数据规模的增加,会出现“涌现”效应,其中一个“副作用”可能会“一本正经地胡说八道”,生成有问题的内容。

《办法》第十四条指出,提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。提供者发现使用者利用生成式人工智能服务从事违法活动的,应当依法依约采取警示、限制功能、暂停或者终止向其提供服务等处置措施,保存有关记录,并向有关主管部门报告。

在《征求意见稿》中要求“对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。”

赵精武向21世纪经济报道记者分析称,生成式人工智能技术迭代优化较快,该项技术未来的发展趋势和动向难以预测,如果现阶段采用明确的“3个月”周期,可能存在该暂行办法与技术产业实践脱节的风险。并且,不同行业、不同领域的技术应用可能存在不同的技术实践特征,以3个月为周期对模型优化训练等方式进行限定,可能也与产业发展不匹配。因此,公布的暂行办法第14条使用了“及时采取”这一更为灵活的表述方式。

监管思路:包容审核与分类分级监管

在监管方式上,《办法》提出对生成式人工智能服务实行包容审慎和分类分级监管,要求国家有关主管部门针对生成式人工智能技术特点及其在有关行业和领域的服务应用,完善与创新发展相适应的科学监管方式,制定相应的分类分级监管规则或者指引。

值得注意的是,去年,深圳上海相继发布的人工智能产业立法中也提到,要对人工智能进行分类分级监管。欧盟备受瞩目的《人工智能法草案》也以分类分级监管作为核心思路。为何多国、多地人工智能监管治理都提出“分类分级”的思路?

在张欣看来,从生成式人工智能技术本身出发,其技术机理和应用风险在不同的路径和场景下差异巨大,如果实行一刀切的治理不仅不精准,而且会阻碍产业的发展和应用

此外,监管资源是有限的,应集中力量对高风险场景的人工智能予以规制,如果不加区分地一刀切式的规制,不仅会导致监管资源的分散和效率低下,监管的实效性也会受到影响。

此前业内不少声音指出,征求意见稿中对事前监管、备案等要求不够清晰。《办法》第十七条指出,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。与之前相比,此条是否意味着事前监管放松?

受访专家认为,本条一个重要变化是对大模型的舆论属性和社会动员能力进行了限缩,并不像征求意见稿一样认为所有的生成式人工智能都具有舆论属性和社会动员能力。因此体现了治理和监管的精准性。

在吴丹君看来,2021年《关于加强互联网信息服务算法综合治理的指导意见》当中,就把算法备案管理作为监管体系完善的重要一环,此后《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》都明确规定或提及了具有舆论属性或者社会动员能力的算法推荐服务提供者应当履行备案手续。

“因此本条的备案要求只是目前法律体系下监管的环节之一,并不等同于生成式人工智能服务审批,也不意味着备案的服务提供者就能据此落地执行该生成式人工智能产品。”她直言。

一位互联网平台企业法务人士分析,看《办法》表述,安全评估仍然要做,但不是针对所有生成式人工智能服务。同时,“按照国家有关规定开展”,也留出灵活空间,后续政策制定者可以再出一个新规,或者完善《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》。

(作者:王俊,冯恋阁,吴立洋 编辑:包芳鸣)

王俊

记者

做数字经济时代的观察者。微信:wangdajun0117

吴立洋

上海中心记者

关注数字经济与文化产业合规问题,微信:ww1625124926