AI契约论⑧:产业发展需求点题AI政策指向,国家数据库能否成就后起者破局之道?

合规科技吴立洋,郑雪,王俊 2023-06-14 12:11

随着AI产业链向不同应用场景延伸,数据量呈指数级上升,牵涉数据主体与类型更为多元且复杂,宏观层面的数据库整合亦逐渐被纳入多国AI政策框架中。

南方财经全媒体记者 吴立洋 21世纪经济报道记者 郑雪 王俊 实习生阳飘飘 上海,北京报道

梳理世界各国对AI产业的监管政策,隐私、版权、内容安全固然是政策关注的合规焦点,但在极有可能作为下一代科技革命契机的产业升级机会面前,如何推动AI研发与应用与本国产业体系相契合,保护与促进本土AI产业发展,亦成为各国制定AI监管政策时需要首先考虑的施政目标之一。

综合人工智能产业发展的三大要素——算力、算法与数据来看:算力考验的是各国基础设施建设水平,潜在的问题主要在于成本与类似美国对中国芯片出口禁令等外部因素限制,产业发展政策层面的调节空间较小;算法层面,主要依靠的是本国AI产业的发展动力与市场支持力度,政策主要起引导和激励作用,通过创造良好的发展环境助力相关企业成长。

而作为人工智能发展的基础,数据,尤其是高质量、与本国AI发展需求密切相关的数据集,成为政策层面左右产业发展的重要着力点。如何整合本国数据资源,制定数据使用标准,开展数据跨境管理,都成为打造人工智能监管体系的切入口,彰显着各国对这一新兴产业发展采取的态度。

政策题眼

作为GDPR体系的制订者,欧盟各成员国对人工智能产业的数据资源控制延续了其一贯的保守作风。以意大利为例,今年3月底,意大利个人数据保护局(Garante)宣布暂时禁止使用聊天机器人ChatGPT,并就OpenAI涉嫌违反数据收集规则展开调查,同时限制OpenAI处理意大利用户数据成为首个对AI聊天机器人采取禁令的西方国家。

彼时意大利在解释发出禁令的原因时表示,ChatGPT平台出现了用户对话数据和付款服务支付信息丢失的情况,而该平台没有就收集处理用户信息进行告知,且缺乏收集和存储个人信息的法律依据。

4月12日,意大利当局向OpenAI提出了一系列要求,要求其公开ChatGPT的数据处理逻辑、对用户年龄进行筛查、明确数据主体拥有的权利等。

在4月底满足上述条件后,ChatGPT重新在意大利上线,但Garante同时表示,将进一步对生成式AI与AI机器学习进行广泛审查,以了解这些新工具是否存在数据保护与隐私法律合规相关的问题。

事实上,被普遍视为政策环境更注重创新与发展,强调政策灵活性的美国,近年来亦释放出在具体监管行动上更为积极主动的信号。例如启用知名反垄断学者Lina Khan担任FTC主席,邀请多位人工智能危害研究者加入白宫科技办公室等。

“在已经取得一定技术领先优势,并构建了以自身为主导的一套产业发展逻辑后,为打造自身的竞争力和技术主导权而加强监管,抬高其他竞争者的进入门槛,是部分国家实施技术垄断的主要方式。”北京某科技领域法学研究者在与记者交流时表示。

而与之相对应的是,日本在AI数据尤其是版权监管领域释放出极为宽松的监管信号。日前,日本最高教育行政长官、文部科学大臣在会议上重申,日本政府不会对人工智能训练过程中使用的数据实施版权保护。

6月10日,日本政府在知识产权战略总部会议上推出了知识产权推进计划,具体内容包括如何不侵犯著作权,以及何时可以将 AI 生成物视为“著作”。

日本政府表示,为了在保护知识产权同时发挥 AI 技术的作用,“将探讨必要的措施”。生成式 AI 可以解析文学作品、绘画、音乐等众多“著作”,并生成新的内容。在 AI 开发过程中,允许无授权地解析著作数据,但不得违反侵权法规,日本将探讨何种情况属于不恰当侵权。

北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括在接受南方财经全媒体记者采访时指出,整体来看,各国都在基于自身人工智能产业发展的不同定位和战略诉求,设计和实现自身的治理框架和治理主张,并引入与之匹配的治理机制。

壁垒与差距

作为AI产业的源头活水,充足且高质量的训练数据是支撑产业发展动能的主要因素。在行业发展早期,数据积累与开发尚且能够依靠个别企业和科研机构推动,但随着AI产业链向不同应用场景延伸,数据量呈指数级上升,牵涉数据主体与类型更为多元且复杂,宏观层面的数据库整合亦逐渐被纳入多国AI政策框架中。

事实上,整合与开发公共数据资源,为人工智能产业发展提供基础数据支持,已成为多国一以贯之的AI产业发展策略。

美国早在2016年推出的《国家人工智能研究和发展战略计划》中的战略五就提出:开发用于人工智能培训及测试的公共数据集和环境。其中包括“开发满足多样化人工智能兴趣与应用的丰富数据集”,并指出AI培训和测试数据集的完整性和可用性对确保科学的可靠结果至关重要,缺乏具有确认来源的经审查和可用公开数据集来保障再现性,是影响AI充分发展的关键因素。

2021年英国发布的《国家人工智能战略》中也将“投资AI生态系统的长期需求”作为中长期的关键行动计划,具体措施包括发布政府在促进更广泛的经济中实现更好的数据可用性作用的框架,咨询国家网络物理基础设施框架的作用和选择,并通过教育部支持AI、数据科学和数字技能的发展。

长久以来的产业建设与扶持使得英美等西方国家主导的AI产业链在数据库层面提前进行了布局与积累,一定程度上成就了当前以英文文本为主导的数据库在数量与质量层面均领先于其他数据库的发展格局。

“首先,英语作为国际通用语言,使用的国家较多,覆盖的领域内容也更广,信息来源相对更为全面;其次,英语语料的UGC基数更大,也能够支撑更多高质量问答社区生态,从而贡献更多的数据量;最后,例如Github高质量代码库等专业数据库仍主要以英文为主,垂直领域的专业内容很难找到替代品。”北京某算法工程师在与记者交流时指出,数据品类、基数与专业性,是当前人工智能训练英文语料库的优势所在,也是当前部分非英语国家开发人工智能时仍需一定程度上依赖英文数据库的原因。

绿盟科技天枢实验室主任顾杜娟则表示,由于多年的数据积累,国外数据库除丰富度和多样性外,数据的质量和产业认可度往往也更高,其中一些语料库常作为算法训练和评估数据。

宏观整合

在整体数据积累存在可见差距的背景下,后起者如何发力追赶也成为各国制定宏观政策时首要考虑的问题之一,专业数据库、国家数据库等举措亦成为政产学研关注的焦点课题。

“国家数据库的建立对缩小国内外AI产业数据集之间的差距、推动对国内语料库的重视和建设至关重要。”顾杜娟表示,国家语料库的构建需整合多领域中的不同数据资源,对语料库的质量、规模、多样性、准确性和一致性都提出很高的要求。

事实上,当前我国多地已开启数据集层面的协调打通与公共数据开放等工作,地方数据整合实践正在逐步推进中。

上海市于去年10月发布的《上海市促进人工智能产业发展条例》提出,推动人工智能领域高质量数据集建设。支持相关主体将数据与行业知识深度融合,开发数据产品,服务算法设计、模型训练、产品验证、场景应用等需求。

近期北京市发布的《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》亦表示,将联合相关单位构建大规模预训练基础数据集、高质量微调数据集。建立训练数据的供给和使用协调机制,强化相关行业主管部门、相关区政府和重点研发单位、平台企业、数据交易机构等市场主体的沟通协作。

“对于各类互联网主体而言,高质量数据集由于平台间的壁垒往往难以整合,依靠市场的力量进行综合利用是较为困难的,此时依靠行政力量加以打通和监管可能相对更为可行。”上述人工智能算法架构师表示。

(作者:吴立洋,郑雪,王俊 编辑:诸未静)

吴立洋

上海中心记者

关注数字经济与文化产业合规问题,微信:ww1625124926

王俊

记者

做数字经济时代的观察者。微信:wangdajun0117