基于AIGC领域数据应用而产生的“自下而上”的确权实践值得引起关注。
21世纪经济报道记者 王俊 郑雪 北京报道
编者按:以数据驱动发展的智能化时代正在到来,成为重新定义人类社会未来的核心要素。2022年12月,中共中央、国务院出台《关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”),要求探索数据产权结构性分置制度,建立数据资源持有权、数据加工使用权、数据产品经营权“三权分置”的数据产权制度框架。
企业数据确权授权机制,是数据二十条中的重要内容。然而一直以来企业数据确权是数据产权制度体系的一个难点。企业在数据生产、流通、使用等过程中,涉及个人、企业、社会、国家等相关主体对数据有着不同利益诉求,且呈现复杂共生、相互依存、动态变化等特点,传统权利制度框架难以突破数据产权困境。
如何探寻企业数据精准确权路径?成为当下必须解答的问题。
清华大学技术创新研究中心数权经济研究室,持续开展数据权属研究与前沿实践。4月24日,发布《企业数据确权与全球合规趋势报告(2023)》(以下简称“报告”),提出了全球首创的“企业数据精准确权路径”。 清华大学经济管理学院副院长、清华大学技术创新研究中心副主任李纪珍教授指出“该体系是针对AIGC时代数据确权与合规治理挑战而提出的,全球企业通用的数据确权理论和方法体系,由清华大学技术创新研究中心数权经济研究室,联合DAMA专家共同研究,并在中国大型央企进行了实践,总结出中国电力数据精准确权应用指引。国家电网、国网福建电力大数据中心等机构对该研究提供了重要支持。”
报告由清华大学技术创新研究中心、DAMA(国际数据管理协会)、环球律师事务所的专家共同编写的,21世纪经济报道、南财合规科技研究院作为联合发布单位,希望能与全球各国政府及行业企业共同推动数据流通与数据资产价值的发现。
GPT热潮之下,AI Generated Content(人工智能生成内容)成为当下人工智能领域最为火热的技术与话题。
AIGC的出现离不开对于海量数据的训练。AIGC产业高速发展的同时,也面临着如何在数据合规与数据要素利用达成最优的挑战。
数据确权与合规,是全球企业数字化发展过程中共同面临的难题。报告盘点了AIGC产业的各国合规政策,总结AIGC治理过程中需关注伦理、网络和数据安全等多项议题。
同时,目前缺少以数据要素确权的视角对AIGC相关企业主体及其数据资源予以规范。在此背景下,基于AIGC领域数据应用而产生的“自下而上”的确权实践值得引起关注。
AIGC治理合规要点:关注伦理、数据安全、隐私保护等多项议题
综合美、欧、中三方治理措施,报告指出,AIGC治理的合规要点主要包含以下几个方面:
首先,在人工智能伦理合规方面。可以初步总结提炼出以下10项普遍适用的人工智能伦理原则:①人本主义,②公平与禁止歧视,③社会协作与共享,④透明性与可解释性,⑤隐私与数据保护,⑥受保障与恢复力,⑦安全性与可控性,⑧负责任与可问责,⑨选择权与救济,⑩符合法律与社会价值。在我国,基于《伦理规范》与《防范指引》可知,人工智能的伦理治理需嵌入到AIGC企业的研究开发、设计制造、应用部署以及企业用户使用的全阶段。
第二,在网络与数据安全保护方面。AIGC治理所面对的网络与数据安全合规要点包括:网络安全等级保护、数据分类分级管理、合规管理体系的搭建以及安全事件的防范。
作为网络运营者的AIGC相关主体应当在规划设计阶段确定网络的安全保护等级,按照网络安全等级保护制度的要求,履行相应安全保护义务。
在数据安全方面,对海量数据开展数据分类分级是安全保护及后续开发利用的重要环节。AIGC相关主体应当关注整体合规管理体系的搭建,可分为外部政策与协议以及内部数据安全管理制度。
其中,外部政策与协议包含隐私政策与第三方协议;AIGC企业应根据面向的用户群体,制定隐私政策及用户服务协议,同时,如何增加对儿童年龄验证的机制,也是面向儿童收集个人信息的AIGC产品所面对的难题。此外,AIGC企业应根据自身数据处理的身份角色,与外部第三方签订数据处理协议。
内部制度包括但不限于数据(个人信息)安全管理总则、全生命周期管理等制度,其中,有关算法管理制度、数据安全事件与应急响应规范应当是本领域企业建设的重点制度。
AIGC的开发运营主体应建立数据安全事件应急响应机制,内容涵盖可能出现的数据(包括个人信息)泄露(如数据暴露、丢失、窃取、篡改、假冒)设备设施故障、网络攻击、有害程序等数据安全事件,并针对安全事件开展安全事件的应急响应演练。此外,存在由于AIGC的研发服务商利用接入企业提供的数据进行大语言模型的训练而产生“新的泄露风险”,即由于训练过程中数据脱敏不到位,使得大语言模型向其他用户/客户生成的信息中包含了接入企业向服务商提供的数据。因此,网络与数据安全保护应当成为大语言模型研发运营主体关注的重中之重。
第三,对于隐私与个人信息保护,AIGC企业应做到合法正当收集个人信息、公开透明、最小必要。
对于AIGC相关主体,个人信息使用过程中重点应当注意使用目的限制、个人信息汇聚融合以及个人信息展示限制。此外,AIGC模型开发训练过程中,涉及个人信息的汇聚融合,应当开展个人信息保护影响评估并留存记录。同时,在技术条件及开发需求均满足的情况下,对于未匿名化的个人信息,应当注重对用于算法训练的个人信息实行分类分级管理并采取相应的加密、去标识化等安全技术措施。
在个人信息传输方面,根据AIGC接入企业与研发运营企业(即服务商)签订的数据处理协议条款的具体内容不同,接入企业向服务商传输数据的行为可能涉及数据共享或委托处理,并应当满足相应的合规要求。
在个人信息出境方面,如果AIGC接入企业与OpenAI等海外服务商合作,由于其服务器与数据中心均部署在中华人民共和国境外,合作过程将不可避免的涉及数据出境。在此情况下,接入企业应按照《个人信息保护法》第三十八条的规定,根据企业的具体情况采取不同的出境合规措施。
第四,对于算法治理,当前我国AIGC算法主要涉及“算法推荐技术”与“深度合成技术”。
对于AIGC特别需要注意的是,算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等;加强信息安全管理,建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序;同时应注意不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型。
AIGC的背后,其实是深度合成技术的具体应用。根据2023年1月10日正式实施的《互联网信息服务深度合成管理规定》,企业作为提供深度合成服务的组织和/或为深度合成服务提供技术支持的组织,应当履行信息安全主体责任,加强数据和技术管理规范,依法添加标识,配合进行安全检查。
此外,利用生成式人工智能产品向公众提供服务前,应当向国家网信部门申报安全评估,并履行算法备案和变更、注销备案手续。
第五,AIGC也涉及反垄断与反不正当竞争、著作权等方面的合规。
基于AIGC领域数据应用的确权值得关注
AIGC的出现离不开海量的数据基础。在AIGC的过程中,数据如何确权?
对于AIGC开发运营企业而言,大语言模型人工智能产品/服务的开发与运营离不开对海量数据的处理。在产品/服务投入使用的开发运营全链条过程中,作为数据处理者(同时也是个人信息处理者)的开发运营企业需对纷繁复杂的数据资源类型进行提炼与利用。同时,利用模型实现“AIGC”的接入应用主体也在数据筛选、研究分析、营销分析、作品生成、产品开发、产品扩展等不同领域实现业务运营,并在此过程中获取及产生大量数据资源。综合上述背景,AIGC产业及其参与主体需探索出对海量数据资源合规开发、有效利用的合理路径,而这离不开对相关数据要素进行权利的界定与划分。
目前AIGC的治理均以规制相关企业主体的全生命周期数据处理流程或算法伦理治理等角度展开,而缺少以数据要素确权的视角对AIGC相关企业主体及其数据资源予以规范。
在此背景下,基于AIGC领域数据应用而产生的“自下而上”的确权实践值得引起关注。
从权能配置的角度思考,AIGC大模型的研发运营企业对数据资源利用的关注重点与AIGC接入使用企业存在差异,各企业主体因角色定位不同而侧重于对不同权能的关注,如开发加工、占有处分或是收益。而目前,各企业主体往往通过协议的方式,以法律明确界定的权利约定各自对数据资源的利用与边界。
从实践的角度出发,由于数据具有非对立性(non-rivalry)以及“聚合形成价值”的特点,传统意义上具有明确排他属性的“所有权”较难适用于以AIGC企业为代表的大数据行业企业间的数据权属分配与数据要素流动。因此,企业数据确权的新兴理论探索以及实践经验总结是学界与行业共同努力的重要方向。
(作者:王俊,郑雪 编辑:王俊)
21世纪经济报道及其客户端所刊载内容的知识产权均属广东二十一世纪环球经济报社所有。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。