21世纪经济报道 记者 郑雪 北京报道
生成式人工智能快速发展,涌现能力加持之下,人工智能展现出超高的理解力,可以回答提问人的所有提问,甚至未来还将作为技术基础设施而存在。人工智能的“善解人意”离不开海量数据的助力。在人工智能大模型寻求与行业结合的过程中,高质量的行业数据存在缺乏和分散,对人工智能的落地及进一步发展提出挑战;与此同时重要的是,作为和人互动的“伙伴”,也就是人工智能,如何通过安全可信给人以安全感?
近日,“2023全球数字经济大会人工智能高峰论坛”在京举办。人工智能和产业相结合的过程中,离不开高质量行业数据的支持。针对数据带来的知识产权纠纷,有专家表示,需要尊重大模型训练所使用数据内容层和载体层的权益。与此同时,未来的人工智能,将会是安全可信的人工智能。
行业数据成垂直场景落地关键一步
技术最终需要落地到产业和场景以产生真正价值。大模型蓬勃发展的今天,未来向何处?又会如何创造价值?
旷视联合创始人兼CTO唐文斌表示,关于AI研究,五年前就有提出两个关键词:大和统一。今天“大”说得比较多,模型变得更大就会有更多能力涌现;关于统一,未来或许形成统一的算法,一个大模型可以贯穿感知、决策、执行整个过程。“AI公司并没有创造新的需求,只是当下有了更好的技术、工具,能够给出更低成本、更高效率、更强体验的解决方案。”
在大模型和场景、产业结合的过程中,首先需要回答的是如何获取有价值的数据,或者说大模型如何获取更专业的知识。
360集团创始人周鸿祎指出,大模型是通才,但缺乏行业深度。企业内部真正有价值的知识,公开渠道无法获得。大模型没有办法满足行业和企业的场景垂直性、专业性的要求。在他看来,每个企业内部的Know How作为核心资产,很难用于训练公域大模型。
而在AI大模型商业化落地方面,数据的获取方式或许还会影响大模型落地策略。
昆仑万维科技股份有限公司CEO方汉介绍,不同于国外发展战略主要瞄准To C市场,国内AI大模型的发展前景将会是To B和To C战略并重,B端降本,C端增效。在他看来,预训练大模型对于行业数据质量要求极高。针对B端客户落地,如何深入各个行业整理与生成序列化的生产数据,并训练行业专属模型,再同现有生产流程相结合,提升效率、降低成本,是落地的关键。
在他看来,B端必然碎片化。考虑行业数据被分割在B端的不同碎片,某一家企业很难拿到全行业的数据,B端必然会出现一个大模型企业能够在一两个行业中取得先发成功,但无法在所有行业取得成功。To C方面,考虑用户免费习惯,将以免费模式为主,VIP模式为辅;同时C端需要抢占大模型的服务入口,如办公软件、即时通讯、浏览器等。
尊重数据载体层和内容层相关权益
对于大模型发展起重要作用的数据,不仅要解决高质量数据、行业数据缺乏的问题,还需对数据采集过程中可能引发的知产纠纷、隐私保护、数据泄露等做出回应。
值得关注的是,不久之前,一批匿名人士对OpenAI、及其投资方之一的微软公司发起集体诉讼。这份将近160页的起诉书声称, OpenAI从互联网上窃取了3000亿个单词,它们来自“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。 起诉书指出,这一数据窃取行为的受害人预计有数百万,潜在损失达 30 亿美元。原告要求法院暂时冻结 OpenAI 产品的商业访问和进一步开发。
对于大模型发展而言,因训练数据知情同意引发的知产纠纷、数据隐私等已经成为大模型发展过程中必须回应的重要问题之一。
回到最初的原点,如何理解数据?中国政法大学互联网金融法律研究院院长、中国政法大学教授李爱君援引《数据安全法》第三条之解释,数据是指任何以电子或者其他方式对信息的记录,其中需要注意数据客体问题。数据区别于传统物权、区别于知识产权的客体而存在。
李爱君进一步分析指出,数据拥有内容层和载体层,在数据使用过程中,要尊重数据客体内容层和载体层的相关权益。
载体层权益主要包括三个部分,实现数据使用价值的权利,对应数据控制权和数据处理权;实现数据交换价值的权利,对应数据处分权;以及取得财产性利益的权利,对应数据收益权。内容层权益,包括包括个人信息、知识产权、商业秘密、国家安全信息等。
李爱君提示,搜集和使用数据的时候一定要遵守相关法律、法规。但同时她也表示,训练数据使用的法理关系其实事关数据处理,主体包括数据处理主体和数据被处理的主体。当前,在人工智能发展链条中,数据处理主体和数据被处理的主体呈现多元化,责任链条难以界定,如何解决上述问题?相关主体的权利和义务如何划分?值得未来进一步探讨。
以安全可信为AI行业应用系好安全带
人工智能的进一步发展,不仅要回应数据问题,更要关注各类安全隐患,如技术方面的数据风险、模型训练风险,应用层面的隐私安全风险、伦理安全风险等都是需要回应的问题。
清华大学计算机系长聘教授、人工智能研究院副院长朱军表示,AIGC形成了新安全挑战。技术风险方面,大模型本身存在Prompt Injection攻击风险,给出ChatGPT能够接受的假设,引导违反自身的编程限制可以生成不合适或有害的内容,或者泄露模型内部的信息。此外还面临模型窃取、数据偷渡等模型攻击风险。
此外,考虑ChatGPT的问答文档无法删除特定用户数据,也可能导致用户聊天历史泄漏。利用AIGC也可能诱发犯罪,如升级诈骗手段和网络攻击手段;甚至还可被用于伪造虚假信息和有害内容。
“潘多拉魔盒”打开后,如何回应安全可信风险挑战?
清华大学计算机系长聘教授、清华大学人工智能研究院副院长朱军表示,一是关注从基础理论研究突破、提高内在安全性能的第三代人工智能。从人工智能基础尝试,探索将数据和知识有机融合在一起的第三代人工智能新范式,发展更加安全可靠的人工智能框架。二是提升安全评测能力。主要关注对抗攻击评测、角色扮演与诱导欺骗评测、混淆指令欺骗评测、标识性能评测、数据安全评测、伦理安全评测方面。三是构建人工智能安全治理有效工具。如人工智能本身的安全平台、深度伪造检测平台以及人工智能安全靶场等。
如何判断大模型是否真的安全可信?
中国信息通信研究院云计算与大数据研究所副所长魏凯介绍了大模型标准体系建设及进展情况。在他看来,从大模型各研发环节的合规、可信、稳定、可靠程度建立指标,保障大模型可信可控。指标分为5个能力域和近30个能力项。通过基础软硬件自主可控、数据可追溯性、核心代码自主率、流程合规性、系统可靠性等指标,为大模型行业应用装上安全带和刹车。据介绍,未来还将构建行业大模型标准体系,评估大模型在不同行业的应用能力。
“当前业界对安全可信的基本维度已经达成共识,包括数据安全、隐私保护、公平性、非歧视等等基本原则。其中难题在于如何将安全可信如何落实到大模型的软件、产品、服务和管理流程制度之中。”魏凯进一步说道。
(作者:郑雪 编辑:王俊)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。