AI契约论④:AIGC产业链发展车驰船快,风险暗礁“涌现”

合规科技郭美婷,蔡姝越 2023-05-31 19:16

21世纪经济报道 记者郭美婷 蔡姝越 实习生胡暄悦 麦子浩 广州、上海报道

编者按:

在2023年过去的几个月里,各大公司抢滩大模型、GPT商用化探索、算力基础设施看涨……如同15世纪开启的大航海时代,人类交往、贸易、财富有了爆炸性增长,空间革命席卷全球。变革同时,也带来了秩序的挑战,数据泄露、个人隐私风险、著作权侵权、虚假信息......此外,AI带来的后人类主义危机已然摆在桌面,人们该以何种姿态迎接人机混杂带来的迷思?

此刻,寻求AI治理的共识、重塑新秩序成了各国共同面对的课题。南财合规科技研究院将推出AI契约论系列报道,从中外监管模式、主体责任分配、语料库数据合规、AI伦理、产业发展等维度,进行剖析,以期为AI治理方案提供一些思路,保障负责任的创新。

在AIGC高速成长的浪潮下,其关联产业链上的各环节均在酝酿着一场技术“质变”。

“卖铲人”英伟达近期成了这波技术浪潮下的最大赢家之一。由于其主营产品GPU(图形处理器)在生成式AI应用中提供不可或缺的底层硬件动力,英伟达在近日交出的一季报中预测,其在2024财年Q2的销售额或将达到110亿美元。年初至今,这家美国公司股价涨幅已猛增166%,市值逼近万亿。

这一切的引爆点皆是生成式AI技术。”英伟达CEO黄仁勋在接受媒体采访时表示。他同时指出,目前,CPU(中央处理器)的发展速度已经放缓,加速计算(Accelerated Computing)成为了未来探索的大方向。

紧接着,杀手级应用出现了。”黄仁勋说。

回过头来看,今年以来,各路AI大模型纷纷涌现,搭载大模型的ChatGPT、Bard、New Bing、文心一言、通义千问等生成式AI应用亦层出不穷。

虽然这些应用是否已成为“Killer App”还有待商榷,但不可否认的是,ChatGPT在推出仅两月后便交出了日活突破1亿的成绩单,足以证明AIGC应用的商业价值和发展前景已被市场认可。

不过,尽管生成式AI技术以革新产业的面貌席卷了科技界,催化了生产流程升级转型,行业也在密切关注,在这项技术“野蛮生长”的背后,它的产业链具体是由哪些环节构成?在各层级产业链深入探索这项技术的过程中,可能会遇上哪些“暗礁”?

产业链图谱:数据-算力-模型-应用

严格来说,业内热议的AI大模型实际上分为两类:决策式AI和生成式AI。

决策式AI主要应用于推荐系统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体,生成式AI则通过学习归纳已有数据后生成全新的内容,也能解决判别问题。而掀起这轮AI技术浪潮的正是后者。

“AIGC”又称“生成式AI”(Generative AI)AIGC(AI-Generated Content)即人工智能自动生成内容,被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式。其萌芽可以追溯到上世纪50年代。

彼时,人们开始探索如何利用人工智能技术来生成各种类型的内容,但受制于所在时代的科技水平,AIGC的应用始终停留在实验室中。

2006年,深度学习算法取得巨大突破。接下来人工智能技术的持续进步,AIGC逐渐被应用于电影、游戏、音乐等多个领域,并在2021年底ChatGPT的崭露头角而进入大规模爆发时代。

发展至今, AIGC产业链已经逐渐成形。业内普遍将其分为四层架构:数据层、算力层、算法/模型层、商业化应用层。

(AIGC产业链图谱。制图/南财合规科技研究院、21世纪经济报道记者)

数据层包括数据提供、数据分析以及标注等环节。AIGC的诞生需要海量的数据资源,公开资料显示,ChatGPT基于8000亿个单词的语料库(或45TB的文本数据),包含了1750亿个参数。8000亿是ChatGPT的训练数据,1750亿是它从这些训练数据中所学习、沉淀下来的内容。

算力层指AI训练的基础设施,包括数据中心、服务器,以及高性能的AI芯片。据华泰证券测算,训练一次ChatGPT模型(13亿参数)需要的算力约27.5PFlop/s-day,即以1万亿次每秒的速度进行计算,需要耗时27.5天;而ChatGPT单月运营需要算力约4874.4PFlop/s-day。

算法/模型层主要包括自然语言处理(NLP)、计算机视觉(CV)、音视频、多模态等各种大模型和算法。当前,国内正在上演“百模大战”,百度、阿里巴巴、腾讯等大厂纷纷在大模型领域持续发力。

商业化应用层则涵盖文本、音频、图片、影片的生成等,目前更多地与互联网行业结合,未来或将进一步赋能传统行业的数字化转型。

人工智能公司亮风台高级产品总监魏超群告诉21世纪经济报道记者,若将AIGC整体产业链架构比作一家工厂,那么生产的原材料就是大数据,算力充当着日夜运转的机器,算法或模型是忙忙碌碌的工人,最终生产出来的产品是AIGC在各场景下的应用。

“这几个层次相互制约、相互促进。”魏超群提到,从发展历程来看,最初制约AI发展的是算力上的不足,在算力获得突破后,模型才得以继续训练。后来,算法又成为了瓶颈,而数据是破题良方。随着喂养数据量的提高,算法的性能也随之提升。

因此,AIGC的火热出圈,也为其背后的产业链打开了一片市场。据东吴证券预计,AIGC在内容生成中的渗透率将快速提升,应用规模快速扩增,预计2030年AIGC市场规模将超过万亿元人民币。

新的机遇已然出现。“虽然目前产业链的部分赛道已经形成了赢者通吃的局面,如CPU和GPU的行业龙头已经出现。在大模型层面,各家的优劣还无法做出比较,估计未来也很难形成赢者通吃的局面,因为谷歌发展多年的AI,结果最后被微软超过了。所以目前市场的局面还不太明朗。”魏超群表示。

除了目前仍处于风口浪尖的AI大模型的开发外,亮风台预判,算力基础设施企业跟随着AI行业发展,能够保持一定增长,但不会为非常热门的投资方向,其盈利能力也较为有限。但AI大模型的提升亟需更加精准的数据,从事数据清洗、转换、分类等的企业也可能成为下一个风口。

发展危机:大模型和数据风险

AIGC产业欣欣向荣的背后,存在潜藏的风险。

单从技术上看, 天使投资人、知名互联网专家郭涛认为,我国硬件基础设施发展迅速,政策支持和资金扶持力度都较大,但技术发展相对欧美仍有一定落后。当然,在某些垂直领域,如人脸识别等大规模应用场景和生态支撑相关的技术,我国又是超前的。同时,我国的应用落地速度也更快,AIGC的技术在客服、数字人、制造、设计等领域已经有一定规模的应用。

另外,AI大模型和大数据处理分别作为当下和未来下一个行业风口,同时也是最容易带来安全和伦理风险的环节。

多位受访专家提到了数据层的数据安全和隐私保护问题。而训练数据的不合规,也往往将进一步引发后续模型及其所生成内容的伦理风险。

北京大成律师事务所高级合伙人肖飒认为,当前数据层根据AI在训练、测试、生成等阶段受到监管规定的不同,而存在不同的风险和义务。数据收集时,存在侵犯个人信息或他人数据权益的风险;在数据处理阶段,存在使用、泄漏商业秘密之风险;在数据跨境阶段,存在数据跨境流通违法的风险。

北京理工大学法学院助理教授裴轶则向21记者指出,与互联网平台中的“推荐算法”不同,生成式算法可以从头开始生成全新的数据,而不仅仅是基于已有数据的推荐或预测,通常需要大量的训练数据来学习数据的分布。

这种特性给AIGC产业链上的企业及消费者均带来了不确定性。对于利用AI大模型生成内容的消费者而言,由于AIGC生成的内容可能缺乏人工审核和验证,存在信息准确性和可信度的问题,可能对消费者造成误导和损害;同时,在AIGC应用中,消费者的个人信息可能被用于生成个性化内容。这可能涉及到个人隐私和数据安全的风险,例如未经授权的数据收集、滥用个人信息等;此外,AIGC算法的训练数据和算法本身可能存在偏见,导致生成的内容偏向特定人群或产生歧视性结果。这可能对用户的体验、公平性和社会平等性产生负面影响。

面向企业,裴轶表示,企业在使用AIGC技术时,需要确保遵守适用的法律法规,尤其是涉及用户数据和隐私保护的规定;此外,企业应对使用AIGC技术所产生的内容质量和准确性承担责任,如果生成的内容存在错误、冒犯性言论或不当信息,可能损害企业的形象和声誉;版权和知识产权同样值得关注,使用AIGC技术生成的内容可能涉及他人的版权和知识产权;最后,还要关注AIGC技术应用过程中可能存在的人工智能失控的风险,如果算法出现错误、意外的结果或者被滥用,可能导致不可预见的后果和潜在的法律责任。

(AIGC各产业链环节中可能存在的风险。制图/南财合规科技研究院、21世纪经济报道记者)

统筹:王俊

记者:郭美婷 蔡姝越 胡暄悦 麦子浩

制图:蔡姝越

(作者:郭美婷,蔡姝越 编辑:王俊)

郭美婷

记者

数字经济观察者,聚焦数据产业、数据基础制度、个人信息保护等。欢迎探讨交流!微信:gmt_lalala2017

蔡姝越

21记者

常驻上海。关注国内外游戏行业一切动向,长期追踪版号、出海、元宇宙、电竞、未保等话题。微信:setmeablaze