AI契约论④：AIGC产业链发展车驰船快，风险暗礁“涌现”

郭美婷,蔡姝越 2023-05-31 19:16

关联内容

展开更多

21世纪经济报道记者郭美婷蔡姝越实习生胡暄悦麦子浩广州、上海报道

编者按：

在2023年过去的几个月里，各大公司抢滩大模型、GPT商用化探索、算力基础设施看涨……如同15世纪开启的大航海时代，人类交往、贸易、财富有了爆炸性增长，空间革命席卷全球。变革同时，也带来了秩序的挑战，数据泄露、个人隐私风险、著作权侵权、虚假信息......此外，AI带来的后人类主义危机已然摆在桌面，人们该以何种姿态迎接人机混杂带来的迷思？

此刻，寻求AI治理的共识、重塑新秩序成了各国共同面对的课题。南财合规科技研究院将推出AI契约论系列报道，从中外监管模式、主体责任分配、语料库数据合规、AI伦理、产业发展等维度，进行剖析，以期为AI治理方案提供一些思路，保障负责任的创新。

在AIGC高速成长的浪潮下，其关联产业链上的各环节均在酝酿着一场技术“质变”。

“卖铲人”英伟达近期成了这波技术浪潮下的最大赢家之一。由于其主营产品GPU（图形处理器）在生成式AI应用中提供不可或缺的底层硬件动力，英伟达在近日交出的一季报中预测，其在2024财年Q2的销售额或将达到110亿美元。年初至今，这家美国公司股价涨幅已猛增166%，市值逼近万亿。

“这一切的引爆点皆是生成式AI技术。”英伟达CEO黄仁勋在接受媒体采访时表示。他同时指出，目前，CPU（中央处理器）的发展速度已经放缓，加速计算（Accelerated Computing）成为了未来探索的大方向。

“紧接着，杀手级应用出现了。”黄仁勋说。

回过头来看，今年以来，各路AI大模型纷纷涌现，搭载大模型的ChatGPT、Bard、New Bing、文心一言、通义千问等生成式AI应用亦层出不穷。

虽然这些应用是否已成为“Killer App”还有待商榷，但不可否认的是，ChatGPT在推出仅两月后便交出了日活突破1亿的成绩单，足以证明AIGC应用的商业价值和发展前景已被市场认可。

不过，尽管生成式AI技术以革新产业的面貌席卷了科技界，催化了生产流程升级转型，行业也在密切关注，在这项技术“野蛮生长”的背后，它的产业链具体是由哪些环节构成？在各层级产业链深入探索这项技术的过程中，可能会遇上哪些“暗礁”？

产业链图谱：数据-算力-模型-应用

严格来说，业内热议的AI大模型实际上分为两类：决策式AI和生成式AI。

决策式AI主要应用于推荐系统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体，生成式AI则通过学习归纳已有数据后生成全新的内容，也能解决判别问题。而掀起这轮AI技术浪潮的正是后者。

“AIGC”又称“生成式AI”（Generative AI）AIGC(AI-Generated Content)即人工智能自动生成内容，被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式。其萌芽可以追溯到上世纪50年代。

彼时，人们开始探索如何利用人工智能技术来生成各种类型的内容，但受制于所在时代的科技水平，AIGC的应用始终停留在实验室中。

2006年，深度学习算法取得巨大突破。接下来人工智能技术的持续进步，AIGC逐渐被应用于电影、游戏、音乐等多个领域，并在2021年底ChatGPT的崭露头角而进入大规模爆发时代。

发展至今， AIGC产业链已经逐渐成形。业内普遍将其分为四层架构：数据层、算力层、算法/模型层、商业化应用层。

（AIGC产业链图谱。制图/南财合规科技研究院、21世纪经济报道记者）

数据层包括数据提供、数据分析以及标注等环节。AIGC的诞生需要海量的数据资源，公开资料显示，ChatGPT基于8000亿个单词的语料库（或45TB的文本数据），包含了1750亿个参数。8000亿是ChatGPT的训练数据，1750亿是它从这些训练数据中所学习、沉淀下来的内容。

算力层指AI训练的基础设施，包括数据中心、服务器，以及高性能的AI芯片。据华泰证券测算，训练一次ChatGPT模型（13亿参数）需要的算力约27.5PFlop/s-day，即以1万亿次每秒的速度进行计算，需要耗时27.5天；而ChatGPT单月运营需要算力约4874.4PFlop/s-day。

算法/模型层主要包括自然语言处理（NLP）、计算机视觉（CV）、音视频、多模态等各种大模型和算法。当前，国内正在上演“百模大战”，百度、阿里巴巴、腾讯等大厂纷纷在大模型领域持续发力。

商业化应用层则涵盖文本、音频、图片、影片的生成等，目前更多地与互联网行业结合，未来或将进一步赋能传统行业的数字化转型。

人工智能公司亮风台高级产品总监魏超群告诉21世纪经济报道记者，若将AIGC整体产业链架构比作一家工厂，那么生产的原材料就是大数据，算力充当着日夜运转的机器，算法或模型是忙忙碌碌的工人，最终生产出来的产品是AIGC在各场景下的应用。

“这几个层次相互制约、相互促进。”魏超群提到，从发展历程来看，最初制约AI发展的是算力上的不足，在算力获得突破后，模型才得以继续训练。后来，算法又成为了瓶颈，而数据是破题良方。随着喂养数据量的提高，算法的性能也随之提升。

因此，AIGC的火热出圈，也为其背后的产业链打开了一片市场。据东吴证券预计，AIGC在内容生成中的渗透率将快速提升，应用规模快速扩增，预计2030年AIGC市场规模将超过万亿元人民币。

新的机遇已然出现。“虽然目前产业链的部分赛道已经形成了赢者通吃的局面，如CPU和GPU的行业龙头已经出现。在大模型层面，各家的优劣还无法做出比较，估计未来也很难形成赢者通吃的局面，因为谷歌发展多年的AI，结果最后被微软超过了。所以目前市场的局面还不太明朗。”魏超群表示。

除了目前仍处于风口浪尖的AI大模型的开发外，亮风台预判，算力基础设施企业跟随着AI行业发展，能够保持一定增长，但不会为非常热门的投资方向，其盈利能力也较为有限。但AI大模型的提升亟需更加精准的数据，从事数据清洗、转换、分类等的企业也可能成为下一个风口。

发展危机：大模型和数据风险

AIGC产业欣欣向荣的背后，存在潜藏的风险。

单从技术上看，天使投资人、知名互联网专家郭涛认为，我国硬件基础设施发展迅速，政策支持和资金扶持力度都较大，但技术发展相对欧美仍有一定落后。当然，在某些垂直领域，如人脸识别等大规模应用场景和生态支撑相关的技术，我国又是超前的。同时，我国的应用落地速度也更快，AIGC的技术在客服、数字人、制造、设计等领域已经有一定规模的应用。

另外，AI大模型和大数据处理分别作为当下和未来下一个行业风口，同时也是最容易带来安全和伦理风险的环节。

多位受访专家提到了数据层的数据安全和隐私保护问题。而训练数据的不合规，也往往将进一步引发后续模型及其所生成内容的伦理风险。

北京大成律师事务所高级合伙人肖飒认为，当前数据层根据AI在训练、测试、生成等阶段受到监管规定的不同，而存在不同的风险和义务。数据收集时，存在侵犯个人信息或他人数据权益的风险；在数据处理阶段，存在使用、泄漏商业秘密之风险；在数据跨境阶段，存在数据跨境流通违法的风险。

北京理工大学法学院助理教授裴轶则向21记者指出，与互联网平台中的“推荐算法”不同，生成式算法可以从头开始生成全新的数据，而不仅仅是基于已有数据的推荐或预测，通常需要大量的训练数据来学习数据的分布。

这种特性给AIGC产业链上的企业及消费者均带来了不确定性。对于利用AI大模型生成内容的消费者而言，由于AIGC生成的内容可能缺乏人工审核和验证，存在信息准确性和可信度的问题，可能对消费者造成误导和损害；同时，在AIGC应用中，消费者的个人信息可能被用于生成个性化内容。这可能涉及到个人隐私和数据安全的风险，例如未经授权的数据收集、滥用个人信息等；此外，AIGC算法的训练数据和算法本身可能存在偏见，导致生成的内容偏向特定人群或产生歧视性结果。这可能对用户的体验、公平性和社会平等性产生负面影响。

面向企业，裴轶表示，企业在使用AIGC技术时，需要确保遵守适用的法律法规，尤其是涉及用户数据和隐私保护的规定；此外，企业应对使用AIGC技术所产生的内容质量和准确性承担责任，如果生成的内容存在错误、冒犯性言论或不当信息，可能损害企业的形象和声誉；版权和知识产权同样值得关注，使用AIGC技术生成的内容可能涉及他人的版权和知识产权；最后，还要关注AIGC技术应用过程中可能存在的人工智能失控的风险，如果算法出现错误、意外的结果或者被滥用，可能导致不可预见的后果和潜在的法律责任。

（AIGC各产业链环节中可能存在的风险。制图/南财合规科技研究院、21世纪经济报道记者）

统筹：王俊

记者：郭美婷蔡姝越胡暄悦麦子浩

制图：蔡姝越

（作者：郭美婷,蔡姝越编辑：王俊）

21世纪经济报道及其客户端所刊载内容的知识产权均属广东二十一世纪环球经济报社所有。未经书面授权，任何人不得以任何方式使用。详情或获取授权信息请点击此处。

加载全文

郭美婷

记者

数字经济观察者，聚焦数据产业、数据基础制度、个人信息保护等。欢迎探讨交流！微信：gmt_lalala2017

蔡姝越

21记者

常驻上海。关注国内外游戏行业一切动向，长期追踪版号、出海、元宇宙、电竞、未保等话题。微信：setmeablaze