AI立法进行时④:AI大模型引爆算力革命,云计算竞速“新赛道”开启

合规科技郑雪,李润泽子,实习生温泳珊 2023-08-11 14:06

21世纪经济报道 记者 郑雪 南方财经全媒体 记者 李润泽子 实习生温泳珊,北京、广州报道

编者按:

2022年,生成式AI发展为人工智能发展注入一针强心剂,ChatGPT的横空出世,被视为通用人工智能的起点和强人工智能的拐点,引发新一轮人工智能革命。人工智能发展似乎找到了自己的主流叙事。

不过,技术创新的同时也带来了监管难题,我们面对的不是近在咫尺的当下,而是想象触达不到的未来。对于颠覆性的人工智能技术,全球正在进行治理话语的竞赛,中国将会如何通过立法来贡献出具有中国特色的AI治理路径?如何既拥抱技术发展,又能有效规制风险?之前南财合规科技研究院推出AI契约论系列报道以及《生成式人工智能发展与监管白皮书》,在此基础上,将继续推出AI立法进行时系列,以期为中国AI治理提供有益思路。

ChatGPT迅速火爆全球后,AI进入了“暴力美学”的大模型时代。从诞生之初到如今,AI大模型训练数据量、任务数据量和模型参数经历着爆发式增长。

在这背后,一路狂飙的还有对于算力的需求。根据OpenAI的测算数据,2012年以来最大的AI训练运行所使用的算力呈指数增长,每3-4个月增长一倍。2012至2018年,AI训练运行所使用的算力已增长超30万倍(相比之下摩尔定律仅增长7倍)。另据OpenAI于2020年的数据,训练一次1746亿参数的GPT-3模型需要的算力约为3640PFlop/s-day(假如每秒计算一千万亿次,需要计算3640天)。

算力是大模型发展的燃料,新一轮人工智能浪潮之下,作为新基建的算力迎来了新的发展机遇。与此同时,在此轮发展中算力也面临着诸多问题:如何解决AI芯片问题?算力市场如何实现供需相匹配?云计算厂商又该如何回应AI带来的算力机遇与挑战?

算力短缺的背后:芯片卡了脖子

海量算力,当前人工智能大模型发展过程中不可缺少的“燃料”。模型越大,需要的算力相应增加。

以GPT-3模型为例,其训练需要3640PD的算力需求,总训练成本为1200万美元。在不考虑任何运算效率损失的情况下,需要1个算力规模达到3640P或者7-8个单体算力500P左右的智能计算中心完整运算1天,才能完成一次GPT-3模型的完整训练。

芯片作为人工智能算力的基础,吸引着来自各方关注。

以AI大战中“军火商”英伟达为例,受人工智能大模型需求推动,年初以来其股价累计涨幅超200%,截至8月9日市值超11045亿元。而就在近期(8月8日),SIGGRAPH大会上英伟达发布新一代GH200GraceHopper超级芯片,专为人工智能大模型设计,用于扩展全球的数据中心。

人工智能对于高性能算力的需求推高了芯片的市场和价格,以OpenAI使用的A100和H100芯片为例,其价格逐渐攀升,甚至有价无市。对于中国人工智能企业来说,因缺“芯”导致的算力问题更加复杂。2022年8月,美国芯片设计公司英伟达称被美国政府要求限制向中国出口两款被用于加速人工智能任务的最新两代旗舰GPU计算芯片A100和H100。“以A100为例,如今的芯片增加了地理位置识别,中国大陆无法使用。”拓尔思副总裁林松涛说道。

通常,用于大模型的芯片分为两类,训练芯片和推理芯片,分别承担着训练和推理任务,例如模型训练和数据分析。而其中,真正烧钱的是训练芯片。有业内人士告诉记者,以一块40G的A100为例,相较正常售价,今年年初非官方渠道的芯片价格已经翻了好几倍,而一台服务器配置多个芯片;而服务器的数量,也要根据大模型的量级判断进行配置。

量子位智库发布的《AIGC算力全景与趋势报告》显示,在芯片方面,大模型训练需求暴涨,GPU供不应求。报告指出,目前市场对于英伟达芯片的需求远大于供给。经测算,一万枚英伟达A100芯片是做好AI大模型的算力门槛。国内具备此量级的公司最多只有1家,而GPU芯片持有量超过一万枚的企业不超过5家。

算力变得更加稀缺和宝贵。据了解,拓尔思所在企业依靠前期购置的芯片辅以其他措施解决大模型研发过程中的算力问题。“目前来看,当前公司储备的算力满足了大模型发展需要。但是随着未来业务量扩大,算力短缺仍是需要关注的问题。”林松涛说道。

算力市场新挑战:分散、供需错配待解决

那么,中国算力现状究竟如何?

工信部数据显示,截至去年底,我国算力总规模达到180EFLOPS(每秒18000京次浮点运算),存力总规模超过1000EB,国家枢纽节点间的网络单向时延降低到20毫秒以内,算力核心产业规模达到1.8万亿元。从总量上来看,我国算力正迅猛发展。

或许是政策的持续支持所带来的影响。从“东数西算”工程到“数字中国”顶层规划,无不关注算力基础设施的建设。

需要注意的是,当前人工智能快速发展,给算力市场建设带来了一系列挑战。

北京金控集团董事长范文仲此前曾分析,高质量算力资源不足且较为分散,芯片受限逐渐逐步成为当前新的“卡脖子”问题。而基于算力需求多样化、碎片化的特点,算力资源供需错配的情况时有发生。此外,算力基础设施属于重资产和资本密集型行业,其时间成本和资金成本远远超出了中小微企业的承受范围。

工信部信息通信科技委常委周建明则认为,与其说当前市场表现出算力短缺问题,不如说当前存在算力供需不匹配的问题。“一般情况下,算力可分为通用算力和专用算力两类。通用算力目前来看基本可以满足需求,并不存在算力短缺问题;专用算力方面,在大模型市场算力供给方面还有较大的市场空间。”  

事实上,在人工智能快速发展的这两年,我国各地已经表现出了对于算力问题的关切。北京、上海、深圳等地均出台相关措施,采取加快算力基础设施建设、统一调度平台建设等手段,以解决人工智能大模型“燃料”问题。

北京表示要加强与头部公有云厂商等市场主体合作,实施“算力伙伴计划”,加快推动北京人工智能公共算力平台等项目的建设,建设统一的多云算力调度平台等。上海鼓励民间资本投资新型基础设施,并出台推进算力统一调度的指导意见。深圳则提出强化智能算力群供给,有序聚集来自政府、企业、科研机构、高校等智能算力资源。

打造统一的算力交易和调度平台成为解决当前算力资源不均的一个重要思路,但手段和定价等问题尚未明确。

周建明表示,对于算力统一调度的问题,可在政府的有效协调下,逐步实施谁有技术能力实现,就可通过市场选择的方式由谁来统一调度统一运营更多的算力资源,以满足市场的需求。当然在技术标准的制定过程中,在整体架构设计时,就应考虑将算网两大系统通过相关标准结合起来,以降低系统的整体时延,这样也有利于多厂商系统的算网融合;同时,应将谁的算力资源可由谁来统一调度统一运营的能力写入相关技术标准中,这样也有利于加快加强我国算力技术创新及加快实施算网融合的进程,更好地支撑我国数字经济的发展。

云企业迎战新机:大模型的云端“混战”

云计算是AI大模型算力之战的主战场之一。

“ChatGPT在全球市场的成功,引发全球主要科技企业在AI领域的军备竞赛,而云平台作为计算层面最为理想的承载者,有望持续受益全球AI产业的发展。”中信证券在研报中表示。

招商证券则指出,作为一种信息时代的革新,云计算使得每一个信息时代的人都可以使用网络上的庞大计算资源与数据中心,获取无限的资源,且不受时间和空间的限制。在这种情况下,云计算产业的巨大算力支撑对于AI行业的发展至关重要。 

与此同时,由AI大模型引爆的算力需求也为云厂商们带来了变化。

在林松涛看来,云计算为AI发展提供底层支撑的同时,自身也产生了变化。AI系统软件主要在于逻辑推理和训练能力,当前大模型的发展推动了AI工业化的进程,云计算行业的工业化随之快速发展。

在市场中,新的服务模式也随着AI大模型的发展而产生。MaaS(Model as a Service),即模型即服务,正在被业界追捧,阿里、百度、腾讯等先后宣布加入此赛道。 

今年6月,腾讯云宣布推出MaaS(Model-as-a-Service)大模型服务,依靠腾讯云TI平台建造行业大模型精选商店,基于腾讯HCC高性能计算集群和大模型能力,为客户提供一站式大模型服务。

在今年4月的2023年阿里云峰会上,阿里集团董事会主席兼CEO张勇表示,阿里云已形成模型即服务(MaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)三层架构,其中模型即服务包括基础大模型/通义大模型、企业专属大模型、魔搭社区、API服务等。

而阿里云CTO周靖人也认为,MaaS概念正在被广泛接受,模型会作为业务和开发系统开发的重要生产元素。

今年3月,百度创始人、董事长兼首席执行官李彦宏也表示,大模型时代将产生三大产业机会,其中之一即为新型云计算公司,其主流商业模式从IaaS变为MaaS(模型即服务)。

此外,值得注意的是,尽管云计算可以很好地承担巨大运算和存储需求,但其发展同样面临着诸多风险挑战,其中数据安全是各界关注的重点。

云储存和传输的数据都容易受到未经授权的访问、篡改、盗窃和病毒感染的威胁。同时,用户的隐私信息可能因为云服务提供商的错误配置、数据泄露等暴露给第三方。

林松涛在接受记者采访时表示,未来云计算服务可能更多以私有云部署的方式,私有云部署可以按照用户需求量身定制,数据完全掌握在用户手中,也更加安全。他还提到,目前落地的AI大模型是可以不依赖于云的,大模型训练完后能实现私有部署,不会产生数据交互。

统筹:王俊

记者:郑雪,李润泽子,实习生温泳珊

(作者:郑雪,李润泽子,实习生温泳珊 编辑:王俊)