能否拥有或持续获取算力将成为未来决定大模型竞争格局的关键。
21世纪经济报道记者张梓桐 上海报道
作为支撑AI数据和模型的底层能量,算力正在成为数字经济时代新型生产力的主要形式,有望迎来重大发展机遇。
7月7日,在2023WAIC“计算+:让人工智能更通用赋能”论坛上,毕马威中国数字化赋能主管合伙人张庆杰接受了21世纪经济报道记者的专访,在他看来,国内各大科技公司近日纷纷推出了自家的大模型产品,AI大模型的竞赛正在打响。未来行业应该从“大规模、低成本与低能耗”三个方向来进一步夯实算力基础。
“据公开资料,目前在追赶GPT3.5的中国团队约有10个,在这一背景下,能否拥有或持续获取算力将成为未来决定竞争格局的关键。”张庆杰说道。
《21世纪》:您如何看待中国大模型的竞争现状和发展前景?
张庆杰:大模型的核心技术壁垒是数据、算法、算力等要素资源的精巧组合,单纯从时间维度来评价发展差距可能过于片面。能够拥有或持续获取算力将是决定未来竞争格局的关键。
AI大模型的真正价值最终将体现在具体场景,可以依靠“大模型+小模型”的方式来推进,即大小模型协同进化,在利用大参数训练完大模型之后,通过高精度压缩,将大模型转化为端侧可用的小模型,大模型相当于超级大脑,小模型相当于垂直领域专家,进而实现场景化应用。
《21世纪》:您认为算力如何更好地支持大模型发展,还面临哪方面挑战?
张庆杰:中国是世界人工智能重要领军国家之一,但做大模型还面临多方面的挑战,需要在政策、技术、资源、人才培养等方面进行综合的改革和发展。
首先在计算资源方面,大模型的训练需要大量的计算资源,包括CPU、GPU、TPU等。虽然中国算力具备一定的基础,但在计算资源方面还存在一定的短板,各行各业在底层计算资源上存在缺乏,这会限制大模型的训练和优化。
除此之外,大模型的训练需要大量的高质量数据,但是目前在数据质量方面还存在一定的问题,包括数据噪声、数据缺失、数据不平衡等问题。这会影响大模型的训练效果和准确性。
而在投入成本方面,大模型的训练需要大量的资金支持,包括硬件设备、人才引进、技术研发等方面的投入。最后,行业应该在专业人才、技术生态以及计算架构方面进行发力,来进一步夯实算力基础。
《21世纪》:我国高度重视人工智能产业发展,智能算力发展的基础在不断夯实。请问智能算力如何推动人工智能的发展?
张庆杰:对通用人工智能(AGI)的来说,数据、算力、算法三大核心要素中,算力向下扎根于数据,向上支撑着算法,将是驱动AGI发展的核心动力。算力发展需要满足大规模、低成本与低能耗三个方面。
首先在算力规模方面,在大数据、大模型、大算力的相互作用下,全球人均算力有望实现G-T-P三连跳,即从GFLOPS级别跃升到TFLOPS再到PFLOPS,乃至更高级别。正如工业经济模式下,人均用电量和人民生活质量成正比,在数字经济时代,人均算力也将会是衡量人民智能化生活水平的重要指标,算力需同电力一样成为规模化发展的公共资源。
但与此同时,大模型训练依然面临着高昂的成本。放眼全球,除了几大科技巨头外,几乎没有企业承担得起大模型训练的高昂成本,算力不实现普惠化,任何关于AI和科技革命的畅想都将是空中楼阁。
目前偏大规模的算力需求以B端和G端为主,算力降本需求十分迫切,要利用有限资金获取更多元的算力,同时优化算力资源配置和利用效率。
最后,低能耗也是行业需要探索的方向。数据中心是各国算力发展的重中之重,但也存在着严重的碳排放问题,随着“碳中和”目标成为全球共识,大部分国家都提出了较为严格的数据中心节能减排要求。
《21世纪》:ChatGPT的出现具有颠覆性意义,中国可以从哪些方面发力去鼓励ChatGPT这一类的技术颠覆式创新?
张庆杰:ChatGPT的颠覆性意义在于打破了以往人工智能技术发展的惯性思维,即从弱人工智能转向强人工智能(也称通用人工智能),智能不再局限于某些专用领域,如人脸识别、机器翻译等,而是在尽可能多的领域中,帮助甚至代替人类执行体力和智力任务。
对于鼓励ChatGPT一类的技术颠覆式创新来说,中国可以从基础研究、应用创新发力等方面发力。
首先,基础研究是整个科学体系的源头,也是所有技术问题的总机关,在实现高水平科技自立自强、建设科技强国的时代背景下,基础研究的重要性愈发凸显。
中国近年来一直在持续加强基础研究投入,科技部数据显示,基础研究经费已从2012年的499亿元增长到2022年的1951亿元,年均增长近15%,接近全社会研发投入增长速度的2倍。在通用人工智能这一崭新发展机遇面前,围绕产出重大原创成果,坚持目标导向、市场导向和自由探索将有利于中国在人工智能领域取得重大突破。
与此同时,通用人工智能也应当与经济社会深度融合,在重大应用场景中锤炼技术。围绕场景创新加快资本、人才、技术、数据、算力等要素汇聚,促进人工智能创新链、产业链深度融合,将会是推动通用人工智能落到实处的重要方式。
夯实底层算力。当前中国各大科技公司正不断加码算力进行大模型训练,普遍要承担巨大的成本投入。
以构建GPT-3为例,OpenAI数据显示,满足GPT-3算力需求至少要上万颗英伟达GPU A100,一次模型训练总算力消耗约3,640PF-days(即每秒一千万亿次计算,运行3640天),成本超过1200万美元,这还不包括模型推理成本和模型后续升级所需的训练成本。
因此,推动算力更加普适和智慧,才能切实助力科技企业等创新主体实现技术攻关。
《21世纪》:ChatGPT在聊天机器人、文本生成和语音识别等领域取得了巨大进展,未来大模型在实体行业的应用前景如何?
张庆杰:ChatGPT在一定程度上验证了沿着“大数据、大模型、大算力”路径发展通用人工智能的可行性。目前,各类科技创新企业都在积极探索这种可能性,相关方向包括教育、移动、搜索引擎、内容制作、医药等。
判断这些应用价值关键在于落地成效如何,需要技术提供商和应用侧企业共同厘清落地成效的具体维度和评估方式。
大模型在实体行业应用中面临的挑战和算力的落地挑战存在共性。总体来说,算力在各行业的落地挑战主要包括算力总量亟需补充、边缘算力较为紧缺、单位能耗算力性能有待提升、中心式计算架构需转型等。
预计随着各行业全要素、全流程、全场景迈向数字化和智能化,实现“业务、数据、算力”之间的高效联动,将是保证各类大模型或小模型按需匹配、精准赋能的重要前提。
(作者:张梓桐 编辑:陶力)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。