“百模大战”进阶 大湾区如何打赢AI追逐赛的下半场
2023年初,ChatGPT掀起大模型热潮,国内互联网厂商也纷纷下场“手捏模型”,“百模大战”风起云涌。
但到了2024下半年,狂热开始慢慢褪去,科技界、学界到投资界进入冷静阶段——反思生成式AI如何落地、商业化,大模型的能力边界和迭代方向。
“从国内的整体发展看,到今年7月底,中央网信办批准的大模型大概有200个,其中只有三分之一是通用大模型,三分之二是行业大模型。我预测未来通用大模型的数量和占比会越来越小,行业大模型会越来越多。”香港科技大学校董会主席、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在2024大湾区科学论坛上说道。
简言之,通用大模型会逐渐往行业方向收敛,这意味着人工智能和产业的结合会越来越紧密,对实体经济的赋能也会愈加显著。在民营经济活跃的粤港澳大湾区,可以如何挖掘人工智能的新一轮机遇?
11月16—18日,2024大湾区科学论坛在广州南沙举行,包括诺贝尔奖得主、国家最高科学技术奖获得者、菲尔兹奖获得者在内的百余位顶尖科学家齐聚于此,对人工智能等前沿科技话题展开热烈讨论。
资料图片
从通用到行业模型
业界普遍把大模型训练形容为“炼丹”——在Transformer架构基础上,堆百亿、千亿级别的参数,达到一定阈值后,模型的语言理解、推理、生成能力出现一个明显跃升,也就是常说的“涌现”。
但这个过程需要耗费大量算力,烧钱自然不在话下。据国盛证券估计,GPT-3训练一次的成本约为140万美元。OpenAI的财务数据显示,到2029年都恐难实现盈利,到2026年亏损可能达140亿美元,当中大部分的花费要投入到模型训练中。
不止OpenAI,烧钱基本是大模型公司的常态,因而如何实现盈利、完成商业转化,成为横亘在这些公司面前的现实问题。而对业界来说,也要回答大模型除了用于对话、还能拿来干嘛的问题。
“中国训练大模型的速度很快,最后国内会剩下几家企业具备万卡算力,来做真正底层的基座大模型。一旦有这样的通用大模型后,实际上更有意思的是行业大模型。”沈向洋指出,未来在医疗、金融等垂直赛道,有千张显卡就可以做行业大模型。每个企业肯定也要做自己的大模型,在行业大模型、通用大模型基础上加上自己的数据,几百张卡就可以做一个企业大模型,对内提高效率,对外可以提高产品的可用性。
Gartner的问卷调查发现,70%的公司正在投资于生成性AI研究,并将其纳入其业务战略。
今年以来,谷歌、微软和Meta都在开发自己的专有定制模型,为客户提供个性化的服务。通过特定领域的预训练、模型对齐、监督微调,来应用于特定行业。
加拿大工程院院士、欧洲科学院院士、香港科技大学计算机科学与工程系讲座教授郭嵩向21世纪经济报道记者表示,学术界在做0-1的科学发现,不一定能直接产出经济效益。这些年,自己团队通过联合实验室的方法和大型企业建立了密切联系,也和医学院、大型医院建立了合作,对医疗医学建立了更深刻的理解。在这个基础上,才能做出精准的垂类大模型,不久前团队刚发布了四个医疗的大模型,引起了不小反响。这是一种长期的方法,就是把AI的技术、科学计算的公式融入行业,和特定领域的知识融会贯通,这样或许能够产生真正有效的大模型。
大模型正在“向下扎根”,这无疑是产业生态活跃的大湾区优势所在。
中国科学院院士、深圳大学校长毛军发认为,珠三角最重要的优势就是民营经济非常活跃,创新创业的氛围应该说是全中国乃至全世界最好的地区之一。人工智能技术产业化无非就是两种模式,一种是AI+X,另外一种是X+AI,X就是产业应用,而且毛军发认为X+AI可能更重要,应该由各行各业的企业、企业家对人工智能提出需求,并寻找到相关应用落地。
应用层正是大湾区人工智能的主要发力领域。就以广州为例,丰富的应用场景已经吸引了一大批人工智能企业,涌现出云从科技、文远知行、极飞科技等明星企业,它们在自动驾驶、智能农业等不同领域走出差异化发展之路。
关注“卖铲子的人”
业界常言,人工智能的发展有三要素——数据、算力、算法。算法决定模型的准确性和效率,数据是养料,决定内容输出的质量,算力则是铲子,是训练大模型的基础。
沈向洋提及了一组数据,从2019年到现在,每一年出来的最新大模型所需要的算力和前一年相比,刚开始是以每年翻六七倍的规模在增长,最近几年稳定下来,大概以每年翻四倍的增速在增长。可以想象,算力需求一年翻几倍,十年下来这个数字会非常夸张。因为大模型对应大量参数,需要的数据量也在增加,训练模型的算力需求也会激增。所以在整个AI浪潮中,最大的赢家是英伟达。
“这几年我经常讲一句话,叫‘讲卡伤感情,没卡没感情’,算力是人工智能发展的门槛。”沈向洋点出。
过去两年,英伟达市值翻了10倍,一度登顶全球市值之王,足见算力在人工智能江湖里的地位。
但业界也知道,依赖单一一个“卖铲子”的人是有风险的,因为它可以垄断供货、操纵价格。
人工智能与数字经济广东省实验室(深圳)协理副主任黄哲学表示,我们面临的一大挑战是,英伟达限制GPU出口,以前有卡可以建大规模集群,现在不一定建得了。要解决这个问题,还是得走自力更生的道路,立足于国产算力。所以我们鹏城云脑,从II到III都是由华为供应自主芯片的。
同时,解决国产算力问题最主要的还是生态问题。黄哲学进一步指出,我们现在用的很多大模型、开源软件都是从国外来的,大部分是基于英伟达的。自主创新之后,因为芯片改变了,底层的一些算法就不一样了,所以我们要开发类似英伟达CUDA的系统,可以适配国外的软件,同时也可以自主研发自己的创新应用,这样来解决算力的问题。
着眼大湾区,深圳正大力建设国家超算深圳中心、鹏城云脑、腾讯云等算力基础设施。此前IDC发布的《全球计算力指数评估报告》显示,中国的算力产业规模和多样性目前正持续高速增长,2018年至2022年,深圳的算力规模位居全国前三。
去年5月,鹏城实验室首次对外发布了中国算力网计划。这次大湾区科学论坛上,中国工程院院士、鹏城实验室主任高文介绍,作为国家重大科技基础设施,鹏城云脑Ⅱ已在IO500全球总榜单中连续8次夺得魁首,建设中的鹏城云脑Ⅲ建成后,算力规模将达到16000P,相当于832万台家用电脑算力之和。
“大模型并非无所不能”
今年6月,牛津大学发布研究报告《Theory is all you need》,标题上和大模型的开山之作《Attention Is All You Need》相呼应,但牛津的报告则抨击了大模型为代表的AI局限性问题。该报告指出,人类认知的本质是“理论驱动”的,人类不仅能够通过现有数据得出合理推论,更能基于假设、直觉以及跨领域的联想,提出具有前瞻性的创新想法。但大模型的本质更接近于对已有知识的模仿,而非对新知识的原创性探索。
沈向洋也认为,大模型虽然做出来了,但是不可解释,也不稳定,就出很多的问题。人们认为智能有限,似乎大模型出来之后,智能就出来了。但同时,很多人也在怀疑,现在这样的一套体系是不是真的可以走很远。去年,自己也在香港科技大学组织了一批科学家去探讨,“涌现”背后的数学原理到底是什么,试图打开大模型的“黑盒”。
清华大学教授李宗鹏也向21世纪经济报道记者表示,大模型出来后,很多人以为它可以用来做很多事情,颠覆整个经济形态,但是实际上大模型并非无所不能。就说AI幻觉这个点,从数学的角度看,这是大模型永远摆脱不了的问题,因为自然语言处理是基于概率生成和输出内容的,从这一点看,就没办法确保百分百准确。所以AI可以做艺术、文本创作,但是在做需要特别精确的事情时,肯定会存在局限性。
现阶段,大模型依然在沿着规模法则(scaling law)在发展,也就是堆叠的参数、投喂的数据越多,模型就越强大。但质疑的声音不时出现,即使互联网的数据浩如烟海,但迟早会有用完的一天,而且靠堆参数训练模型,这样的方法会越来越不经济。规模法则还是一条可行的路吗?
在郭嵩看来,从目前来看,顶级的科技公司还是非常坚信规模法则,相信随着参数、数据有指数级的增长,涌现的能力也会有显著增强,也就是说投入和产出大致还是成比例的。至于未来要如何去颠覆、下一个规律是什么,就要有待科学界和业界去探索了。但可以关注的是,李飞飞教授提出来的空间智能,她认为这是AI的下一个方向。简单而言就是,现在的大模型还停留在语言层面,但语言是离散的,也难以形成对物理世界的真正理解,所以结合对空间、时间等深层尺度的理解,才能往通用人工智能(AGI)更近一步。
(作者:赖镇桃 编辑:李艳霞)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。