乒乓球运动员与他的算力帝国丨百人百业①

21世纪经济报道 21财经APP 倪雨晴 深圳报道
2024-04-03 16:07

21世纪经济报道记者倪雨晴 深圳报道  1972年,一个9岁的中国台湾男孩,被家人送往美国。在肯德基的家乡,肯塔基州的一家乡村寄宿学校读书。这是一所类似少管所的学校,据说这里每个孩子都有纹身,他身上也有,不过是在他的公司股票达到100美元时,纹了NVIDIA的logo,少年时期的回旋镖刺青了左臂。

虽然中文不好,但他一直发挥着华人优势。在体育方面是乒乓球,6年后,15岁的他获得美国乒乓球公开赛双打第三名。在事业方面则是计算机,20年后,他创立了这个世界上最伟大的半导体公司之一英伟达。50年后,他几乎统治整个算力世界。他是英伟达公司创始人兼 CEO黄仁勋。

互联网宿命论的鼻祖书《异类》中提到,比尔·盖茨和史蒂夫·乔布斯出生于1955年,这并非巧合。在他们的青年时期就碰到了计算机基础能力大爆发的时代。1946年第一台电子计算机发明,1968年英特尔成立,AMD1969年成立,这些是“基础性的时代机缘”。可见,太早,会因为前置技术不成熟,无法支持更强大的产品能力,太晚,市场已经被领先者占据先发优势。可见,天才在出生时,世界就已开始忙碌地为他做着准备。

1960年到2000年的四十年之间,世界上最强大的芯片公司陆续成立。这些公司为后续整个互联网、人工智能、乃至整个人类文明世界的繁荣奠定基础,这一时期的技术爆发前无古人。

游戏机男孩

1984年黄仁勋本科毕业,这一年第一台Mac电脑发布,个人电脑时代开启,相关领域就业蓬勃兴起,他将1984年称作“最适合毕业的年份”。正如2007年苹果手机发布,以及iPhone4发布后的几年,都是“最适合毕业的年份”。

黄仁勋先后于1983-1985年间和1985-1993年间在AMD(美国超威半导体公司)和巨积(LSI Logic Corporation美国电子公司),做芯片设计师。边工边读花了8年时间,于1990年获得斯坦福大学电子工程硕士学位。

1993年,30岁的黄仁勋,为兑现对夫人的承诺,也为避免被职场淘汰,成立了英伟达。相比之下,两位比他大8岁的前辈显得更加疯狂——社区双非大学生乔布斯20岁创办苹果,麻省波市大学肄业生比尔盖茨19岁创办微软。

黄仁勋去年曾在台大演讲,核心内容是回顾他创业历程中的三个故事。这三个故事对应英伟达乃至GPU市场的三个关键时期。分别可以总结为:游戏机男孩、计算平台雄心、算力有所不为。

游戏机时期是黄仁勋和比尔·盖茨的相爱相杀相助史。1995年,微软推出了PC史上划时代的Windows 95,并同时推出了以Direct3D为核心的DirectX标准。黄仁勋看准这个机会,全面支持微软的Direct X接口,推出了Riva128芯片,整机厂商开始集成英伟达。那时候显卡还不是主角,戴尔和惠普这样的组装机才是行业热门玩家。这是英伟达与微软的蜜月期,英伟达的角色就是配合好微软卖系统。

2000年,微软开始进军游戏机。希望通过Xbox与索尼、任天堂一决雌雄。为了这个项目,微软大手笔,仅单个项目订单就支付英伟达5亿美元,当时英伟达一整年的销售额才5亿美元。

2001年,微软大打价格战,每卖出一个Xbox就要亏126美元。微软开始向英伟达压价,彼时“皮衣哥”黄仁勋虽然弱小,但不肯向甲方妥协,并与微软对簿公堂。随后微软将订单转向英伟达的对手ATI,导致英伟达股价大跌90%。

皮衣哥虽然强势,但并不是莽夫。2003年,英伟达同意与微软再次合作Xbox。在一波三折的发展之中,算力平台的故事还在继续。

硬件雄心

英伟达的硬件产品总体沿着两个方向迭代,其一是产品线,其二是技术架构。

但这两条线并不完全划分清晰,英伟达的产品线像迷宫,堪称芯片领域的雅马哈。英伟达常见的产品线,GeForce系列,消费级GPU产品线就是消费者日常买的显卡;RTX/Quadro系列,即专业级GPU产品线;数据中心GPU,也即现在各家疯抢的核心AI芯片;Tesla系列,高性能计算和机器学习任务,已停止使用该名称;Tegra系列,移动处理器产品线,已经放弃,这属于算力有所不为的故事。

英伟达的架构演进相对清晰,这也侧面说明早期的黄仁勋更偏向技术玩家,近10年则对商业世界的理解愈发老辣。


2024年3月20日,英伟达GTC发布了Blackwell架构,数学家Blackwell在贝叶斯统计方面的开创性工作推动了人工智能领域的发展。从这些架构的命名习惯看,仁勋的偏好逐渐转向计算机和人工智能人物。英伟达的架构也愈发比产品线更出名,换句话说,黄仁勋干脆就是把架构当成产品线。

自OpenAI发布ChatGPT以来,生成式人工智能技术一直是备受关注的热门趋势。这项技术需要强大的算力来生成文本、图像、视频等内容。

在这个背景下,英伟达先后推出V100、A100和H100等多款用于AI训练的芯片。A100和H100一方面是限制对象的典型,另一方面也是ChatGPT训练能力的核心芯片,这也让A100与H100在民间名声大噪。

英伟达A100的官网价是1万美元,H100是3.6万美元。以英伟达的A100芯片的性能指标作为限制标准。后来又修改为以综合运算性能和性能密度为指标。其实质都是核心传输和计算能力。

当前,算力焦虑成为新的焦虑类型,国内从投资人到程序员都逢人必谈A100和H100。也许从来没有一种电子产品像英伟达的显卡一样“你天天听说,但是又用不上”。在生成式AI突飞猛进之下,英伟达的产业链地位也进一步上升。

软件起飞

但英伟达可不只有硬件产品,英伟达官网上的软件目录比硬件还长。

黄仁勋高瞻远瞩之处在于,他知道硬件公司不能只做硬件,要做生态,生态的另外一只手就是软件,准确地说是算力操作系统。可以说英伟达CUDA(Compute Unified Device Architecture)是算力世界的“Linux+Windows”。

对比来看,Linux开发者社区强,商业社区弱,Windows商业社区强,开发者生态管控能力弱。而CUDA,有强大的社区开发者、有广泛的商业应用、还有云。

CUDA与英伟达GPU芯片的关系,更像是iOS与iPhone的关系。它们都提供了强大的开发者生态,对上层应用性能提供强有力保障,也都相当封闭,仅支持自家硬件。

虽然被诟病安装和维护繁琐,CUDA对开发者依然是友好的,特别是对于深度神经网络的资深玩家。对他们来说,最终的运算速度是痛点,其他麻烦都可以忽略。一位资深开发者告诉21世纪经济报道记者,实际上,目前几乎全部的深度学习框架都对CUDA进行了封装支持,包括pytorch,TensorFlow等,初学者学习pytorch的第一句话都是torch.cuda.is_available()。这几乎是深度学习领域的“Hello World”,甚至应该说是“Hello Nvidia”。

CUDA的前身之一是Brook项目。最初是由斯坦福大学博士在Ian Buck 在2000前后创立,他们计划开发一个新的编程系统,让GPU可用于除了图形计算外的其他领域。

这就是社区的力量,开发者社区有高水平的免费劳动力为你添砖加瓦,废寝忘食,而且还能省去招聘选人的成本,并在未来成为公司的核心员工。Ian Buck后来成为英伟达CUDA的负责人——加速计算部门的总经理,这个故事至今还被挂在英文达的官网。

2000年,Ian Buck将32张GeForce显卡并行,将GeForce显卡改造成了一台超级计算机。这一经典操作收入了维基百科。底层逻辑很简单,英伟达一直抛弃其他任务,让芯片干活更纯粹,不断地堆叠并行计算,特别是并行乘法计算。

黄仁勋希望CUDA运行在每一张英伟达的显卡上,让大批天下寒士都可以使用GPU进行加速计算。天才的思路总是相似的,纳德拉对其扛鼎之作Windows10的KPI就是装机量,让更多的设备用上Windows10,而不是赚多少钱。这才使得Windows10在很多升级策略上采取了免费方案。

搭上AI

任何领域的突破都需要机缘巧合。而你要做的就是做好准备。2012年,当时还在谷歌的吴恩达和Jeff Dean训练了一个在图像中识别猫的神经网络。这一实验性的项目,对人工智能图像识别领域却是划时代意义的,人脸识别从此开始走入寻常生活。

上述工作使用了大约1.6万个CPU,而AI大拿Sutskever和Krizhevsky却仅用2块英伟达GeForce。他们所在的Geoffrey Hinton的研究小组,很早就开始使用英伟达CUDA平台训练神经网络。他们也是碰巧发现GPU竟然比CPU快这么多。

英伟达则是碰巧遇到人工智能的发展主要依赖算力。需求依然是第一位的,不然它也不得不滑入技术过剩的境地。

Sutskever和Krizhevsky都是大名鼎鼎的Geoffrey Hinton的博士。Geoffrey Hinton被誉为深度学习之父,他和另外两位神经网络先驱Yann LeCun、Yoshua Bengio获得了2018年的图灵奖。而Sutskever是OpenAI的技术总监。Krizhevsky则是斩获ImageNet第一名的图像识别神经网络AlexNet的第一作者。

任何产品的推广最好方式都是KOL带货。Geoffrey Hinton的推广和AlexNet的名声大噪使得GPU和CUDA开始出圈。到底是CUDA带火了英伟达的GPU,还是GPU带火了CUDA。就像到底是iOS让iPhone成功,还是iPhone让iOS成功。他们是孪生配套,缺一不可。

英伟达开发者项目副总裁Greg Estes回忆道:“黄仁勋在周五晚上发出了一封电子邮件,说一切都将转向深度学习,我们不再是一家图形公司(no longer a graphics company)。到了周一早上,我们就成为了一家人工智能公司。确实,就这么快。”

随着人工智能日新月异,黄仁勋缔造的算力帝国一路狂飙。而算力,也成为各家争夺的战略资源。

中国信通院算力指数发展白皮书2023显示,2022年中国算力规模达到180 Exa Flops(Exa是10的18次方),占全球总量的33%,其中基础算力为26%,智能算力分别为28%,超级算力为18%。美国占全球总量的34%,其中基础算力为27%,智能算力分别为45%,超级算力为48%。在存量算力上,中国和美国是唯二的世界强国。

近年来,中国也在加速算力网络的建设,2023年发布的《算力基础设施高质量发展行动计划》提出,到2025年,计算力方面,算力规模超过300 EFLOPS,智能算力占比达到35%。

其中,粤港澳大湾区就是建设全国一体化算力网络的重要枢纽,在2023年,中国算力网粤港澳大湾区调度中心正式上线,这是韶关市与鹏城实验室共同建设的“中国算力网”项目全国首个区域级资源调度中心。

算力资源的竞赛,已经拉开帷幕。一位IT资深从业者对记者分析道,首先,算力在任何项目上都是重要但又极度短缺的。其次,计算设备有存量算力,且可以进行分布式全球化的采集,比电力、石油更容易跨空间部署。同时,算力早已是一种比能源抽象,不易于普通人理解,重要性却不亚于能源的资源,因为它可以解决科技瓶颈的问题。

理论、实验、计算被称为现代科学研究中的三大手段。其中计算是最晚加入的小辈,但现在却起到核心驱动作用,很多理论可以用计算来验证,很多实验可以用算力来组织。

这就是为什么“我们需要的是飞行汽车,但时代却给我一个140字的推特”,“人类需要AI去洗碗,扫地,做家务。他们却在写诗画画搞音乐”,这类嘲笑不值一驳的原因。

假如没有社交网络,就没有那么多人在互联网上发表观点,就没有这么多的在线语料数据。没有语料数据,就没有大语言模型的数据基础,就没有ChatGPT的核心,也就没法和人类高智能的交互,迁移学习的思路也就不复存在,后面的洗碗扫地机器人也会大受影响。相反,自从有了大语言模型之后,很多家务机器人开始层出不穷。嘲笑并不都是坏事,这提供另一种角度,也为创造者提供动力。

目前人类文明发展的底座之一是人工智能。人工智能的发展底座是算力,算力的底座是电力,电力的底座是各类基础能源,这是科技树的逻辑链条也是现实掣肘。甚至有业内人士指出,算力是一种被编译的电力,或者从更大的角度来说,算力是一种被编译的能源。

黄仁勋说,从现在的角度看,要支持未来的算力需求,也许需要烧掉14个行星,3个星系,4个太阳来提供能源。但这不必,计算框架在提升,芯片的功耗在降低。

从观望者悲观的角度看,人类历史从来都是资源争夺的“零和博弈”。从人类走出非洲大陆开始,争夺地盘、食物、能源从未停止。

从探索者乐观的角度看,从木头中激发火,从石头中发掘硅,人类一直在做大增量市场,每次资源短缺,新的技术总能及时涌现。

《流浪地球2》中,周喆直富有深意地说“有人,在帮我们”。

(作者:倪雨晴 编辑:包芳鸣)

倪雨晴向TA提问

科技记者

关注通信、半导体、智造等硬科技,欢迎找我分享故事,微信18825191742。