不用GPU!硅谷Groq大模型横空出世,能否挑战英伟达?
21世纪经济报道记者张赛男 上海报道 AI圈卷疯了。
人们还没从视频生成模型Sora带来的震撼中回过神来,硅谷AI芯片初创公司Groq的大模型又引发了市场热烈讨论,其主打一个“快”,每秒能输出500个token(注:语言模型中用来表示最小文本单元)。相比之下,Chat GPT-3.5每秒生成速度为40个token。
在大模型产品多如牛毛的当下,Groq为何得以爆火?
其最大的亮点在于独特的技术路径。不同于广泛使用英伟达GPU的大模型产品,Groq团队为其大模型量身定制了专用芯片(ASIC),这一芯片能在速度上取胜的核心技术是其首创的LPU(Language Processing Unit)技术。
“天下苦英伟达久矣”,自大模型兴起以来,英伟达的GPU芯片一卡难求,算力短缺成为很多AI企业面临的难题。而如今Groq横空出世,不仅绕开了GPU,还能实现更快的计算速度,无疑让市场倍感兴奋。
Groq的AI芯片到底和GPU有何不同?能否实现“平替”英伟达?
主打一个“快”
据介绍,Groq的芯片采用14nm制程,搭载了230MB大静态随机存储器(SRAM)以保证内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。
如何直观地感受其运算效率?据称,Groq在大语言模型任务上彻底击败了GPU——比英伟达的GPU快10倍,而成本仅为GPU的10%,且只需要GPU十分之一的电力。
Anyscale的LLMPerf排行也显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。
为了证明自研芯片的能力,Groq在官网发布了免费的大模型服务,包括三个开源大模型,Mixtral 8×7B-32K、Llama 2-70B-4K和Mistral 7B-8K,目前前两个已开放使用。
Groq火箭般的生成速度,让市场侧目,也吸引网友纷纷测评。
据网友测试,面对300多个单词的“巨型”prompt(AI模型提示词),Groq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划。此外,Groq还完全实现了远程实时的AI对话。
电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默(Matt Shumer)在体验Groq后称赞其快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。更令人惊讶的是,其超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。
Groq能实现上述功能的核心技术在于首创的LPU,那么对这一技术该如何理解?
据社交媒体X上与Groq关系密切的投资人k_zeroS分享,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。不同于英伟达 GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用HBM,它使用的是SRAM,其速度比GPU所用的存储器快约20倍。
科技投资专家、首建投合伙人王嘉宁在接受21世纪经济报道记者采访时表示,“LPU架构与GPU使用的SIMD(单指令,多数据)不同,它的推理引擎是一个端到端系统,专为需要大量计算和连续处理的应用(如大语言模型)设计。LPU的设计允许更有效地利用每个时钟周期,确保一致的延迟和吞吐量,并降低复杂调度硬件的需求。”
“平替”英伟达?
“快”字当头,Groq的大模型可谓赚足眼球。Groq还喊话各大公司,扬言在三年内超越英伟达。
作为“AI卖铲人”,英伟达在这一波AI热潮中赚得盆满钵满,其GPU芯片价格一再被炒高,但仍一卡难求,因此在这场战役中,“天下苦英伟达久矣”的呼声一直高亢。如果Groq的LPU架构能“弯道超车”,显然为业内乐见。据悉,该公司的推理芯片在第三方网站上的售价为2万多美元。
不过,想要“平替”英伟达GPU可并不容易,从各方观点来看,Groq的芯片还无法与之分庭抗礼。
原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账,因为Groq小得可怜的内存容量,在运行Llama 2 70B模型时,需要305张Groq卡才足够,而用英伟达的H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
对比LPU和GPU的优劣,天使投资人、资深人工智能专家郭涛对21世纪经济报道记者进一步分析,“性能方面,对于特定任务,比如深度学习中的矩阵运算,LPU可能提供更高的吞吐量和更低的延迟;通用性方面,GPU设计用于处理各种并行计算任务,而LPU可能更专一,这既是优势也是劣势。生态系统和软件支持方面,GPU拥有成熟的生态系统和广泛的软件支持,而新出现的LPU可能需要时间来建立相应的支持。”
深度科技研究院院长张孝荣认为:“尽管LPU在某些方面可能无法与为广泛图形处理任务设计的英伟达GPU直接竞争,但在特定的AI领域,尤其是语言大模型推理方面,LPU具备不小的应用潜力。”
虽然市场上对GPU的主导地位有所不满,但受访专家普遍认为,LPU要完全取代GPU并非易事。
郭涛认为,“英伟达的GPU不仅性能强大,而且拥有庞大的用户基础和生态系统。随着AI和深度学习的不断发展,对专用芯片的需求也在增长。不过,LPU和其他ASIC提供了一种可能性,可以在特定领域内挑战GPU的地位。”。
当前,随着AI技术的发展和市场需求的变化,各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现,它们在各自擅长的领域内展现出了挑战GPU的可能性。“不过,要实现大规模的市场替代还需要解决生态建设、兼容性、成本效益等诸多问题。”王嘉宁说。
(作者:张赛男 编辑:张铭心)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。