逐浪AIGC丨创造一个“独角兽”,李开复只用8个月

21Tech白杨 2023-11-06 20:14

能否实现商业闭环,将是大模型公司们下阶段该考虑的问题。

21世纪经济报道记者白杨 北京报道

与正式亮相时隔4个月之后,创新工场董事长兼CEO李开复创办的AI公司“零一万物”有了新进展。

11月6日,零一万物正式发布了开源大模型“Yi”。目前,Yi系列模型已在 Hugging Face、ModelScope、GitHub 三大全球开源社区平台上线,并对外开放了商用申请。

李开复说,开源对推动世界技术革命的发展有着非常重要的意义,从Linux开始,到各种AI技术,再到今天AI 2.0,一直有开源的力量在不断地推动一波波的技术浪潮。

这也是零一万物选择做开源大模型的原因。“零一万物的发展受益于此前开源社区的一些集体智慧,这也让我们有义务去做一些贡献”,李开复表示,“很多人觉得大模型需要超级多的资源,只有OpenAI、微软、谷歌、阿里、百度、腾讯这样的公司才能做,但是任何技术都是需要全球化的参与,而开源的方向是让大家都有机会能够接触到大模型。”

“烧钱”

今年3月,李开复在社交平台正式宣布要创办一家AI公司。到了7月,新公司正式定名为“零一万物”,并已有数十名核心成员,主要集中在大模型技术、人工智能算法、自然语言处理、系统架构、算力架构、数据安全、产品研发等领域。

据当时介绍,零一万物的联创团队成员包含前阿里巴巴副总裁、前百度副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco/副总裁,算法和产品团队背景均来自国内外大厂。

在发布Yi系列模型的同时,零一万物的部分团队成员也首度亮相。比如零一万物技术副总裁及 Pretrain 负责人黄文灏曾先后任职于微软亚洲研究院和智源研究院,非常早就介入了AI 2.0工作。

零一万物技术副总裁及AI Infra负责人戴宗宏此前曾担任过华为云AI CTO及技术创新部长、阿里达摩院AI Infra总监。他管理的Infra团队核心成员主要来自于阿里、华为、微软、商汤,这些人曾经参与支持了4个千亿参数大模型规模化训练,管理过数万张GPU卡。

有了丰富的人才储备之后,零一万物还需要解决数据和算力等问题。据李开复介绍,零一万物想尽了各种办法和渠道解决数据问题。“我们在外购买了很多数据,也动用网络爬虫,去合法获取允许的网站内容,同时也用了很多网上已经开源分享的数据。不过在拿到这些数据后,其中有很多重复,质量也参差不齐,所以我们对这些数据做了非常系统化的筛选,最终是从100多T的数据中挑选出3T”。

在算力方面,李开复则提到,“在零一万物初创阶段,就判断GPU比黄金重要,所以很早就在规划各种资源,现在零一万物的算力资源足够用到18个月之后”。

而对于一家AI公司尤其是做大模型的公司来说,无论是招募人才,还是购置数据和算力资源,都是一笔不菲的投入。李开复也透露称,在没有完成新一轮融资之前,零一万物已经负债几千万美元。

不过,零一万物也已得到资本的青睐。据记者了解,零一万物已完成新一轮融资,由阿里云领投,估值超过了10亿美元。这也意味着,李开复只用了8个月的时间,就创造出一个独角兽公司。

成绩

据李开复介绍,零一万物从今年6、7月份才开始写下第一行代码,在短短四个月的时间内,零一万物却交出一份亮眼的成绩单。

此次发布的Yi系列模型包含34B和6B两个版本。其中,截至11月5日的数据,Yi-34B在Hugging Face 英文测试公开榜单Pretrained 预训练开源模型排名中,以70.72的分数位列全球第一,超过了LLaMA2-70B和Falcon-180B等众多大尺寸模型。

在中文方面,Yi-34B在C-Eval中文权威榜单排行榜上也超越了全球所有开源模型。其中在CMMLU、E-Eval、Gaokao 三个主要的中文指标上,Yi-34B的表现也已超越GPT-4。

另外值得注意的是,Yi-34B将发布可支持200K上下文窗口(context window)版本,可以处理约40万汉字超长文本输入。相比之下,OpenAI的GPT-4上下文窗口只有32K,文字处理量约2.5万字。

在语言模型中,上下文窗口是大模型综合运算能力的金指标之一,对于理解和生成与特定上下文相关的文本至关重要,拥有更长窗口的语言模型可以处理更丰富的知识库信息。而零一万物,也成为第一家将超长上下文窗口在开源社区开放的大模型公司。

除了此次发布的大模型产品之外,李开复还重点介绍了背后的一些研发能力。其表示,凭借 AI Infra的支撑,Yi-34B模型训练成本下降了40%,“也就是说别的公司如果需要2000台GPU训练这样一个模型,而我们可能只要1200张”。

同时,经过几个月大量的建模和实验,零一万物自研出一套“规模化训练实验平台”,用来指导模型的设计和优化。现在,数据配比、超参搜索、模型结构实验等都可以在小规模实验平台上进行,小尺寸模型成功后,再应用到大尺寸模型当中,在训练34B模型时,零一万物已经验证了该平台的有效性,并且每个节点的预测误差都控制在了0.5%以内。

基于这样的模型预测能力,可大大减少训练误差对于计算资源的浪费,同时也让以往的大模型训练碰运气的“炼丹”过程变得极度细致和科学化。李开复宣布,在完成 Yi-34B预训练的同时,零一万物已经启动下一个千亿参数模型的训练。

未来

在谈到大模型的未来前景时,李开复再次强调,大模型时代不仅是人类跨向AGI的重要一步,同时也是一个巨大的平台机会,这个平台可以比肩PC时代、移动互联网时代。

而在这样一个时代,最大的商机是创造出超级应用( Super App)。在李开复看来,Super APP是大部分人需要花大量时间,每天必须有它才能得到自己的价值体现。比如PC时代的微软Office,移动互联网时代的微信等,都是Super App。

所以,做出一款Super App也是零一万物在努力的目标。“我们的Super App雏形很快就会跟大家见面”,李开复表示,“在这个阶段,我们也不认为我们自己就能把Super App做出来,但Super App一定都是简单的开始,然后用精益创业的方法不断迭代,最终迭代成超级应用”。

这是零一万物做Super App的方法论,李开复认为这也将是未来十万甚至上百万开发者去尝试的方法论。AI 2.0充满着机会,零一万物希望自己能够开发出一个Super App,同样,任何一个创业者如果找对了方向,并进行快速迭代,那也有可能打造出AI 2.0时代的Super App。

另外从企业发展角度,李开复也表示,在AI 2.0时代,商业化非常重要。在AI 1.0时代,很多AI公司没有做好商业化,很早就被淘汰,而那些做出收入的,在持续性上也做的不够好,所以AI 1.0的公司交出的成绩单并不理想。

这也为AI 2.0时代的创业公司敲响了警钟。“我们做App就是朝着能够快速有收入,并且能够产生非常好的利润,让收入变得可持续。现在那些发展成功的公司,都是因为他们的收入有质量,在零一万物看来,应用的收入质量要高于做ToB,所以我们也选择坚定不移地走ToC路径。”李开复说。

(作者:白杨 编辑:林曦)

白杨向TA提问

IT版记者

关注科技互联网领域报道。微信:by_xiansheng(加好友请备注姓名、公司及职务)