21世纪经济报道记者 申俊涵 北京报道
作为中国版OpenAI的强有力竞争者,杨植麟创办的Moonshot AI近日在北京正式公开亮相。
同为清华系大模型创业者,杨植麟的公众知名度虽然比不上王小川、王慧文等在科技领域富有影响力的大咖,其在AI界早已是赫赫有名。据了解,杨植麟清华求学时期,师从清华大学计算机系知识工程实验室(KEG)带头人,智源研究院学术副院长、悟道项目负责人唐杰教授。最终,他以满分成绩通过所有程序设计课程,并以年级第一的成绩毕业。
2015年,杨植麟进入美国卡内基梅隆大学(CMU)语言技术研究所(LTI),跟随苹果公司AI负责人Ruslan Salakhutdinov和Google AI智能首席科学家William W. Cohen攻读博士位。
杨植麟先后以一作身份,发表 Transformer-XL 和 XLNet 两项工作,谷歌学术被引次数近两万。其在过去五年内的NLP领域华人学者引用排名中位居前10,并在40岁以下排名第一。
正如杨植麟在此次媒体沟通会上所说,“我们最主要的特色是高人才密度”。在Moonshot AI大概50人的公司团队中,除了学术背景深厚的杨植麟,还有许多成员都有训练超大模型的经验。其创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。
而除了拥有大量技术人才,Moonshot AI也吸纳了不少产品人才,这些成员中有人具备从0到1 的产品经验,有人运营过几亿DUA的产品。“我们希望把技术和产品结合,在C端让大模型落地产生更大的价值。”杨植麟说。
杨植麟带领的Moonshot AI也迅速获得投资机构的认可,公司自今年三月成立以来,已获得来自红杉资本、今日资本、砺思资本等投资机构近20亿元的投资。
同时,公司在成立半年后,已经在“长文本”领域实现突破。公司在10月9日正式推出首个支持输入20万汉字的智能助手产品Kimi Chat,这是目前全球市场上能够产品化使用的大模型服务中,所能支持的最长上下文输入长度。
直面核心技术挑战,打造长文本大模型
今年以来,ChatGPT的火爆出圈正引领新一波的AI浪潮。各大科技巨头、初创公司纷纷加入这场AI大模型军备赛,热闹程度堪称“百模大战”。
但需要注意的是,当前大模型输入长度普遍较低的现状,对其技术落地产生了极大制约。比如在使用大模型作为工作助理完成任务的过程中,几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户,由于常常需要分析处理较长的文本内容,使用大模型时受挫的情况发生频率极高;对于大模型开发者来说,输入prompt长度的限制约束了大模型应用的场景和能力的发挥。
拥有超长上下文输入后的大模型,让这些问题迎刃而解,从而使得大模型的应用可以覆盖更多使用场景。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等,都可以在超长文本技术的加持下,成为人们工作和生活的一部分。
值得注意的是,长文本技术的开发,存在一些对效果损害很大的“捷径”。比如“金鱼”模型,特点是容易“健忘”。通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解。
“蜜蜂”模型,特点是只关注局部,忽略整体。通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制,模型同样无法对全文进行完整理解。“蝌蚪”模型,特点是模型能力尚未发育完整。通过减少参数量来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。
“不管是‘金鱼’模型、‘蜜蜂’模型,还是‘蝌蚪’模型,都没有办法真正达到产品化的效果。只有真正去面对核心技术挑战、正面解决问题,才有可能真正达到产品化的效果。所以我们做了非常多算法和工程的优化,在存储、算力、带宽等各方面,去实现真正可用、可产品化的长文本大模型。”杨植麟说。
基于此,Moonshot AI推出智能助手产品Kimi Chat。相比当前市面上以英文为基础训练的大模型服务,Kimi Chat具备较强的多语言能力。例如,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约20万汉字的上下文,2.5倍于Anthropic公司的Claude-100k(实测约8万字),8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。
“当然,更长的上下文长度只是Moonshot AI在下一代大模型技术上迈出的第一步,未来团队将持续加速大模型技术的创新和应用落地。”杨植麟说。
清华系大模型同台竞技,笃定2C阵营会有Super APP出现
虽成立只有半年时间,Moonshot AI已经获得来自红杉资本、今日资本、砺思资本等投资机构的追捧。
“眼下,美国硅谷的OpenAI和Anthropic等公司获得了多方关注,实际上在国内,拥有足够多技术储备的Moonshot AI也正成长为全球领先的AGI初创公司。”作为Moonshot AI首轮融资的三家投资机构之一,砺思资本创始合伙人曹曦说。
在曹曦看来,多模态大模型是各家AI厂商竞争的关键领域,其中长文本输入技术更是其核心技术之一,Moonshot AI团队最新发布的大模型和Kimi Chat在这方面实现了重要突破,并已应用于多个实际场景。
毋庸置疑,AI天才杨植麟是清华系大模型创业者中的闪耀新星。事实上,清华系创业者已经撑起大模型创业的半壁江山。百川智能、生数科技、面壁智能、深言科技、智谱AI、一流科技等大模型创业公司,均拥有清华背景的创始团队。
在这场清华系创业公司的同台竞技中,杨植麟坦言,这更多的是大家共同在大模型领域产生贡献。这里面的空间非常大,很难有一家公司就可以把所有的事情都做了。大家的侧重点各有不同,有些专注C端有些专注B端,技术路线也会有所不同,每个人都能够产生独一无二的价值。
“我们会坚定站在2C阵营发展,在这个阵营中,一定会有Super APP出现。”杨植麟说,“这些Super APP会基于自研模型做出来,因为你需要在用户体验上能够有差异化。但同时我们会觉得可能出现很长尾的各种各样应用,有可能是基于开源模型去做,然后发挥数据或者场景产品化的优势。”
面对有更多生态资源和资金优势的大厂,Moonshot AI在2C阵营中的竞争优势如何体现?“我认为通过AI native的产品,会有很多新的流量入口出现。比如美国现在有很多新的流量入口,没有一个是大厂做出来的。如果瞄准新的流量入口,肯定是有创业公司的机会的。”杨植麟告诉21世纪经济报道。
比如以前没有Midjourney这样的产品,它就是新的流量入口,因为以前做不了这样的需求。再比如可交互的直播等,会有很多新的想象空间、新的app出现,所以创业公司肯定是有机会的。
(作者:申俊涵 编辑:林坤)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。