智能涌现①|对话华傲数据董事长贾西贝:距离数据用光还剩3年时间,我们对此可以做点什么?

深公司Insight石恩泽 2023-07-14 09:30

从个人、行业到区域发展,AI产业如何更好发展?

编者按:

今年是数字经济发展的井喷之年。年初,国内发布了数字中国规划,宣告数字经济入国策;国外AI技术的发展,带领全球走入ChatGPT时刻。其中,AI是数字经济领域里的兵家必争之地,也是加速数字经济发展的新引擎。因此,中国市场上出现了“百模大战”的奇观。

在AI大模型领域,有一个现象叫“智能涌现”,并且被不少AI从业者认为是模型演进过程中最有魅力的地方。据业界人士描述,当大模型训练突破一定参数门槛时,其“智力”上会出现一个质的飞跃,而这个飞跃就是“涌现”。好比是,佛家禅宗里所言的“顿悟”。

实际上,“涌现(emergence)”这个词,最早是一个生物学概念,用于形容许多小个体相互作用后产生了大的整体,并在大整体上展现原本个体不具备的新特性。这就好像中文里所说的“众人拾柴火焰高”。同时,不少业内人士认为,AI今后的发展也应是如此。

此外,伴随AI“涌现”产生改变的还有人的思维模式。在这个最令科技工作者振奋的时代,思想的奇妙碰撞时时刻刻都在发生。但也正因如此,上个月形成的共识,也许下个月就会被推翻。

为抓住这些思维“涌现”,南方财经全媒体策划有《智能涌现》专栏,对话AI产业链上的一线工作者,力求用一篇又一篇的稿件,记录AI时代下的思维火花。

作为栏目的第一篇,我们打算从数据开始切入整个产业。因为数据不仅是“涌现”的门槛,也是AI发展的胜负手。为此,我们请到了一家在数字中国事业里深耕12年的“专精特新”企业——华傲数据。华傲数据董事长贾西贝此前在爱丁堡大学读博期间从事科研多年,现在是一名企业家及深圳市人大代表,可以说是一位同时兼具学界和商界两种不同视角的采访对象。

南方财经全媒体记者 石恩泽 深圳报道

“若是这么多大模型都需要数据喂养,不出三年,AI大模型吞噬数据的速度,将使全球陷入数据荒。”在某个深夜里,华傲数据董事长贾西贝在微信上和南方财经全媒体记者交流时感叹道。

作为一个勇闯中国公共数据加工治理无人区10余年的开荒者,贾西贝一面为科技工作者迎来最好的时代而开心,一面又为中文数据生态的发展而忧心。

此前贾西贝在采访中提出,数据是AI大模型的胜负手。此次南方财经全媒体记者在线下与他对话过程中,他进一步延伸和完善了这个观点,并且还从数据角度出发,表达了自己对“百模大战”终局的看法。

此外,作为一名企业家、深圳市人大代表,贾西贝就如他的名字那样,“贾贾为真”,敢于提出新观点,他在采访中呼吁道,AI大模型领域急盼一套“专精特新”政策,以此逆转马太效应,激发创新生态。

离数据用光也就剩下3年时间

南方财经:假设今天全球陷入数据荒,这将会对AI的发展产生什么影响?

贾西贝:我之前看到一个统计,说是2026年左右,全世界能够投喂给大模型的数据将告罄。按这个统计,离数据用光也就剩下3年时间。虽然自然产生的数据可复制、可复用,但却像地层沉积的煤炭、石油等能源一样,具有不可再生性,一旦错过了当时的生成环境,就很难在后期重复生成。同时,训练数据的收集需要人类社会的长期积累,不是啥时候想生成就生成。虽然AI合成数据已经在训练中越来越多地使用,但从长期效应来看仍有数据污染、技术抄袭等诸多争议。就像能源领域节能低碳成为全球议题一样,AI领域节约使用数据、降低数据消耗速度的“节数低数”模型也在逐渐成为研究热点。

再者,大模型讲求“大”,而这个“大”是呈指数级别的消耗数据。例如,北京最近制定的大模型扶持政策,定下的选拔门槛是10亿参数以上。而这个门槛放到几年前,几乎没有人能达到,那时候1000万参数就已经是天花板级别了。但现在中国进入“百模大战”新纪元,尤其这个“战”包含了大家对“智能涌现”的追求。好比说,大模型是一个对数据有着巨大食量的小孩,若是有一天这个小孩没有可食用的数据了,那么他的智力就停滞了。若是保证了其摄取的营养,当大模型突破了一定参数之后,就会出现“智能涌现”,模型理解力将有一个巨大的飞跃,可以说是大模型里最有魅力的地方。

目前业界认为,智能涌现的最低阈值需要600亿参数以上。而从ChatGPT的经验来看,用语元(Token)衡量的训练数据规模,常常是参数规模的数十甚至更多倍。参数规模的爆发,伴随的是语料算料需求的更猛烈的爆发。就像地球生物进化中有寒武纪生命大爆发一样,我们已经看到了“百模大战、千模大战”的爆发和追求更强智能参数的爆发。往后模型爆发和参数爆发互相激荡,将带来了更猛烈的数据爆发。因此,我会提出数据是AI大模型的胜负手

可能有人会说,中国有14亿人口和5千余家上市公司,应该在数据上是长板。但据我观察,现今中文数据大而不强。因为数据与算法模型不同,后者可以重金悬赏,但前者由于数据安全、个人信息保护等制约,在流通上有诸多限制,不仅跨境难,跨企业也难。此前高文院士也在演讲中提到,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。因此,如果说全球都面临着数据荒问题,那么中文数据恐怕会更荒。

不仅如此,大模型这个小孩还要食用品质优良的数据。ChatGPT最重要的“秘方”之一就是训练数据的筛选规则,据说,ChatGPT真正用于训练的数据是收集到的数据总量的十分之一。俗话说种瓜得瓜、种豆得豆,若是这个小孩成天学的都是“脏话”,那么即便用再神奇的魔法,也无法将AI大模型训练成谈吐优雅的绅士。在数据治理领域我们称之为“Garbage In, Garbage Out(垃圾进、垃圾出)”。因此,训练数据的数量和质量对大模型的发展都非常重要,若是发展AI却不重视数据,那么今后中国在全球AI大模型竞争中,将会诞生一批营养不良的“早产儿”和“野蛮人”。

针对上述数据荒问题,今年4月,华傲数据联合深圳数据交易所、协会、学会、企业、大学等单位共同组成了算料联盟筹备小组,合力汇集论文、政策、报告、标准、法律、代码、古籍、中医药、基因及蛋白质结构等多模态的训练数据,为丰富中文训练数据添砖加瓦,为数据交易增加合成数据、标注数据、模型参数等新专区和新品类

“私有大模型”或是“百模大战”终局

南方财经:既然数据是大模型的胜负手,那么从数据的角度出发,你认为“百模大战”的终局将走向何处?

贾西贝:这就要从大模型的边界说起。虽然大模型给人感觉很万能,但大模型的应用也是有边界的,而这个边界是由底层训练数据集决定的。我们数据行业经常把“数据不出门、数据不出服务器”挂在嘴边。这是由于大模型的训练过程不天然具有脱敏和去隐私的能力,数据的安全约束也会传递给模型,从而私域数据在组织间的隔离要求也会传导给模型,形成私域模型在组织间的安全隔离,这就是大模型的“数据隔离效应”,就像在大模型之间安装了一道隔离墙。

大模型时代必然是“私有模型不出门、私有模型不出服务器”,那么基于私有大模型构建的私有应用则是“应用不出门、应用不出服务器”。与开放数据训练出的公有大模型的天然垄断趋向不同,数据隔离效应必将造就私有大模型无法赢家通吃,形成百花齐放、百家争鸣的局面。所以说,从数据的角度来看,我认为百模大战中的相当多的模型最后都会奔向“私有大模型”的星辰大海。

南方财经:这就好像是微信有社交数据大模型、抖音有直播数据大模型,对吗?

贾西贝:对的。“数据隔离墙效应”会造成大模型衍生开发的应用也相互隔离、协同发展、各擅胜场。

南方财经:那在这个隔离效应下,不同的大模型之间还能够形成对垒吗?

贾西贝:确实公有大模型会更加短兵相接,因为谁都能参战。而私有大模型的竞争烈度会低一点,因为不同商业组织、政府组织之间的数据不论从数据安全、个人信息保护的角度还是从数据权益的角度来看,都不是短时间内可以打通的。虽然我们刚刚讲数据会给大模型应用造成限制,但反过来又成为了各自的护城河。也正因为数据的“隔离墙效应”,大模型将会走向一个百家争鸣的格局。

南方财经:业界还有另一种声音说,大模型是呈指数迭代升级的。因此,未来通用大模型会吞并掉做垂直领域大模型的,形成一种赢家通吃的局面。对此你怎么看待?

贾西贝:赢家通吃是前一阵子比较占主流的观点。但我认为做出一个赢家通吃的大模型,所需要的成本太高了。除了高达1200万美元/次的训练成本,还要算上千万美元级的数据标注成本,算下来将是以“亿美元”为单位的资源火拼。这已经足够把大多数创业公司淘汰出局。

从历史来看,这样一个“投资+技术密集型”的行业很难全栈,或者说很难全产业链一家通吃。就像芯片行业早已从早期英特尔等公司采用的一家通吃的IDM模式,进入到了“Arm的IP授权+百家争鸣的芯片设计公司+台积电代工”的分工模式(Fabless)。全栈模式除了数据门槛,重复投资的代价也很高。所以说,现在业内有很多投资人说通用大模型的入门之战已经结束了,留在后面的是产业链之战、生态之战。

南方财经:所以现在大家的共识已经出现了变化,是吗?

贾西贝:AI这个领域很新,这里面不断会冒出新的观点,同时观点过时的速度也很快,这个月形成的共识,下个月就会被打破,大家都在经历不断被“打脸”的过程。

大模型领域呼唤“专精特新”

南方财经:如果说通用大模型不是大家都能参与的游戏,那么创业者应该以何种方式入局参赛呢?

贾西贝:我认为AI往后发展将非常类似芯片这种高端制造业的发展,因为这两者都是“资金+技术”密集型的行业。目前芯片行业已经被证实了要走“三分协作”的模式,即分段创新、分域竞争、分工协作。例如,ASML造光刻机,日本公司造半导体材料,Arm提供IP核和指令授权,高通做设计,台积电做代工制造,日月光做封测,这个产业链不是一家通吃,而是各占一段,分段创新,每一段的龙头企业都把那一段的技术做到极致。即使同在芯片的设计制造环节,也是德州仪器专攻模拟芯片,英特尔做CPU芯片,英伟达做GPU芯片。大家错位竞争,避免重复造轮子,把每一分钱都投资在自己擅长的领域里,尽全力做到全球最好。

因此,我认为未来AI领域也将走向这样的模式,有一类“卖水”的公司,如专门负责制造租赁算力的芯片公司和云计算公司,负责研发数据及语料库算料库的数据质量、筛选、标注公司;有一类“培植土壤”的公司,如专门负责研发AI框架的公司,负责研发通用大模型的公司;还有一类“培育种子”的公司,如垂类大模型公司、擅长做领域微调的专用大模型公司;以及一类在“水、土壤和种子”的支撑下“种树”的公司,如AI应用公司。那么这对创业者来说,他们就可以通过分段创新、分域竞争的方式加入到AI浪潮中。

此外,分工协作是普遍优于“遍洒胡椒面”式的创新,尤其是对一个城市来说,得产业链者,方得天下。因为产业链背后催生的是一整套生态,每家企业都是站在别人的肩膀上,最终以叠罗汉的方式诞生一个巨人。

南方财经:这么看来未来城市管理者从中协调的作用会变得重要。尤其是让AI产业全面发展的艰辛程度,可能并不亚于培养一个小孩。那么未来城市管理者可以制定什么样的政策来呵护AI产业这个小孩呢?

贾西贝:一花不是春、独木不成林。我特别喜欢中国在鼓励先进制造业发展方面出台的一系列“专精特新”政策。这个支持中小企业发展的政策,一定程度上逆转了马太效应,打破了大公司的垄断生态,培育了各个细分领域充满活力的隐形冠军企业,催生了更具生命力的百家争鸣的中小企业创新。

从公司发展周期来看,大公司一般都会趋于保守,而小公司则在创新上表现得更加出色。例如,上一波AI浪潮的引领者是研发AlphaGO的DeepMind公司,这一波引领大模型的公司是研发ChatGPT的OpenAI公司,以及机器人领域明星企业波士顿动力公司,它们都是中小企业。虽然这3家公司最终都被巨头收购或资助,但是它们在初创公司时期所产生的创新力,引领了整个产业界的变革。这甚至对全球都产生了非常深远的影响。

这也是为何现在特别多院士和专家在呼吁“开源开放”,因为开源是打造共生体系的基础。但这个我认为还不够,我想在此进一步提出一个观点,大模型领域呼唤“专精特新”,这个行业也需要一套符合自身发展特点的“专精特新”政策。

(作者:石恩泽 编辑:孙超逸)

石恩泽

记者

跟数据有关的赛道都看。有好故事微信联系:lulu_shienze,加微信请先备注。