对标ChatGPT文心一言发布!百度股价大跌,中文大模型前景如何?

合规科技冯恋阁,郭美婷 2023-03-16 20:27

没人能否认,这周是大型语言模型历史上不可忽视的一周。

南方财经全媒体 记者冯恋阁 21世纪经济报道 记者郭美婷 广州报道

没人能否认,这周是大型语言模型历史上不可忽视的一周。一天前,大洋彼岸的OpenAI发布GPT-4,今天下午百度则正式发布中文大语言模型“文心一言”。百度创始人、董事长兼首席执行官李彦宏在发布会现场表示,“文心一言”发布的核心目的,是响应市场的强烈需求。而大语言模型落地将带来新型云计算、行业模型精调和应用开发三大产业机会。

然而,虽然发布会前有许多期待和想象,但大幕拉开后,百度集团股价却开始出现下跌,跌幅一度达到9%。截至收盘,百度跌幅为6.36%,报125.1港元,总市值3458亿。

“十月怀胎,一朝分娩”,文心一言落地后,如何走好中文大模型之后的路?未来国内哪些场景、应用最有可能先与它们深度融合,带来新的产业突破?实际落地过程中,是否还有需要关注的重难点?

文心一言正式发布 

3月16日14:00,在北京总部举行的发布会上,百度正式发布知识增强大语言模型“文心一言”。 

据悉,这是百度文心大模型系列的又一新成员。在此次发布会上,百度创始人、董事长兼首席执行官李彦宏演示了文心一言在文学创作、商业文案创作、数理逻辑推理、中文理解、多模态生成场景下的具体应用实例,以期展现模型对文本的理解、推理、表达和创作能力。

在演示中,值得注意的是,由于训练数据主要基于中文,文心一言在中文理解能力上表现得较为突出。能够解释“洛阳纸贵”的含义、衍生意义,甚至基于这一成语创作藏头诗。 

多模态生成功能也是发布会介绍的重点之一。用户输入文本后,应用可以即时生成文本、图片甚至视频。在现场演示中,经过多轮对话,文心一言可以生成创造性内容,并记住自己在前几轮的 回复,根据回答内容生成视频。

人工智能技术带来的惊喜背后是算法、算力和数据的辅助。 

“基于庞大的数据库,文心一言能做到‘智能涌现’。”李彦宏解释道,在多种技术的加持下,文心一言能够回答以前在训练中未曾出现过的问题。 

据悉,百度的训练数据库内包含万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱,作为模型训练过程中的特有的知识增强、检索增强和对话增强技术的“材料”。 

百度首席技术官王海峰指出,文心一言的研发基于百度的ERNIE及PLATO系列模型进行。训练技术上,除了前文提到的三项增强技术,还包括监督精调、人类反馈的强化学习、提示技术。 

在“亲笔写就”的邀请函中,文心一言介绍道,自己的主要功能是通过人机对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。 

不过,目前并非所有人都能响应这一邀请。据悉,3 月 16 日起,首批用户可以通过邀请测试码,文心一言官网体验产品,后续的体验机会将陆续开放;多模态生成中的视频生成内容也暂未所有文心一言的用户开放。针对企业用户,百度智能云开放了文心一言API接口调用服务的申请通道,将在之后开放接入。

“可以预见,AIGC将成为下一代的高效的内容生产工具。”硅基智能科技有限公司CEO司马华鹏认为,信息技术不断发展,算力、数据与核心算法都各有积累和突破,人工智能生成内容(AIGC)终于从量变走向质变。随着大型语言模型的不断研究和落地,图像生成、视频生成、语音生成、数字人等场景应用都会逐渐普及。

司马华鹏还补充道,不同于以前的单一模态模型,未来,多模态的模型将会不断出现。“类似于人类的五官,人工智能也将模仿人类的视觉(CV)、听觉(ASR、TTS)、大脑(NLP)、形象(数字人)等方面,这些方面会有机结合并自然地与人类进行紧密交互。”

百度集团股价在发布会开始后出现下跌,跌幅一度达到9%。截至收盘,百度跌幅为6.36%,报125.1港元,总市值3458亿。

“这可能是对这场发布会失望情绪的一个体现。”一名人工智能行业创业者向南方财经全媒体记者表示,发布会上没有实时演示,结束后并未全面开放体验,且目前只是公开了一个测试版本。“这些都与市场的预期有很大差距。”他直言。 

AI市场即将迎来爆发性需求增长 

尽管文心一言未达业内预期,李彦宏亦承认其发展远未完善,但不可否认其在引领产业变革上的重要性。

“AI市场即将迎来爆发性的需求增长。”李彦宏指出,自2月份百度官宣“文心一言”以来,已有超过650家企业宣布接入文心一言生态。

他在会上预测,大语言模型将带来三大产业机会:新型云计算、行业模型精调和应用开发。 

云计算方面,其主流商业模式从IaaS变为MaaS。文心一言将根本性地改变云计算行业的游戏规则。之前企业选择云厂商更多看算力、存储等基础云服务。未来,更多会看框架好不好、模型好不好,以及模型、框架、芯片、应用这四层之间的协同。 

行业模型精调方面,这类公司是通用大模型和企业之间的中间层,他们可以基于对行业的洞察,调用通用大模型能力,为行业客户提供解决方案。这方面,百度文心大模型已经在电力、金融、媒体等领域,发布了10多个行业大模型。 

应用开发方面,李彦宏断言,对于大部分创业者和企业来说,真正的机会并不是从头开始做ChatGPT和文心一言这样的基础大模型,这很不现实,也不经济。基于通用大语言模型抢先开发重要的应用服务,这可能才是真正的机会。目前,基于文本生成、图像生成、音频生成、视频生成、数字人、3D等场景,已经涌现出很多创业明星公司,可能就是未来的新巨头。 

东方证券认为,随着文心一言的首批生态企业应用逐步落地,百度将建立起开发者及用户调用和模型迭代之间的飞轮,加速构建开放繁荣的技术生态。 

同时,大模型的应用落地有望带来产业智能化变革。东方证券指出,目前,基础大模型距离大规模产业应用并成为产业基座还有很长的一段路要走,需要“大模型+接口平台+生态应用”三层协同共建来促进AI和产业共同发展。“未来几年是大模型的快速发展窗口期,相关的大模型算法、算力基础设施、下游B端通用应用软件和垂直行业领域都有望迎来加速增长。”

然而, 大语言模型的发展还处于初级阶段,关键技术仍有待进一步成熟与完善。司马华鹏指出,算法以海量数据为原料,在初始使用时,如不慎将有偏差的数据混入训练,无形中将影响算法运行结果,特别是在垂直领域,当训练数据量不足的情况下,很可能受到数据影响而导致模型给出错误的结论。同时,大模型、大数据、大算力是未来的发展趋势,早期投入的数据、算力等成本巨大,也是阻碍AIGC落地的重要方面。 

司马华鹏进一步补充,AIGC发展过程中,还可能产生内容审核、生成内容的版权问题不清、伦理及政策监管等风险,同样值得关注。“随着人工智能技术不断的进步和发展,人工智能生成的内容越发逼真,能够达到以假乱真的地步。虽然公司内部尽力做到防止产品或服务被不法分子乱用,但是对于可能被乱用造成的后果,仍然存在伦理与法律的风险,后续是否会出台 AIGC 作品相关知识版权或其他法律监管条款尚不明确。”他表示。

竞天公诚律师事务所合伙人袁立志也提出了谨慎对待人工智能所面临数据、技术和应用等多层面的风险。单就数据层面的风险而言,有数据来源不合法、收集使用数据未获个人同意、隐私数据泄露、数据质量缺陷、数据偏见、数据投毒、数据逆向还原等,这些风险既需要通过技术措施解决,也是法律合规关注的重点和难点。

(作者:冯恋阁,郭美婷 编辑:吴立洋)

郭美婷

记者

数字经济观察者,聚焦数据产业、数据基础制度、个人信息保护等。欢迎探讨交流!微信:gmt_lalala2017