中国会有自己的ChatGPT吗?
南方财经全媒体见习记者 冯恋阁 21世纪经济报道记者 郭美婷 广州报道
编者按
“人工智能从你出生那天就认识你,读过你所有的电子邮件,听过你所有电话录音,知道你最爱的电影……”尤瓦尔·赫拉利在《未来简史》一书中描述了这样一种未来景况:人工智能比人类更了解自己。
步入人工智能时代,人类的生活习惯和生产方式正在被重塑,科幻和现实渗透,惊喜与担忧交加。人与机器的未来是一场亲密的合作还是激烈的战争?机器会将人类的智能拓展到什么样的边界?
1966 年,世界上第一个聊天机器人“Eliza”被创造。能够与人对话的机器,从人类的幻想走进现实。然而,彼时的Eliza只能通过对关键字扫描和重组,与使用者进行简单的对话。
五十余年后,ChatGPT出现。一问一答间,除了聊天,它还能帮助用户编故事、写诗、写总结年报、写论文、改代码……甚至有用户一步步引导教会了它如何编程。在此之前,聊天机器人平台Character.AI也曾因其可根据用户需求“定制”人物并与之聊天引起关注。
然而,热潮背后,这类聊天机器人的未来却仍有许多问题等待追问:这项技术如何落地?产业将向何处发展?最重要的是,这类人工智能,未来会为人类带来什么?中国会有自己的ChatGPT吗?
起底ChatGPT
“人们陷入了疯狂的‘ChatGPT’循环。”
在ChatGPT发布2天后,人工智能研究实验室OpenAI的创始人之一马斯克就发出了上述感叹。
据悉,这款由OpenAI在11月30日发布的全新聊天机器人,是基于大型语言模型GPT-3.5(Generative Pretrained Transformer,GPT)构建的自然语言处理 (NLP)模型。它的主要功能是作为用户的人工智能助手,帮助用户解决问题。OpenAI联合创始人兼首席执行官表示,在ChatGPT发布的一周之内,有超过一百万的用户尝试了这个线上工具。
事实上,这并不是聊天机器人在今年首次引起讨论。一个月前,人格化聊天机器人平台Character.AI的出现也曾为用户带来惊喜。与ChatGPT只有单一的“人设”不同,Character.AI可以根据用户给定的人物背景知识,创造出一个人物与使用者对话。这个平台上的聊天机器人从上帝、马斯克到某个用户灵感乍现自定义的角色,无所不包。目前该网站上较受欢迎的角色对话次数已超过百万。
“ChatGPT在问答间展现出的逻辑、思考、想象和创意等能力,颠覆了用户的认知。”硅基智能科技有限公司CEO司马华鹏认为,惊人之处在于,一些复杂问题的解决是需要数年的学习和锻炼,AI却几秒即成。“以ChatGPT回答问题的类型为例,它可以帮助进行代码纠错,甚至可以对编程问题给出具有实操性的意见,这意味着它具有足够的知识储备和推理能力;此外,开放性问题难不住ChatGPT,若提问者有需求,诗歌、文章、剧本信手拈来。”他说道。
这与其在技术上的长期积累息息相关。清华大学计算机科学与技术系副教授黄民烈介绍,Character.AI、ChatGPT都是依托大数据、大模型训练的大型语言模型,这是近年来的研究主要方向,有一定的技术积累。此外,ChatGPT在训练方式上的创新也值得被注意。
OpenAI在对ChatGPT的训练中采用了新的训练方式——“来自人类反馈的强化学习”(Reinforcement Learning from Human Feedback, RLHF)。简单来说,人类AI训练师会分别扮演用户和AI助手进行对话,将对话记录提供给模型学习。而AI 在学习完成后生成的答案会在后台进行人工排名和评级,并重新反馈到系统供模型进行下一步的训练。这使其输出的内容能够更完整,也更具有逻辑。
第三代聊天机器人
ChatGPT大火,让市场看到了聊天机器人更多可能。
1966年,第一代聊天机器人问世,依托代码生成的规则运行,仅仅通过提取关键词并以固定方式重组与人对话(简单的特点),这一阶段持续到了2010年;2011年,人类迎来了以机器学习技术为核心的第二代聊天机器人,比如手机智能助手;2016年后,深度学习风起,大数据、大模型开始登上聊天机器人的历史舞台,这一时期聊天机器人开始拥有了强大开放域对话能力。相应地,人们对聊天机器人的期望也从解决单一的领域问题,走向应对通用、多元的场景需求。
ChatGPT和Character.AI正是这种期待下的产物。
第三代聊天机器人有哪些应用场景?黄民烈认为,参照Character.AI和ChatGPT的不同特点,第三代聊天机器人可简单分为通用人工智能任务助理和情感类聊天机器人两类。
其中,通用人工智能任务助理旨在帮助使用者解决各种问题。
在体验ChatGPT后,人们很快发现它在信息检索和汇总方面表现亮眼。“这将可能改变搜索引擎市场的游戏规则。”司马华鹏认为,ChatGPT相比传统的搜索引擎,具有交互轮次多、理解能力强、组织答案有逻辑等优势。
此外,国盛证券研究报告指出,ChatGPT展露出更强的赋能其他工作的潜力。换言之,比起之前的聊天机器人,当被问及具体的专业问题时,ChatGPT能够给出更流畅专业的回答。AI之间的合作也具有令人期待的前景。斯坦福大学计算机科学系的一位博士生就对此进行了尝试。他用ChatGPT完成了儿童故事的创作,根据故事情节挑选提示词输入AI绘画软件DALLE-2,生成了一本绘本。
“ChatGPT技术还可以应用到电商、社交等领域,以其强大的能力帮助使用者完成写故事、做文案等工作。”司马华鹏补充。
而情感聊天机器人也在逐渐走进人们的生活。这类机器人主要通过开放域聊天为用户提供情绪价值,比如闲聊陪伴、心理咨询等。 “聊天和消磨时光也是人类情感需求的一部分。” 黄民烈指出。
除了前文提到的人工智能平台Character.AI,近年来情感AI领域也有不少新尝试出现。
2017 年,Luka公司就发布了基于GPT-3模型的人工智能伴侣Replika,截至目前在全球拥有超过 1000 万个注册用户。根据Replika统计,2020年新冠疫情期间,其下载量急剧升高,月度下载量一度达到50万。
而在国内市场上,也已经有了一些情感机器人的尝试。小冰公司去年与华为合作推出了定制“虚拟男友”的短期项目,在一周内就有118万人尝试下载。今年,北京聆心智能科技有限公司推出了小程序“AI乌托邦”,用户可以在应用中自由创造不同的人工智能陪伴者。此外,情感聊天机器人还被认为可以助力心理治疗。聆心智能公司开发了心理治疗机器人“Emohaa”,掌握了心理学知识的聊天机器人能够为抑郁、焦虑的使用者提出缓解情绪压力的建议。
中国会有自己的ChatGPT吗?
聊天机器人带给人类未来无限遐想。然而,多位受访专家向记者表示,当前,该领域的发展仍需克服技术、资源等问题。
在技术上,即使神奇如ChatGPT,也有难以被忽视的功能缺陷。有时它可能会很有逻辑地组织答案,但提供的事实是错误的。此外,在问答中,如果对不适合的问题做一些细微的变动和修饰,提问者将可以绕过用以警告和拦截不安全内容的Moderation API,诱导它给出惊人的回答。
“这是生成式模型技术上的固有的弊端。” 黄民烈解释,一方面是由于训练数据集本身包含的信息偏置,另一方面,可能是模型在训练时更多强调数据本身的统计关联,对背后的因果、影响缺少了解。实际使用中可以针对特定的场景和需求不同的错误容留度,做更为细化的调整。
技术问题的解决,有赖于数据资源、算力资源和资金资源的支持。
国盛证券的研究报告显示,ChatGPT的出现,意味着数据和算力在人工智能领域的重要性被再次强化和提升。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB,到了GPT-2,这个数据则增加至40GB,然而GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB。GPT-3有1750亿个模型参数,而2018年发布的GPT-1中仅有1.17亿参数量。数据量的增多无疑会影响到算力消耗,2020年,OpenAI与微软签订了战略合作协议,让GPT-3可以在微软Azure AI超算基础设施上进行训练。
不过,根据OpenAI官网,此次ChatGPT的训练模型相比GPT-3的参数量有所减少,只有13亿个。
“ChatGPT削减了一部分的数据量,可能是将余下的数据做了更好的优化,以及加入了人类反馈调节的奖励系统。”司马华鹏直言:“一味堆叠数据量的时代可能已经过去,能够完成数据闭环、有着优秀的数据自处理能力的企业将在未来AI模型发展的过程中更加受到青睐。”
聊天AI模型的建立、训练和维护,无疑都需要投入大量资金成本,这也是产业发展需要面对的难题。
人工智能公司AI21 Labs 2020 年的一项研究表明,开发一个只有 15 亿个参数的文本生成模型的费用可能会高达 160 万美元。此外,OpenAI官方表示,ChatGPT表示实际运行成本其每次对话大概成本在几美分左右。
2021年底,OpenAI获得了2.5亿美元的A轮融资,其投资方包括微软、马斯克、谷歌风投等。"只有大科技公司和资金极其充足的初创公司才能玩这个游戏。"AI投资公司AI2 Incubator的技术总监此前公开表示。
然而,所有对诗和远方的讨论,最终都要落归脚下。ChatGPT掀起的大潮之下,不禁有人发问:中国未来会有自己的ChatGPT吗?
“我认为国内的数据和市场都包含潜在的机遇和挑战。”黄民烈表示,中文大型语言模型,必须用大量高质量的中文数据进行训练,但这并不容易。
一方面,国内有很多开源的中文大模型,但是这些模型还没有被广泛地用起来,数据和模型的之间的闭环没有建立。另一方面,数据的开放和共享在中文方面显得相对闭塞,也阻碍了大家一起推动这个方向的发展。
“这些问题的解决需要更多的用户参与和数据积累,”他说。“但这些问题的解决也正是我们拥有的机遇。”
(作者:冯恋阁,郭美婷 编辑:吴立洋)
21世纪经济报道及其客户端所刊载内容的知识产权均属广东二十一世纪环球经济报社所有。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。