这是OpenAI努力扩展深度学习的最新里程碑。
编者按:1956年,人工智能(AI,Artificial Intelligence)的概念首次提出,迄今已逾六十载。60年来,AI历经了从爆发到寒冬、再到野蛮生长的历程,伴随着人机交互、机器学习等技术的提升,AI成为了技术时代的新趋势。
2022年,AI行业再度迎来新的节点,人工智能生成内容(AIGC,AI Generated Content)后来居上,以超出人们预期的速度成为科技革命历史上的重大事件。无论是“AI画师”DALL-E2,还是“万能陪聊”对话机器人ChatGPT,生成式AI正在迅速催生全新的科技革命系统、格局与生态。
时针转至2023年,由AIGC引发的热度不减反增,而全新的智能创作时代在带来深刻生产力变革的同时,也将进而改变人类的思想演进模式。就此,21世纪经济报道数字经济课题组策划了“逐浪AIGC”系列报道,多维解读AIGC带来的技术可能和商业图景。
21世纪经济报道记者杨清清 北京报道
“见证历史了。”看到GPT4的发布后,有多位业内人士感叹道。
3月15日凌晨,OpenAI发布了多模态预训练大模型GPT-4,这也是其大型语言模型的最新版本。
与此前的版本相比,GPT-4具备强大的识图能力,文字输入限制也提升至2.5万字;GPT-4的回答准确性也显著提升,还能够生成歌词、创意文本从而实现风格变化。同时,GPT-4在各类专业测试及学术基准上也表现优良。
“这是OpenAI努力扩展深度学习的最新里程碑。”OpenAI介绍,“GPT-4是一个大型多模态模型,它接受图像和文本输入、进行文本输出,虽然在许多现实场景中它尚且不如人类,但在各种专业和学术基准上表现出与人类相当的性能。”
震撼发布
从整体而言,GPT-4实现了多重能力的跃升。
OpenAI介绍称,在日常对话中,GPT-4与GPT-3.5之间的差距或许微妙,但当任务复杂度足够高的时候,GPT-4将具备更可靠、更具创造性的特点,且能够处理更细致的指令。
例如,根据OpenAI公布的实验数据,GPT-4通过模拟律师考试且分数在应试者的10%左右。相较之下,GPT-3.5版本大模型的成绩是倒数10%。
需要注意的是,相较于此前的GPT模型而言,GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示,用户同时输入文本和图像的情况下,它能够生成自然语言和代码等文本。
目前在官网上,OpenAI已经给出了一系列相关案例。例如,在以下输入图片并设问“这些图片有何可笑之处?请逐一描述。”GPT-4便会在对每张图片进行表述后表示,“这幅图的幽默之处在于,把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。”
除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等。此外,在多语种方面,GPT-4也体现出优越性。在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能,其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中,GPT-4能够达到80.1%的准确性。
与此前的GPT模类似,GPT-4基础模型可在训练完预测文档中的单词。在数据样本方面,也同样使用公开可用的数据及许可数据。为了提升基础模型回应与用户之间意图的匹配性,OpenAI同样选择了强化学习人类反馈(RLHF)来微调模型行为。
不过,OpenAI指出,在模型训练方面,GPT-4建立了可预测扩展的深度学习栈。通过开发基础设施及优化,在多种规模下都可进行预测。为验证其可扩展性,团队提前准确预测了GPT-4在内部代码库上的优化指标,但使用的计算量仅为万分之一。
尽管GPT-4功能强大,但同时OpenAI也坦言,与早期GPT模型类似,GPT-4也具备局限性。GPT-4依然会形成推理错误,因而在使用语言模型输出时需要非常小心,最好以人工核查、附加上下文或避免高风险使用的方式予以辅助。
“GPT4的模型发布,本身是技术持续升级迭代发展的必然阶段。AI行业每一年都会有些新模型发布,趋势就是大模型、多模态。”在接受21世纪经济报道记者采访时,IDC中国研究总监卢言霞表示,“多模态肯定是必然趋势,毕竟AI要真正达到人的智慧,需要处理多模数据。且在各行业场景里,大都是涉及多模态数据的处理。”
已在必应中应用
从商业应用角度而言,目前GPT-4没有免费版本。
不过在GPT-4发布后,OpenAI也直接升级了ChatGPT,目前,GPT-4的访问权限仅面向ChatGPT Plus的付费订阅用户及企业和开发者开放。
想要访问GPT-4的API,用户可以注册等待,OpenAI将邀请部分开发者进行体验。
此外,在GPT-4发布后,微软方面则宣布,目前全新必应预览版中已经搭载了定制版本的GPT-4。
“如果您在过去五周内的任何时间使用过新的必应预览版,那么您已经体验过这个强大模型的早期版本。”微软表示,“随着OpenAI对GPT-4及更高版本进行更新,必应将从这些改进中受益。”
事实上,GPT-4的应用空间还是颇具想象的。目前,微软已经将 ChatGPT 整合进云平台Azure Open AI 中,企业和个人开发者均可借助Azure
Open AI功能直接集成到应用产品中,通过私人定制ChatGPT来提供个性化客户服务,建立企业级智能化知识库搜索引擎等。
“微软有望在产业中通过 GPT-4 不断拓展下游新兴领域,应用于更多的场景中,并利用其多模态模型成本改变传统AI客制化与定制化的特点,逐步向通用化方向发展。”华鑫证券计算机研究团队分析称。
浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林在接受21世纪经济报道记者采访时评论称,GPT-4的核心能力提升体现为基本智能水平提升、多模态模型方面,后者意味着对文字互动形式的突破,识别能力扩展至图片领域。
在商业落地方面,盘和林指出,GPT-4一经发布,支付渠道就出现了拥堵,用户热情是足够的,“这也就意味着当前OpenAI实际上没有商用落地的忧虑,这款产品已经可以实现变现。”
此前有业内观点认为,GPT-4的发布有望成为生成式AI向超级AI快速演变的关键节点,而此次GPT-4真正亮相后,也引爆了业内讨论。
“GPT-4和GPT-3的主要区别在于模型的规模和能力,其多模态的模型超出文本范围实现了对图像乃至视频的AI生成,同时突破生成文本的语种限制,实现多语种语言数据的输入输出。”华鑫证券计算机研究团队表示,“这是一场伟大的变革,AI可干的事越来越多,也许未来它将成为人类得心应手的工具。”
(作者:杨清清 编辑:张伟贤)
21世纪经济报道及其客户端所刊载内容的知识产权均属广东二十一世纪环球经济报社所有。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。