21世纪经济报道 记者郑雪 北京报道
开源还是闭源,对于人工智能企业而言,是个问题。谷歌、Open AI打得火热之际,Meta则凭借高调开源Llama 2,重回人工智能大模型的前列。
可以看到的是,一段时间以来,国外人工智能的开源动作频频。谷歌旗下的DeepMind在官网发布了Open X-Embodiment 数据集和 RT-X 模型;微软则与开源模型库公司Hugging Face达成深度技术合作,扩大了ONNX Runtime的支持范围。国内来看,监管表态和相关政策文件鼓励支持人工智能开源;实践中,以高校和科研机构为代表的人工智能模型开源步伐较快。
大模型竞赛中,开源、闭源之战才刚开始。
谷歌、微软发力开源
人工智能竞争在全球激烈竞争,开源成为一股不可忽视的潜在力量。
如何理解开源?具体来看,开源多以开放源代码为主,多适用于软件。以开源的方式,通过集体协作和共同智慧以推动创新。针对开源的商业使用、知识产权、分发等问题,多通过开源协议进行约束。
值得一提的是,人们在AI领域的开源和闭源选择上存在着分歧。对于人工智能来说,什么是开源(Open Source)仍然模糊,模型权重、收集数据的方式、训练软件、推理代码等,同时对于庞大而精细的人工智能而言,一般人知之甚少,如何开源、哪些内容可以开源、开源到何种程度等问题等仍有待实践回应。
人工智能发展实践中,不少企业纷纷试水开源。前有Meta高调发布开源大模型LLaMA的商用版本,通过“放手一搏”重回人工智能前列位置;后有谷歌、微软等纷纷开源应对。
近日,谷歌旗下的DeepMind在官网发布了Open X-Embodiment 数据集和 RT-X 模型。据介绍,通用机器人模型RT-X由控制模型RT-1-X和视觉语言动作模型RT-2-X组成。RT-X在特定任务(搬运东西、开窗等)的工作效率是同类型机器人的3倍,同时可执行原始数据集中不存在的额外技能。
其中,构建多样化机器人演示的数据集是训练通才模型的关键步骤,Open X-Embodiment 数据集也随之开放。据介绍,这是迄今为止最大的开源真实机器人数据集,通过汇集 60 个现有机器人数据集构建而成。它包含超过 100 万条真实的机器人轨迹,涵盖 22 个机器人实施例,展示了 527 项技能(160266 项任务),从单机器人手臂到双手动机器人和四足机器人。
对于微软而言,开源动作则选择与Hugging Face携手。Hugging Face是一家开源模型库公司,凭借 Transformers 模型库和活跃的人工智能社区得到关注,被认为是开源替代ChatGPT中最具实力的一员。有媒体报道称,8月末Hugging Face上的预训练模型数量已增长到了超过30万个。
微软已与Hugging Face达成深度技术合作,扩大了ONNX Runtime的支持范围,支持90多种架构的大模型,包括Llama、(类ChatGPT大语言模型)、Stable-Diffusion(扩散模型)、BERT、T5、RoBERTa等,当下最流行的11种大模型。
何以开源让科技企业和相关从业人员着迷?通过开放、透明、共享以及创新等,带来未来生态构建的想象。正如Meta在其官网文章中表示,“我们相信,开源的方法是当今人工智能模型发展的正确途径,尤其是在技术进步日新月异的生成式领域。”
国内开源迈向何处?
开源还是闭源,无关乎好坏。最典型的代表当属移动互联网时代诞生的苹果系统和安卓系统,前者闭源,其给予用户非同寻常的体验和感受,收获大批用户;后者则依靠开源拿下手机市场的半壁江山。
中国人工智能大模型的开源发展如何?根据《中国人工智能大模型地图研究报告》(以下简称《报告》)显示,开源开放是人工智能研发协作的重要模式,也是中国人工智能发展重要理念。中国大模型研发团队积极推进大模型开源发展,目前已经有超过半数大模型实现开源。北京、广东、上海三地开源数量和开源影响力均居国内前三。
目前来看,国内商业力量在人工智能模型的开源建设上表现略为平淡。其中不仅有商业因素方面的考量,人工智能大模型的开发是典型的“大力出奇迹”的代表,对于公司资金等综合实力要求较高,在人工智能商业化前景仍在探索时期的企业而言,是否开源仍值得考量。同时,开源人工智能如何确保安全、如何厘清相关责任义务仍有待学界和业界探索。
正如《报告》显示,目前大模型开源更多是高校和机构在推动,如清华大学的ChatGLM-6B、复旦大学的MOSS已形成较高的模型开源影响力。
不可否认的是,仍有相关商业力量助力开源。如《报告》指出百度的文心系列大模型已形成较高的模型开源影响力。又如开源动态人工智能的开源社区建设方面, 2022年云栖大会杭州上,阿里达摩院联手中国计算机学会(CCF)开源发展委员会共同推出魔搭社区 ModelScope,累计开源包括阿里通义大模型系列、澜舟科技的孟子模型、智谱AI的中英双语千亿大模型等15款支持中文的开源大模型。
相关政策文件和监管表态也在不同程度上表态要鼓励开源。
2017年,《新一代人工智能发展规划》印发,提到开源开放的基本原则。其中表示要倡导开源共享理念,促进产学研用各创新主体共创共享。
今年5月的2023中关村论坛上,科技部副部长吴朝晖在致辞中倡议坚持开源协作,加强大模型技术持续创新,协同解决透明性、稳定性等共性问题,进一步推动算力资源和数字资源开放共享,加快形成大模型的产业生态。
今年7月,在2023世界人工智能大会科学前沿全体会议上,科技部战略规划司司长梁颖达表示,提出构建开源开放的创新生态,鼓励人工智能技术开源发展,建立高水平的开源开放生态体系,共创人工智能前沿成果。
(作者:郑雪 编辑:吴立洋)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。