AI大模型的发展需要开源生态。
21世纪经济报道记者白杨 北京报道
9月6日,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,并且均为免费可商用。
今年4月,王小川在离开搜狗一年半后创办了百川智能,开启了新的创业征程。王小川说,百川智能刚成立时,原计划是今年三季度发布500亿规模参数的模型,四季度发布对标ChatGPT 3.5的模型,在明年一季度发布超级应用。
但在6月份,王小川看到中国市场存在做开源模型的需求。6月15日,百川智能发布国内首款开源可免费商用的70亿参数量大语言模型Baichuan-7B;7月11日,百川智能又发布了参数量130亿的大语言模型Baichuan-13B以及对话模型Baichuan-13B-Chat。
据王小川透露,Baichuan-7B、Baichuan-13B这两款开源大模型目前的下载量已经突破500万,其中近一个月的下载量突破了300万。除开发者之外,也有200多家企业申请部署开源大模型。
而百川智能这次发布的Baichuan2-7B和Baichuan2-13B,均基于2.6万亿高质量多语言数据进行训练,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。
其中,Baichuan2-13B相比上一代13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
王小川表示,Baichuan2-7B和Baichuan2-13B两个模型在MMLU、CMMLU、GSM8K等几大权威评估基准中,以绝对优势领先LLaMA2。其中,根据MMLU等多个权威英文评估基准评分,Baichuan2-7B以70亿的参数在英文主流任务上与130亿参数量的LLaMA2持平。
在国际市场,OpenAI和谷歌都选择了闭源来保证自家大模型的优势地位,而Meta率先走上了开源的道路。LLaMA开源后,迅速吸引了大量开发者,基于LLaMA开发的很多产品,也已经能够达到匹敌GPT3.5的性能。
但王小川指出,LLaMA的开源存在一些弊端,首先是如果用户超过7亿,就不提供开源支持,另外就是LLaMA开源仅适用于以英文为主的环境,如果开发者做的模型更多是使用中文场景,那也拿不到开源协议。
而百川智能想做的,就是弥补中国开源生态的短板,让中国开发者能够用上对中文场景更友好的开源模型。王小川说,“Baichuan2开源模型发布之后,用LLaMA2作为开源模型的时代就已经过去了。”
另外值得关注的是,百川智能这次在发布开源模型的同时,也公开了Baichuan 2的技术报告。该报告详细介绍了Baichuan 2 训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。这也是国内首次有公司选择公开这样的训练过程,它将帮助更多大模型学术机构、开发者和企业用户更深入了解大模型训练过程。
除了开源产品外,8月初,百川智能还发布了闭源大模型Baichuan-53B,这意味着百川智能已完成了“开源+闭源”大模型并行布局。8月31日,百川智能通过了《生成式人工智能服务管理暂行办法》备案,可以正式面向公众提供服务。
(作者:白杨 编辑:骆一帆)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。