21世纪经济报道记者李览青 上海报道
在软件开发领域,每当一项新技术横空出世,“开源”和“闭源”,是摆在大厂面前的两条技术路径。
大模型时代亦是如此。开源降低了数据处理与技术开发的门槛降低,但更高投入、更为封闭的闭源模型往往能带来更好、更专业的开发效果。
在今年大模型浪潮中,据21世纪经济报道记者了解,在金融机构探索大模型技术的过程中,都尝试基于已有的大模型开源框架再进行指令微调,以快速实现任务部署,但在生成式AI监管与数据安全保护趋严的背景下,也遇到多方问题。而自主研发的大模型需要的巨额投入往往令人望而却步。
在国内正式对外发布的金融大模型中,除了度小满“轩辕”金融大模型,其他金融大模型全部是闭源大模型。而在通用大模型领域,大厂、创业机构、学界的开源大模型生态在加速形成。
对于金融大模型而言,开源与闭源技术路径如何选择?
“Llama2时代”落幕?
“Llama2作为一个开源模型的时代已经过去了。”9月,百川智能宣布开源升级微调后的Baichuan2大模型,其创始人王小川表示。
Llama2的开源可商用掀起了今年年中大模型应用开发的浪潮。
今年7月,几乎在同一日,有两则来自大厂的消息加速了大模型及应用商业化落地:一个是微软宣布Microsoft 365 Copilot定价,这一“GPT版”Office的全面商用将微软股价推升至历史新高;另一个则是Meta宣布免费将旗下大模型Llama2提供给微软Azure云计算平台上的软件开发者。
“虽然二级市场可能对微软定价公布很激动,但对于大多数开发者对Llama2的开源可商用更兴奋。”彼时,一位投资分析人士向记者表示,这意味着大模型应用进入“免费时代”。
但由于Llama2的中文训练语料不足,其在中文问题上表现仍有缺陷,更重要的是,Llama2的商用协议声明“仅适用于英文为主的环境”,这意味着基于Llama2的中文商用大模型拿不到开源协议。
如今国内大模型开源生态正在加速形成,从代码大模型开源、通用大模型开源到垂直行业大模型开源,覆盖大模型全产业链。
通用大模型方面,除了Baichuan2,阿里云通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat已正式宣布开源,上海人工智能实验室联合商汤科技、复旦大学、香港中文大学推出的“书生·浦语”(InternLM)大模型也已实现开源。
代码大模型领域,蚂蚁集团在外滩大会上宣布开源代码大模型CodeFuse。
在金融领域,今年5月,度小满宣布开源国内首个千亿参数的金融大模型“轩辕”,9月22日,度小满宣布将升级后的“轩辕70B”金融大模型开源,同步在社区开源50G高质量金融语料。据度小满CTO许东亮公开表示,在增量预训练和指令微调阶段,金融数据有所增加,在预训练阶段,模型上下文长度扩充到8k,能够处理更长的金融报告、研究和分析。
技术普惠与开发共创
源代码开放与信息共享,推动了移动互联网的“安卓时刻”。
谷歌是开源生态的一大受益者,正是安卓系统的开源使得众多开发者涌入谷歌体系进行应用开发,帮助安卓系统打败除苹果以外的众多手机厂商,拿下市场大半江山。
而开源生态的加速形成也被视为大模型时代“安卓时刻”的来临,对于机构探索金融大模型而言,开源模型的价值在于降本增效。
“可以说通用开源大模型是技术底座,可以用的我们都尝试过了,哪个好用就用哪个,选好大模型基座以后加上金融语料做预训练,然后在场景实现落地。”有金融机构科技部门负责人表示,其落地场景下的大模型应用主要是基于开源大模型。
据记者了解,在生成式人工智能监管趋严之前,上半年金融机构主要尝试接入的金融大模型是彭博的BloombergGPT与开源的金融大模型FinGPT,同时也探索了通用大模型在金融垂直领域的微调与预训练。
浙商证券金融工程分析团队在一份研报中指出,与闭源的BloombergGPT相比,FinGPT有训练成本低、数据与模型平民化、端到端系统架构等三个优势。
一方面,金融行业是高度动态的,信息和数据以较高频率更新。BloombergGPT 的定期训练成本非常昂贵,因此轻量级适应在金融领域非常有利。FinGPT 可以快速微调以与新数据保持一致,而不是随着金融环境的每一次重大变化从头开始重新训练模型,估算每次训练不到300 美元。
其次,BloombergGPT需要特权数据访问与API接口,而通过FinGPT可以优先考虑模型的轻量和适应性,仅需基于开源大模型输入金融数据进行微调。
最后从系统架构来看,FinGPT的“数据源层、数据工程层、大语言模型层、应用层”系统框架实现了从信息端到投资端的全流程应用。
但在基于开源大模型训练过程中,除了算力,最为突出的问题是高质量数据。“当数据量到达一个程度,大模型确实能够实现能力的涌现,但首先要有这些优质数据。”一位基金信息科技部负责人坦言,在开发侧,要让代码生成可用,需要超过30个优质金融项目代码,但很多机构很难做到。
在这一背景下,对于大厂而言,通过开源可以通过开发者实现技术的共创与变革。在宣布代码大模型“Codefuse”开源时,支付宝小程序云负责人李铮表示,只有将整个技术开源,与社区对接,让更多人使用它,才能解决整个软件研发领域各个环节的问题。“整个代码大模型还在初步阶段,写代码是没有问题的,而且整体能力还在不断提升,但真正解决软件工程问题还有很长的路要走,我们抱着开放的心态与大家共同提升。”
监管趋严下的路径探索
在《生成式人工智能服务管理办法》出台后,传统金融机构对境外开源大模型的使用愈发谨慎,逐步转向基于境内开源大模型应用。
有采访对象向记者提到,短期内用Llama2或者BloombergGPT可以部署一些简单的小任务,但再往前走,还是需要训练自己的基础模型,或者采用符合国内监管标准的大模型。
据记者调研,目前金融机构的选择路径包括两个方面,一种是与大模型厂商联合共创,私有化部署基于金融大模型的模块应用;另一种是接入金融大模型产品,实现部分业务的智能化工具应用。
一位大行云计算方面专家提到,据其走访发现,一线开发人员在实际编码工作中的痛点主要有三个方面。首先,对于不熟悉编码模式、规范的新员工而言,在不知道如何实现代码编码时,缺乏优质、可复用的标准代码作为提示。其次,在开发出现问题时,由于行内研发环境与互联网环境不互通,开发人员无法及时查找到标准参考案例与相应解决方案。此外,开发人员还会面临复杂度较高、耗时较长的问题,部分老旧代码由于缺少注释,维护也比较困难。
因此该行在内部启动智能研发建设,将代码推演预测、代码自动生成、代码检索复用等企业及能力用IDE插件形式进行整合,逐步在开发中心内部推广。“GPT-4技术带来了大量编码阶段的交互式辅助编程能力,未来将颠覆编码体验。”他表示,由于行内信息安全要求,该行基于联合创新机制在探索新的大模型能力。
应用接入层面,据公开信息显示,度小满开源的“轩辕”金融大模型已有上百家金融机构申请试用;9月25日,恒生电子宣布已面向20家金融机构开启金融大模型“LightGPT”内测;而蚂蚁集团向B端金融机构痛的AI业务助手“支小助”也已与合作机构开启内测共建。
(作者:李览青 编辑:曾芳)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。