大模型重塑金融业态报告③丨金融大模型重塑数据开放生态

智慧金融观察李览青,杨梦雪 2024-02-19 19:05

此篇为报告第三部分《金融大模型重塑数据开放生态》

摘要:“大模型”无疑是2023年最热的关键词之一,随着大模型概念的崛起和广泛传播,金融行业因被视作最优落地场景也同步掀起了一轮热潮。大模型究竟会给金融行业带来什么?它会在何种程度上重塑技术和业务,会衍生出怎样的商业价值?21世纪资管研究院调研了三十多家金融机构和科技公司相关负责人,形成了这份《大模型重塑金融业态报告》,通过梳理机构布局情况以及这些领军者们的观点,描绘行业发展趋势。

21世纪资管研究院研究员李览青、杨梦雪

谈及大模型与小模型的差别,基于巨量参数规模的“暴力美学”屡屡被提及。然而,在强依赖数据的大模型时代,数据积累最为丰富的金融行业却面临着优质语料规模不足的痛点。

数据的质量与应用效率直接关系着数智化转型的成败。当数据成为第五大生产要素,数据要素的开放共享与数据资产价值的挖掘,正在将金融机构的数智化转型推向新的阶段。

为了实现大模型能力应用,金融机构开始重新梳理自己的企业级知识库,主动提高数据质量,加强内部生态协同。同时,大模型带来的“后NLP(自然语言处理)时代”进一步提高了金融机构数据应用的能力。

在相关监管部门、行业组织的引导下,合规背景下公共数据开放生态与金融行业数据共享生态正在建立。

三大问题推进金融行业进入数据治理新阶段

与传统基于小参数、大数据标注、模型配置的AI不同,基于Transformer架构的大模型浪潮的一大特征能力是“涌现”。当高质量语料库训练至少达到百亿级参数时,大模型的语言能力将会涌现,而意图理解、文本语言生成等方面的能力也将随着参数增加达到顶峰。

但在金融机构实际探索应用的过程中,训练语料的规模与质量成为一大难题。有基金科技部门负责人指出,在代码自动生成场景下,基于现有模型,仅仅是让代码生成可用就需要提供20-30个非常好的项目代码,更别提让代码实现能力涌现。一位银行科技部门人士也表示,基于通用大模型的微调,需要基础大模型数据量的20%,才能使得智能涌现,以1000亿token参数规模的大模型微调为例,需要1000万篇专业性万字长文。

在金融领域实现大量优质数据语料的汇集,显然不是某一家机构或厂商可以完成的。

在21世纪资管研究院的调研中,“割裂”是出现最多的一个关键词。一方面,在金融机构内部,大量的非结构化数据囤积于垂直业务部门,难以打通利用;另一方面,在不同机构、厂商、平台之间,数据生态的割裂导致用于训练的语料不足,特别是在专业知识领域的生态体系尚未建立。

传统人工智能的数据赋能,被业内戏称为“有多少人工才能有多少智能”,依托于人工标注、清洗数据,通过“打点”、“画框”辅助机器学习,使得金融机构在结构化数据分析、挖掘方面遥遥领先于非结构化数据。

然而,大模型最擅长处理的数据是文本、图像、音视频等非结构化数据,这也是金融机构在业务场景下积累最为丰富却较难利用的数据。

21世纪资管研究院梳理非结构化数据治理的难点发现,在金融机构的数智化转型过程中存在三个问题在大模型时代被进一步放大

第一,未能形成业务与技术一体化协同的组织机制,业务部门未能充分认知非结构化数据的价值,而科技部门对部分业务信息难以理解或充分解读,导致数据难以归集梳理;

第二,部分机构在基础设施架构中未能形成统一的平台架构,来支持业务部门非结构化数据的留存与进一步分析;

第三,金融机构在数智化转型成效评估方面存在难点的情况下,缺乏相应的激励机制,导致业务部门配合度不高。此外,由于金融行业是高度精准的行业,而大模型的“黑盒”问题导致其可解释性较差,需要大量专家对相关知识进行对齐

大模型快速检索、自监督学习等能力,降低了金融机构挖掘非结构化数据价值的门槛。在大模型加持下,NLP(自然语言处理)的封装门槛大幅降低,通过大规模的预训练与自监督学习,来提高模型的语言理解与生成能力,在文本分类、情感分析、问答系统、机器翻译、文本生成等场景下实现非结构化数据挖掘效率的提高。

不过金融机构已经意识到,数据治理层面的种种痛点,并非大模型时代特有的问题,而是自机构数智化转型伊始就存在的系统性问题,相比于新兴技术带来的焦虑,更重要的是在组织、战略、架构以及成本方面的挑战。

基于上述问题,新型数据治理阶段已开启。一方面,在数据资产梳理的基础上,金融机构加速建立企业级知识库,帮助各部门解决场景应用的难题,以提高业务应用的精准性。另一方面,金融机构应当更加重视数据资产的可持续运营,组织架构与数字化转型战略也需要相应的调整,来保障多方协同下的数据治理。

数据开放生态亟待形成

在金融数智化转型存在的固有问题以外,出于对数据安全、用户隐私、机构竞争等各方面考虑,金融机构之间的数据流通共享,成为限制行业大模型发展的最大因素。

“我们国家的数据生产量全球排名在第二名,但是分散在各个行业、各个组织中,整体的数据是分开的。但大模型所需要是将数据进行物理归集,在短时间内基于一定的算力与算法进行预训练。”某数据交易所人士谈到,金融机构一直是数据交易两端的需方角色,基于公共数据的场景应用较为丰富,但在安全考量下的主动开放还较为困难。

从金融机构的角度,多位受访人士提到,首先从成本角度考量,只有大型商业银行有足够的数据与资金实力运用新兴技术尝试各类应用落地;同时在信贷风控等领域,金融数据的规模与质量,直接关系着机构的盈利能力与竞争力。

从政策端,公共数据授权运营弥补了一部分金融行业数据供给不足的情况;同时在激励上,数据资源得以纳入资产负债表,为金融机构数据治理与行业内数据流动提供动力。

2023年,四川省金融科技学会与原中国人民银行成都分行营业管理部联合发布了《2023公共数据金融应用白皮书》,在国内首次聚焦公共数据面向金融领域的开放和应用问题。作为《白皮书》起草专家之一,四川省政协常委、西南财经大学金融学院教授、博导张晓玫告诉21世纪资管研究院,公共数据是一类特殊的数据要素,本身具有高权威性、高准确性、高价值性和高应用性特征,充分挖掘公共数据的金融应用价值已经成为金融行业的普遍诉求。因此,公共数据的开放对于推动大模型发展,尤其是金融大模型的发展具有非常重要的意义,公共数据金融领域的垂直模型也具有非常广阔的发展前景。

但值得注意的是,囿于数据安全和隐私保护等因素,目前开放给金融行业应用的公共数据多限于企业维度的数据,个人维度的数据较少,且我国推动公共数据金融应用工作的时间不算长,因而数据量严重不足。同时,目前已开放的公共数据远不能满足金融场景对于数据的精度要求和更新频率要求。而数据的量和质对于大模型训练的重要性不言而喻。

因此,在张晓玫看来,公共数据金融领域垂直模型的发展还非常初级,首先需要解决的就是数据端的问题。如何在公共数据开放和应用过程中充分保障数据安全和个人隐私,如何建立一套方便有效的公共数据质量管理体系,如何完善已有的公共数据配置机制,这些都是实践中需要优先考虑,并且亟待解决的问题。

目前在金融公共数据应用方面的公开探索,是北京金融控股获授权运营的北京金融公共数据应用专区,截至2023年11月汇聚公共数据超过50亿条,涵盖300多万个市场主体。数据要素开放共享方面,上海数交所金融板块也已初步建成,涵盖银行、保险、证券等业务场景。

另据了解,在监管指导下国有大行金融科技子公司有望承担起在可信可控框架内,整合银行业相关数据,为行业提供数据服务的工作,已有隐私计算服务商参与其中,实现数据的可用不可见。

在依法安全合规前提下,推动数据开放生态的形成,不仅为金融行业以数据驱动智能化服务提供土壤,更是推动数据要素在社会层面的优化配置。特别是在“数据要素x”行动下,发挥数据要素乘数效应实现金融行业的智能化跃升,将直接关系到金融服务实体经济的质量。

在这一命题下,金融行业呼吁进一步细分的数据收益分配机制、安全隐私保护规范,同时,有关部门需要加强基础设施建设,来保障数据资源的流通交易,从而实现整个价值链条的可信,推动形成更为开放的数据生态。

(作者:李览青,杨梦雪 编辑:方海平)

李览青

记者

专注金融科技领域报道,关注消费金融、第三方支付、大数据风控、债券、房企融资等。欢迎探讨交流!联系邮箱:lilanqing@sfccn.com

杨梦雪

记者/研究员

南方财经全媒体集团记者、21世纪资管研究院研究员。关注资管、信托、金融数字化转型等领域的研究和报道,欢迎沟通交流,微信:yangmx1208。