边鹏:面向金融业的平台大数据共享框架研究

董希淼2021-06-18 09:10

消费者在平台上产生的数据成为生产要素之后,作为一种生产资料,或者说作为一种资产,它产生的成果该如何分配?

边鹏:面向金融业的平台大数据共享框架研究

边鹏(管理学博士)

利用平台大数据有助于降低金融领域信息不对称,这一点得到学术研究的验证与肯定。但是,如何确保平台大数据在金融领域使用的合法性、合规性,仍存在诸多亟待解决的问题。本文综述了平台大数据对于提升金融业效率的主要研究,明确了我国政府将数据作为重要要素市场建设的政策方向,梳理出当前存在的问题,提出了API模式、数据库模式和工作站模式等三种共享框架,并比较研究了这三种框架方案。

一、平台大数据对于金融业提升效率具有重大意义

1961年斯蒂格勒研究了信息的成本与价格,以及信息对价格、工资和其它生产要素的影响。在保罗·罗默(Paul Romer,1990)、格罗斯曼和赫尔普曼(Gene M. Grossman & Elhanan Helpman,1991)提出的新增长理论中,将知识和技术对产出的贡献进行了研究,指出知识在经济增长中产生巨大作用。2019年5月17日,日内瓦世界经济论坛以“银行业的未来”为主题探讨BigTech对银行业的影响,国际清算银行(简称BIS)首席经济学家Shin在日内瓦世界经济论坛上发布工作论文,对使用电商平台的订单大数据来发放贷款产品进行了实证研究,验证了订单等大数据对金融业降低信息不对称、服务实体经济的成效,充分肯定平台大数据对实体经济的金融支持效率。经过多年来信息经济学的发展,2020年4月10日,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》分类提出了土地、劳动力、技术、数据五个领域改革的方向,明确了完善要素市场化配置的具体举措。2020年10月召开的十九届五中全会提出“要素价格市场决定、流动自主有序、配置高效公平”,为数据要素市场指明方向。

边鹏:面向金融业的平台大数据共享框架研究

二、平台大数据应用于金融业存在的问题

2021年我国已经开始实施的《民法典》,明确消费者在平台产生的数据属于消费者与平台共同所有,为金融业共享平台大数据奠定了法律基础,但也引出了超授权使用、利益分配、数据保护和技术完备性等难题亟待解决。

(一)超授权使用问题:法律已经重塑数据权属关系,但消费者如何有效行使自身权利?

平台方在跨平台加工利用消费者数据时,过去不向消费者明示数据权益甚至让消费者干脆不知情的做法是难以为继的。消费者产生的数据存储在平台本身并不是问题,超授权使用甚至非法使用这些数据才是问题。但是如果频繁授权,也可能导致消费者被过度打扰。

(二)利益分配问题:经济学对数据要素的界定引发利益分配问题,消费者和平台如何共建数据要素市场?

消费者在平台上产生的数据成为生产要素之后,作为一种生产资料,或者说作为一种资产,它产生的成果该如何分配?(杨凯生,2020.12)由于消费者在平台产生的数据属于消费者与平台共同所有,那么企业通过对外交换数据赚取利润后,消费者有权向企业要求利润分成,但这个问题在现实中没有得到很好解决。特别是,在传统经济模式中,消费者与平台相比处于弱势,很难控制平台操作。同时,平台也没有条件、更没有动力将双方达成一致的利润发放到消费者手里。

(三)数据保护问题:数据流动性强、复制成本近乎为零,如何保护消费者数据不泄露?

数据只要发生转移,就可能出现二次销售的可能性,进而衍生出数据被滥用的更大可能性,如何从源头上堵住数据泄露的口子是当务之急,同时也不能因噎废食,将数据只留存在原始平台中,产生不了价值。

(四)技术完备性问题:解决这一新型难题将采取什么样的技术方案?

有人期待使用新技术来解决新问题,比如区块链,但是这些技术在没有成熟先例的前提下,需要慎重考虑在全国性金融信息基础设施上应用。另外,当前数据隐私保护技术蓬勃发展,但这些新技术依然存在通用性不强、技术门槛高、消费者获得感不强等问题。很多平台宣称自身数据都是经过脱敏处理,且可以采取“数据可用不可见”的方式,但这种方式无法支持复杂的机器学习建模,而且各平台的方法各异,消费者对各种具体保护方法并不熟悉。

边鹏:面向金融业的平台大数据共享框架研究

三、解决思路

在中国人民银行发布的《征信业务管理办法(征求意见稿)》中,明确“利用个人信用信息对个人作出的画像、评价等业务”被纳入征信业务范畴,为平台大数据合法合规应用于金融业提供新的契机。

(一)“一点授权、全网管理”,解决消费者大数据的代理授权问题

可以考虑由同一家中立、共有性质数据平台接受消费者“一点授权、全网管理”的请求,由消费者发起请求,消费者本人授权,该平台代理行使消费者在所有平台上数据的所有权;也可以由金融机构与每家平台公司研发API接口对接,实现消费者对一家金融机构与一家平台公司之间数据转移的授权。

(二)集中管理,借助成熟技术,解决利益分配问题

可以考虑设立一个类似百行征信的第三方平台,或者直接由百行征信承担,借助线上渠道与网络支付等我国成熟技术,在金融数据产生利润的场景下(谢文武,2021.04),实现利润的集中归集、分成与支付。

(三)集中保护,集中监管,解决数据保护问题

可以考虑建立国家级金融信息基础设施平台,凡是以金融目的获取非金融数据请求,持牌金融机构必须对接这个平台,以此实现统一管理、集中保护。只要发现数据被金融机构滥用的现象,则由该机构实施制裁并督促整改。

(四)积极稳妥,重视标准化,解决技术完备性问题

可以考虑初期均使用成熟技术,规避未大规模应用的新技术。例如,数据交换涉及到的API接口均比照《商业银行应用程序接口安全管理规范》(JR/T0185-2020),制定并实施一套标准的数据脱敏规则,遴选并研发优秀的数据隐私保护技术,如同态加密、多方安全计算、数字水印等,采取成熟一个推广一个的审慎方式,不断增强消费者权益保护。

边鹏:面向金融业的平台大数据共享框架研究

四、几种面向金融业的大数据共享框架

框架研究的思路立足于解决当前难题,同时面向未来保持可扩展性,借鉴网联等金融信息基础设施建设经验,采用成熟技术,以改善消费者体验和保护数据安全为目标,明确平台大数据只有在持牌金融机构需要且有消费者授权时才可以用于金融目的初步梳理了API、数据库、工作站等三种模式来实现面向金融业的大数据共享。

(一)基于API模式的大数据共享市场

API模式是金融机构与非金融平台直接通过API(应用程序接口)进行非金融数据交换的模式。这种模式与英国央行在2020年3月、国际清算银行在2020年12月提出的架构类似,消费者在接受金融服务时,金融机构为了提供更好的金融服务,询问消费者是否愿意提供某平台数据用于金融目的,消费者同意并授权金融机构获取其平台数据用于金融目的后,金融机构通过API链接平台公司登录验证界面,消费者通过平台公司验证后,平台公司将消费者的脱敏数据(金融标准)反馈给金融机构。(见下图1)

边鹏:面向金融业的平台大数据共享框架研究

(二)基于数据库模式的大数据共享市场

数据库模式是金融机构与非金融平台通过一个公共性质的数据库进行非金融数据交换的模式。首先,消费者对拟建的全国性大数据平台一次性授权获取全国各非金融平台相关数据,消费者在所有平台中的脱敏数据均反馈给平台存储。之后,消费者在接受金融服务时,金融机构为了提供更好的金融服务,询问消费者是否愿意提供某平台数据用于金融目的,消费者同意并授权金融机构获取其平台数据用于金融目的后,金融机构获取消费者全网的脱敏数据,然后,向拟建的全国性大数据平台支付数据服务费,该平台再将分成后的数据服务费分别支付给消费者及相关平台。(见下图2)

边鹏:面向金融业的平台大数据共享框架研究

(三)基于工作站模式的大数据共享市场

工作站模式是数据库模式的升级版,但金融机构与非金融平台不交换任何消费者数据,由金融机构提出数据建模需求,数据库平台完成建模运行并将结果反馈金融机构。主要流程与数据库模式保持一致,只是当消费者同意授权金融机构获取其平台数据用于金融目的后,金融机构不会获取消费者数据,而是将自身模型放到拟建的全国性大数据平台上运行,平台向金融机构反馈模型运行结果。(见下图3)

边鹏:面向金融业的平台大数据共享框架研究

五、三种框架的优缺点对比分析

(一)API模式

优点:消费者数据存储主体依然保持现状。缺点:每家金融机构都需与平台开发一一对接的API,即便制定这种API的金融标准且全行业推广,也存在几种风险:一是全行业难以执行统一管理标准,比如即便将脱敏规则做成金融标准,但实践中贯彻落实仍有可能出现偏差;二是依然可能出现一两家大平台垄断绝大多数数据流量的情况,进而形成事实上的系统重要性平台;三是消费者无论是与平台还是金融机构打交道时,都处于C to B的弱势角色,不利于消费者维权;四是消费者跳转登录平台时的设计体验,关乎整个流程的成功与否,与超级网银推广难题类似,大平台公司如果不愿意改善设计体验,将使这个模式难以推广;五是金融机构如果需要对接多家平台,消费者需要对每家平台都授权,理论上最多n*m次授权,消费者的体验不好;六是如果支持联邦学习、多方安全计算、同态加密等“可用不可见”的模式,将会对平台增加计算负担;七是消费者在得到金融服务的同时,金融机构向平台支付数据服务费,但是平台能否将数据服务费向消费者合理分成依然存疑。

(二)数据库模式

优点:一是全行业执行统一管理标准,大幅降低金融行业与各平台去对接的数量规模,从n*m减少到n+m(n与m见图2),远比现在开通第三方支付要快捷;二是避免任何平台与金融机构形成垄断;三是集中授权管理,相当于将API模式的C to B变成了B to B,有利于增加消费者权益;四是与平台对接金融机构不同,数据库模式是统一标准,无需金融机构或各类平台多次对接,降低了金融机构和各类平台负担,推广难度小;五是消费者授权次数大大减少,体验会更好,理论上最多m次授权即可;六是方便解决数据收益分成问题,消费者在得到金融服务的同时,金融机构向全国性大数据平台支付数据服务费,该平台再二次分成给消费者与有关平台,也可以由全国人大立法,不再给消费者分成,以其他形式维护消费者合理权益。缺点:一是直接提供数据给金融机构,虽然效率高,符合现有法规,但在数据保护上,仍然扩大了消费者数据的扩散范围,数据存在二次销售的可能;二是将消费者数据集中于新的数据平台,形成新的金融信息基础设施,存在大规模泄露的风险,例如,美国信用评估巨头Equifax在2017年发生的1.43亿个人信息泄露事件。

边鹏:面向金融业的平台大数据共享框架研究

(三)工作站模式

优点:具备数据库模式的几乎所有优点,而且彻底堵住了消费者数据在金融领域可能被销售或非授权转移的口子。缺点:一是目前联邦学习、多方安全计算、同态加密等诸多技术依然处于发展期,还不够成熟,特别是复杂计算的效率会影响到消费者体验,甚至模型无法运行;二是工作站模式将极大地增加新平台的计算负荷。

(四)对比结论

根据下面分析,数据库模式可以解决当前问题,并且风险可控,而且还具有未来可拓展性。数据库模式统筹消费者和平台共同作为大数据的供给方,统筹持牌金融机构作为大数据的需求方,以消费者授权和获益为前提,能够兼顾当下与长远,最终形成“1个买方+2个卖方+1个交易所”的大数据交易模式。在数据库模式筹建期间允许金融机构与非金融数据平台之间的API模式在管控下适度发展,待建成后统一迁移到数据库模式。当大数据共享市场稳定运行后,可以开放部分工作站服务,在未来隐私保护技术成熟后,有序过渡到工作站模式。

表1 面向金融目的的数据共享市场模式对比分析

模式

标准化

系统性风险

消费者权益保护执行度

消费者体验水平

数据保护力度

数据收益分成问题

API

困难

困难

数据库

容易

容易

工作站

容易

中(效率)

容易

来源:笔者制作

(本文修改版将发表于《中国金融》2021年第12期)

(作者:董希淼 )

董希淼

专家学者

资深金融研究者与从业者,上市银行独立董事,互联网银行、消费金融公司顾问,中关村互联网金融研究院首席研究员、复旦大学金融研究院兼职研究员,新华社特约经济分析师,亚洲金融合作协会智库研究员、中国互联网协会数字金融工作委员会委员。著有《有趣的金融》。