金融百家|范容:依托隐私计算技术,赋能信贷联合风控

21金融街范容 2023-03-03 16:57

作者:范容,浙商银行金融科技部大数据研发部主管(博士)

一、背景(Background):数据流通的困境

数字经济时代的特点之一便是将数据视作关键的生产要素。时至今日,数据作为数字经济时代最为核心的生产要素,在社会生产、生活中体现的巨大价值已经不言而喻。随着数据收集、存储和处理成本的大幅下降和计算能力的大幅提升,全球数据以“井喷式”的速度生产。根据艾瑞咨询2022年估算,2020年中国产生的数据量约为12ZB,占全球数据量的24%,到2030数据量将达到175ZB,占比将上升至29%。数据的分析和处理越来越“平民化”,无论是政府还是企业,对于数据的需求都越来越强烈。存储于某个系统中完成业务目标的存量数据可能成为其他外部信息系统所需的数据资源,并且数据资源的价值可以在流通后再次得到应用,从而产生更多的应用价值。这些对于数据的需求,就诞生了数据流通的概念。

数据流通的具体形式主要包括数据共享、数据开放、数据交易等,如何确保各类数据流通的安全合法性是是包括政府、金融机构、数据供应商、公民个人等数据流通参与主体最为关心的话题。《个保法》、《征信管理办法》等法律法规的约束,使得各类主体在进行数据流通中存在着诸多不确定因素和法律风险。如不当收集、使用或滥用个人信息,有可能被利用以实施各种犯罪,流通过程中的数据监听、截获隐患,超出初始收集目的和业务范畴的再使用,包括提供给合同之外的第三方的使用(即流通)等,都会危害到公民的人身和财产利益。同时,流通中的数据资源也需考虑可流通范围、流通对象合法性、流通过程的安全保障、使用授权等一系列安全与合规问题。再加上数据流通在数据质量、数据定价、数据权属等方面的市场机制的缺失,阻碍数据要素的跨机构流通,产生“数据孤岛”现象,制约数据经济的可持续发展。

为打破“数据孤岛”,促进数据流通,从2015年开始,政府、大数据从业机构等从制度和技术层面进行广泛探索,其中:制度层面,从政府陆续出台了《要素市场化配置综合改革试点总体方案》、《要素市场化配置综合改革试点总体方案》多项旨在推进数据共享和数据流通的政策文件;技术层面,银行、数据服务商等机构在实际应用过程中,在数据脱敏、数据失真、数据加密等技术领域进行大量实践。

二、工具(Tool):隐私计算技术

随着产业界的关注逐渐增多,隐私计算相关的学术会议和论文在近几年呈现爆发式增长,相关研究从技术原理逐步转向应用实践。在算法协议不断优化、硬件性能逐步增强之下,隐私计算的可用性大大提升,越来越多的技术厂商开始隐私计算的研发和产品化,金融风控、互联网营销、医疗诊治、智慧城市等越来越多的场景落地应用。目前,隐私计算已成为数据流通领域内最受关注的技术热点。2020年10月,全球最具权威的IT研究与顾问咨询公司Gartner将隐私计算(其称隐私增强计算)与行为互联网、分布式云、超级自动化等并列为最前沿的九大趋势,并预测到2025年全球将有一半以上的大型企业将引入隐私计算。

隐私计算技术本质上是为了决数据流通过程中的一些问题、确保数据“可用不可见”的一系列技术。因此,它其实并不是一个特定技术,而是为了实现某些功能的一组技术的统称。从目的角度讲,隐私计算借助多方安全计算、同态加密、差分隐私和可信执行环境等为代表的现代密码学和信息安全技术,在保证原始数据安全隐私性的同时,实现对数据的计算和分析。

隐私计算目前主要有以下三类技术路线:

1.以多方安全计算(Secure Muti-party Computation,简称MPC)为代表的基于密码学的隐私计算技术。这类技术的核心思想是设计特殊的加密算法和协议,基于密码学原理实现在无可信第三方的情况下,在多个参与方输入的加密数据之上直接进行计算。多方安全计算的实现包含多个关键的底层密码学协议或框架,主要有不经意传输、混淆电路等。

2.以联邦学习(Federated Learning,简称FL)为代表的人工智能与隐私保护融合衍生的技术。从最初的概念定义上看,联邦学习就是一类分布式的机器学习,以“数据不动模型动”的思想,本地原始数据不出域,仅交互各参与方本地计算的中间因子,以此实现联合建模,提升模型的效果。但直接交互明文的中间因子也有泄露和反推原始数据的可能性,为提升对数据隐私的安全保护,现有的实现方案大多是在经典联邦学习的基础上结合多方安全计算、同态加密、差分隐私等密码学技术,对交互的中间因子进行加密保护或是结合可信执行环境,实现基于可信硬件的中间因子安全交互的。

3.以可信执行环境(Trusted Execution Environment,简称TEE)为代表的基于可信硬件的隐私计算技术。这类技术的核心思想是隔离出一个可信的机密空间,通过芯片等硬件技术与上层软件协同对数据进行保护,同时保留与系统运行环境之间的算力共享。目前,可信执行环境的代表性硬件产品主要有Intel的SGX、ARM的TrustZone等,由此也诞生了很多基于以上产品的商业化实现方案,如百度MesaTEE。

除了上述关键技术,同态加密、零知识证明、差分隐私、区块链等技术也常应用或辅助于隐私计算,不同技术往往组合使用,在保证原始数据安全和隐私性的同时,完成对数据的计算和分析任务。

三、应用(Application):浙商银行基于隐私计算的联合风控探索

联合风控是隐私计算在金融领域的一个重要应用场景。近几年,金融机构将大数据和人工智能技术广泛应用于多方联合的智能风控场景。一般而言,银行侧一般包括客户行为数据、征信数据、外部三方数据(如工商、司法、多头查询、黑名单等),难以满足业务风控的需求。此外,由于不同机构间数据分散的问题,银行机构之间、银行机构与运营商、银联、政务数据平台等机构之间的数据无法直接打通,个人通话情况、企业用水用气等数据无法直接落地于银行场景,出现一系列信息不对称、风险识别不精准、融资成本高等问题。通过联邦学习、多方安全计算、可信执行环境等隐私计算技术,可以有效打破数据孤岛,实现跨机构间数据价值的联合挖掘,更好地分析客户的综合情况,交叉验证交易真实性等业务背景,降低欺诈及合规风险,从而综合提升风控能力。浙商银行自2020年开始探索隐私计算技术在信贷风控场景的应用,并于去年上线自主研发的隐私计算平台。

在零售风控场景,浙商银行基于行内互联网贷款、消费分期等场景约十万级样本数据,与电信运营商进行贷前准入评分,其中:行内数据主要包括个人征信、外部多头查询等,运营商数据主要包括通话时长、通话次数、APP应用行为等数据,联邦建模结果表明评分整体的KS提升约10个点,模型的风险识别能力显著提升。

在对公风控场景,基于多方隐私计算技术,我行与浙江省金融综合服务平台就普惠金融场景开发联邦学习评分模型,拟应用于小微企业准入场景,其中:行内数据包括企业征信、工商、司法等数据,省金综侧包括企业能耗、税务处罚、部委黑名单等,联邦建模结果表明评分整体KS超过30,不仅可服务我行数智贷等线上小微信贷场景风控,还可进一步释放政务数据价值,服务浙江省数字化改革及共同富裕的大局。

四、展望(Prospective):亟待进一步解决问题

尽管隐私计算技术在银行联合风控等场景已展露出光明的应用前景,但仍然存在一些问题有待解决,以进一步释放数据要素价值。

1、不同产品之间很难互联互通。每一个隐私计算应用方都面临着与不同机构多方计算的问题,但各方部署的隐私计算平台可能基于特定的算法和设计实现,平台间很难完成信息的交互,导致重复建设和成本浪费。因此互联互通正成为隐私计算技术普及所面临的最大挑战。

2、隐私计算技术应用仍需更大的计算和通信负载。目前,大规模应用隐私计算普遍面临计算和网络负载的限制。通过隐私计算联合建模的耗时是传统机器学习的数十倍甚至数百倍,且隐私计算意味着多方同步计算,某一方计算或通信资源的瓶颈将直接限制整个计算平台的性能。

3、《征信业务管理办法》的管理边界问题。一方面按照制度规定,涉及信用评估类数据须从持牌征信机构获取,通常是API明文传输,短期内没有隐私计算的诉求;另一方面,从各家银行隐私计算实践看,更多地是通过和银联总部、三大运营商等数据源直接落地,而未通过持牌征信机构。

综上,隐私计算为数据要素的高效流通和应用提供技术上的可能性,但若要真正打破“数据孤岛”释放数据价值,在制度、法理层面仍然任重道远。

(注:本文为作者在由21世纪经济报道联合腾讯安全主办的“整合风控流程 激活数据潜能”研讨会上的发言)

(作者:范容 编辑:李愿)