起底芝麻信用“不一样”的数据源

21世纪经济报道 包慧 杭州报道
2015-06-17 07:00

6月6日那天,芝麻信用联合华润万家和全时便利店,在北京、杭州两地各开设了一家“无人超市”。“无人超市”在6月6日...

传统的信用风险评估体系和基于大数据的信用评估体系的比较-01-01.jpg

6月6日那天,芝麻信用联合华润万家和全时便利店,在北京、杭州两地各开设了一家“无人超市”。

“无人超市”在6月6日当天没有任何收银员,顾客购物付款全靠自助,现金或者支付宝付款均可,并且无论顾客有没有芝麻分都可以参与。

经过一整天的无人运行,杭州的华润万家Vango便利店在盘点商品后发现,6日当天总共卖出了1.67万元的商品,收到顾客的自助付款大约是1.37万元,应收账款和实际收款相差了3000元,付款率达82%。

而在北京建国门附近试验的这家无人全时便利店,付款率低于杭州,有顾客直接抱走一堆昂贵的烟酒只付了10元。

芝麻信用的总经理胡滔6日上午在北京的无人便利店里蹲守了一个小时,观察前来购物的客户反应。

“我看到顾客觉得这个(无人超市)很新鲜,很兴奋地在自助付款之后还要拍照片发朋友圈。”胡滔表示,这让她和她的团队感到了做这件事情的意义所在,“虽然不具备普遍性的代表意义,但是这个实验很有意思,也是对我们整个社会的一个真实的呈现。”

“昨天看到高考替考的新闻,我的团队就去找国家教委去谈,希望能拿到作弊考生的名单,将这样的行为纳入到信用体系的规范里来。”6月8日,胡滔接受21世纪经济报道记者的独家专访时还为被作弊考生剥夺了公平竞争机会的老实考生愤愤不平。

“应该让他为不诚信行为付出代价。比如说以后他找工作的时候,雇主看到他以前作弊的经历,可能就不雇佣他了。”一头短发的胡滔说话时的神态就像仗剑走江湖的女侠。

她手中的这把“剑”就是芝麻信用体系。胡滔的团队就像古时的侠客,希望用芝麻信用分来惩恶扬善。

“蚂蚁金服的理念是让信用等于财富。通过征信这个独特的商业模式,让大家识别好的信用和不好的信用,诚信和道德能够通过征信体系落地。”胡滔认为讲诚信要完全用道德观念来教育远远不够,让不诚信的行为受到约束才是现实可行之道,比如让不诚信的人租不到车、贷不到款甚至找不到工作等等。

蚂蚁金服集团总裁井贤栋也表示,阿里集团十几年以来非常注重信用体系的建设,也愿意把信用体系开放出来,帮助更多的商业伙伴,更多的用户,一起去实现信用等于财富的梦想。

这就是芝麻征信的目标:让信用等于财富,让守信的人生活更为便捷和舒适,而不守信的人则寸步难行。

胡滔说,“我们在跟大型商超在谈合作,时机成熟之际会把这种无人超市的模式进行规模化的推广。到征信体系非常完善的时候,信用将成为空气,看不见但无时无刻必不可缺。”

据《资治通鉴》记载,在历史上著名的“贞观之治”时期,曾有过“海内升平,路不拾遗,外户不闭,商旅野宿焉。”

在征信体系的日趋完善之后,路不拾遗、夜不闭户能够再次回归到中国的社会,这是蚂蚁金服的梦想。虽然现在看起来还是离现实很遥远的乌托邦,但无人超市和信用日起码往这个方向迈出了第一步。

而让支付宝用户甚至非阿里用户都能成为芝麻信用的用户,则是芝麻信用的野心。

支付宝有3亿多实名用户,其中已授权给芝麻信用开通信用分的目前已经有数千万。

在1月28日开始公测首日,只有36万支付宝用户开通了芝麻信用分,开通4个月以来用户数增长了近百倍。胡滔说,“需要用户授权给我们,才能去采集他在阿里内部的和外部的数据,所以只有授权了的支付宝用户才能计算他的信用分,才是芝麻的用户。”

“未来三到五年能够覆盖5亿以上的用户,芝麻信用是独立的公司,我们希望开拓到阿里体系外的客户。让每一个年满18周岁的成年人,除了公民身份证外,把芝麻分当做其第二个‘身份证’。”

但在已经开通的数千万客户里面,也有5个客户主动要求关掉芝麻分,因为不想再授权给芝麻信用调取和使用他们的数据了。

“信用体系是蚂蚁金服中最值钱的板块”

在技术、数据和渠道这三个蚂蚁金服的基础设施里面,信用是基础中的基础。

蚂蚁金服旗下的全资子公司芝麻信用的任务就是,把阿里集团和蚂蚁金服集团这么多年沉淀下来的用户的海量数据和模型能力,提炼出信用,输出到整个社会的生态里面,为交易双方迅速建立信用关系,节省整个社会的交易成本。

“蚂蚁金服最有价值的板块,是信用体系,因为信用体系是所有的核心和基础。” 井贤栋说,“阿里巴巴集团从成立第一天开始,就把信用作为核心的东西。在商业领域信用是最基础的东西,开放出去,输送给不同的机构、个人和不同的商业形态,让有诚信的人可享受更低的服务门槛和成本。”

在6月6日信用日是截至目前的开通高峰值,当天就有180万用户开通了芝麻分。

6月4日,芝麻信用和卢森堡大使馆签约,芝麻分在750分以上的,可以在线申请卢森堡签证,并减免办签资料。根据每个申请人的情况,用户可以少交资产证明等资料。信用越好的申请人少交的材料越多,可少交的材料可能包括在职证明、收入证明、户口本、身份证复印件、机票酒店的付款凭证等。传统签证准备材料一般需要5-10天,“信用签证”优化体验后甚至只需2-3天。

除了卢森堡外,在阿里旅行·去啊的电子签证平台,用户的芝麻分高于700分就可申请新加坡签证,无须提供在职证明、个人信息表、户口本、身份证复印件等资料。胡滔介绍,4日上线到8日,仅3个工作日用芝麻分申请新加坡签证的用户已经有三千人次。

胡滔表示,除卢森堡和新加坡之外,日本、韩国、澳大利亚和美国等更多的中国公民旅行热门目标国也正在和芝麻信用在洽谈中。

井贤栋的芝麻信用分高达786分,属于信用极好的类别,可以更便捷地申请卢森堡和新加坡的签证。

“我的芝麻信用分还不算很高,我们同事还有800多分的。”井贤栋说,“我们的信用模型很靠谱,跟其他机构合作下来,在一定芝麻分数之上的用户守信情况非常不错,这证明我们的模型比较准确。”

那么,对于非淘宝的重度用户,甚至都不是支付宝的用户而言,芝麻信用怎么办?

胡滔表示,芝麻将在7月份上线上传的功能,用户可以主动上传自己的身份证明和信用记录,比如说缴纳社保、公积金记录,工作证明,缴税证明,资产证明之类的材料给芝麻信用,然后得到自己的芝麻分。

但该功能真的有人用必须有一个前提,芝麻分对于非支付宝的用户而言,具有足够的价值,让他愿意花费这个时间和精力,并把自己的隐私暴露给芝麻信用。

“这就是我们要做的工作了,后续必须谈下更多的合作商户,让芝麻分用户可以拿到更多的便利,让他们觉得芝麻分有足够的价值去用。”胡滔说,包含衣食住行和金融类的商家芝麻信用都在谈合作,“凡是跟信用有关的,要交押金的预授权的这种,我们都要去谈。”

有价值的合作伙伴给芝麻信用带来的提升效应显而易见。就在卢森堡和新加坡的便利签证功能上线后,也即6月4日与卢森堡大使馆签约当天,在支付宝开通芝麻分的用户达到70万,5日为80万,6日信用日当天高达180万。

芝麻信用6日和北京银行合作上线了凭芝麻分申请信用卡,“芝麻分显示了很高的准确度,高分段违约率低,低分段违约率较高。”与银行合作之后,银行的信用卡和放贷的黑名单可共享,目前还有多家银行正在洽谈合作当中。

外部数据是一大挑战

开拓外部用户显然还并非芝麻信用的当务之急,胡滔表示,“现在淘宝的重度用户已经超过两个亿了,所以覆盖更多的用户对我们来说不是问题。关键是接入更多的外部数据,让模型更为精准,同时谈下更多合作商户,为用户带来更多价值。”

总体而言,芝麻数据库中大部分的数据都来自于阿里平台内,少部分来自于外部机构的数据,包括政府机构、合作商家等等。

而对于来自政府和监管机构的公共数据,以及部分封闭性较强的行业数据,包括芝麻信用在内的8家首批试点的民间个人征信机构都面临着这样的困境:他们在这些领域内的并没有话语权,尽管他们都一样渴望税务、金融等基础数据。

“但这不代表我们的准确度一定会打折扣,对于单个的个人而言,可能他百分百的数据都来源于阿里体系内。”胡滔说。

阿里体系内的数据包括淘宝的网购数据,支付宝的各种金融数据。涵盖了信用卡还款、网购、转账、理财、水电煤缴费、租房信息、住址搬迁历史、社交关系等方方面面。网购消费的偏好和上网行为的习惯等蛛丝马迹都将成为芝麻信用打分的依据。

芝麻信用还接入了外部的政府公共数据源,比如说公民的身份证系统,还有学籍和学历查询的学信网。另外还有合作的商家,比如说信用卡还款,神州租车和酒店等,合作伙伴都会反馈数据给芝麻信用,这些还款、租车和住酒店的正面或负面的记录都会被纳入芝麻的数据库。

芝麻信用数据库还没有接入央行的征信系统。

“这要看央行对建设中国征信体系的思路,在征信管理条例里有提到建设一个金融的基础数据库,但没有时间表。” 胡滔表示,如果央行数据库对其开放是更好,不开放也不意味着没有空间可以做。

因为从整体来讲,央行征信数据库和民间个人征信机构是互补的关系。胡滔解释称,“央行覆盖了国内不到1/3的人群,不过没有在银行贷过款的人央行没有数据,但是他们可能在阿里的平台上很活跃。”

目前对外部合作商家芝麻信用暂时还不收费,“免费优惠期在三到六个月之间,之后我们会跟机构收费,但不考虑对个人用户收费。”胡滔表示,“有的商家可能误以为我们都是网购的信息靠谱吗?所以免费使用一段时间让他们看一下,好不好用。半年内的免费优惠期相当于是供机构试用的体验期。”

敢收费的前提是要让机构觉得有价值,这依然取决于其数据的可靠度和模型的精准性。

除自身的研发和运营成本之外,芝麻信用引入的部分外部数据要付费,比如公安部的身份证认证信息系统和工商、学籍查询等,而社保和税务这些政府信息还没有开放。胡滔说,“政府的数据很多,我们愿意付费去获取,也希望尽早能放开。”

但未来的盈利前景乐观。据胡滔介绍,目前芝麻的外部合作商家调用芝麻分平均每天有100多万次。而每笔查询即便收很低的费用,也是一笔巨大的收入,何况用户数还在持续增加。

模型和算法/洞察人性的大数据公司

胡滔眼里,芝麻信用是一家洞察人性的大数据公司。

对征信系统而言,最关键的是模型算法的合理性。胡滔认为,芝麻信用来做征信有优势,因为就数据的获取和处理能力、模型的建立和修正能力、对c端用户的处罚、运营及管理能力,市场上都无出其右。

判断一个人是不是靠谱,芝麻信用有上万个数据变量。这一万个变量,每个变量单独去跑一遍,然后每个变量和另外9999个变量进行交叉比对,才得出一个判断模型。

阿里系有多年的反欺诈经验,在茫茫人海中根据蛛丝马迹找卖假货或者诈骗的店家,进行分析回归,最后进行概率的评价,然后得出一个模型。“十几年来,我们积累了反欺诈和犯罪分子抓取的能力,背后的核心能力是模型和算法能力。芝麻分是我们模型和算法的能力在信用方面的延伸。”

这一万个变量中一部分是基于事实的,比如身份证号码判断户籍和年龄,购物的行为经常买家庭用品还是买游戏点卡,在平台上的信用卡还款行为是否正常,收货地址是否稳定等等。“比如说客户地址和手机数年不变的,跟半年换一次,我们拿去做比对,地址和手机的稳定性就成为我们模型里面权重非常高的一个变量。”

另外一部分则是推测性的数据,“比如说你经常买奶粉尿布我就判断你是成家了,你经常为家人购物我们判断你是有家庭责任感的,经常捐款的人是有爱心的。”

芝麻信用拿数据对比一看,家庭责任感的高低跟还款的记录没有太大的关系,正常还款的人不一定有家庭责任感,逾期的人也很多很有家庭责任感。爱心捐赠也没有太大的关系,经常捐款的人里也有违约的,守信的人里面很多也不捐款。

但是,非常奇妙的是,虽然家庭责任感和爱心这两个变量单独来看都跟守信没有太强的关系,但是把这两个变量结合起来之后,就特别强相关。“一个人如果很有家庭责任感,又经常爱心捐款,他就是不会违约,但是如果既没有家庭责任感,又没有爱心捐款的人,违约率就是要高一些。这都不是我们人脑自己一拍脑袋想出来的,而是数据比对出来的。”

胡滔在2014年底才被阿里从招行零售业务部负责人的位置挖过来,但芝麻信用的团队从2012年已经开始组建。

目前芝麻信用总的80多个人的团队里面,模型和数据占比40%多,技术20%多,两者合起来过半。模型和数据的队伍有三个来源:一是内部的调动,包括蚂蚁集团反欺诈团队和蚂蚁小贷信用风险的团队;二是来源于国内银行信用卡中心做风险管理的人员,三是国外的大型征信机构的成员回国加入。

就数据来源和模型而言,时刻都在不断优化之中。

在1月5日,央行给芝麻信用、腾讯征信在内的8家民间个人征信机构发了预批准的征信牌照,待今年6月底如果能通过审核才会发放正式的牌照。

芝麻分在1月28日这么快上线,因为阿里已研究几年了。模型和算法用了五年,央行有的是银行放款的数据,蚂蚁是自己的小贷和信用支付服务花呗的放款数据,小贷客户有一百多万,花呗客户有一千多万。

目前芝麻信用有四个产品:芝麻分、芝麻报告、反欺诈的产品以及行业共享的黑名单。

芝麻分是通用分,针对租车行业有行业分,很多行业都在做其行业分。行业分只针对2B的客户,而对C端客户而言,只有一个通用的芝麻分。而通用分跟行业分在模型和数据来源上都有所区别。

“合作伙伴如果只有自己的数据也可以做业务,但是把芝麻的评价加进去会更加精准。我们不是替代,所以也不承担失信者带来的风险,只是给合作伙伴做参考,而决策还是他们自己做。”胡滔说。

而要得到实体经济中的各行各业,包括传统金融业的认可,芝麻征信还有相当长的路要走。

(编辑:王芳艳,如有任何问题请联系:wangfy@21jingji.com)

X

分享成功