涂子沛:数据为什么这么有用?(上)

21世纪经济报道 胡晓玲 广州报道
2015-09-18 18:00

大数据是什么?大数据是现象,处理数据的能力才是本质,才是你的核心竞争力,未来是否有处理数据的能力,是一个组织,一个公司,一个国家、一个地区核心的竞争力。

近日,阿里巴巴集团副总裁、《大数据》和《数据之巅》的作者涂子沛做客广东职工大讲堂。

讲堂上,他分享了包括:“互联网+”的定义、数据的利用和云化、阿里巴巴怎么利用数据成为一家金融公司、未来大数据将分为四类、数据对农业和工业的影响,众包、众筹跟共享如何发展起来等观点。

涂子沛认为,过去的互联网是“连接人和机器”。而今天,互联网所带来的含义,已经远远超越了过去, 当下的互联网必须被看作是沉淀数据的基础设施,具体表现为云化和数据化。

他举了一个例子:球赛期间,女人的购物热情明显上涨——男人看球,女人受到冷落了于是买买买,并且买的东西很可能是平时舍不得买的贵价商品。以上行为形成的数据,被购物网站捕获并分析,再有针对性地给用户推送购物广告,又拉升了购物指数。“哪一家电商平台最早、最有效、最精确把这些分析出来,他的销售量可能提得更高。”涂子沛提出,通过跟每一个终端用户之间建立起来的数据流,互联网企业可以为每一个用户量身定制、提供个性化服务。

“大数据是什么?大数据是现象,处理数据的能力才是本质,才是你的核心竞争力,未来是否有处理数据的能力,是一个组织,一个公司,一个国家、一个地区核心的竞争力。”

 

以下是涂子沛演讲全文(上):

最近国务院发了一个大数据的指导纲要,标志着大数据上升到国家战略层面。

我先从“互联网+”谈起,我们从“互联网+”谈云计算、大数据以及对社会治理模式的一些影响和改变。

 我们首先要回答的是什么是互联网+,现在有一个经典解释、主流解释、普遍解释,就是互联网成为基础设施,互联网+教育、互联网+贸易、互联网+国防、互联网+政府、互联网+金融,互联网这个词最早出现是90年代,当时之所以叫互联网,发现它可以把人和机器连接起来,到今天互联网给我们的含义远远不是如此。今天互联已经超越了,我们汽车24小时跨平台互联、跨应用互联,QQ上发一条消息,微信也能收到,跨设备互联,所以互联不是我们今天的要点。互联网+除了“加上”之外,比如说5+、6+,打一个“+”号是超越,所以我们是超越互联,超越互联具体的表现是什么?第一,云化,第二,数据化。

到今天,互联网是什么?给我们带来什么样的含义?不仅仅是互联,互联网今天是沉淀数据的基础设施,必须这么去看。我们现在马上问第二个问题,我们都在讲传统企业转型,传统企业要回答怎么转型,首先要回答传统企业跟互联网企业有什么区别,今天要去问一个传统企业家,你每一件产品卖到哪里去,传统企业家是没有办法回答这个问题的,他只知道我卖到广东这么多,卖到天河这么多,他不知道自己每一件产品卖给了谁。互联网企业是知道的,阿里巴巴是一个电商平台,阿里巴巴上,每卖一件东西,不管多小,都留下一条数据记录,它清楚知道,每一件东西,在什么时候什么地点卖给了谁,这个人买了其他什么东西。传统的企业只知道一批卖到哪里去了,不知道每一件卖到哪里去了,但是互联网企业是知道的,它通过数据知道。

这是我们淘宝上的一个例子,我们发现打球的时候,球赛开始时跟不打球时消费行为是不一样的。怎么不一样?男人一看球,女人就网购。什么意思?在小数据的时代,我们拍脑袋可以想一想,球赛开始了,女性受到冷落,女性有很多选择,她可以去逛街,她可以去教育孩子,她可以做家务,跟闺蜜聊天,但这时候女性购物的主体就增加了。

我们看第一个图,平时52%是女性购物,打球的时候女性购物主体变成62。第二个图,从1点到24点,成交量球赛一开始,购物指数立马升高。我们在这个平台上还可以看到,这时候女性买了什么东西,这时候的消费行为跟平时不一样的,消费的均价和档次也不一样,平时她不愿意买,不舍得买的东西,在这时候她就买了。我们看到这些数据后,下一场球赛还没有开始的时候,我们的广告就推送过去了,这个推送可能专挑贵的,成交量肯定是上升的。这给我们的启示是什么?

1、我们今天进入一个知识时代,我们比的不是劳动生产力,是知识生产力。哪一家电商平台最早、最有效、最精确把这些分析出来,他的销售量可能提得更高。

2、回到刚刚所讲的话题上,互联网企业究竟跟传统企业有什么样的区别,互联网企业把每一件事用数据沉淀下来,所以互联网是什么?互联网是沉淀数据的战略基础设施,它的目标不仅仅是20年前的互联,是沉淀数据。

3、我们在进入一个人人时代,什么改人人时代?人人在互联网上可以被识别出来。

去年时,我书里写了一个例子,写了亚马逊的预判发货。美国阿里巴巴一,你没有下单我就把东西寄给你,凭借什么做这个?凭借数据。大量的数据,他知道你的消费行为,知道通过这些消费行为可以推断你的社会阶层、爱好、财务情况。极大改善用户体验,凭借的还是数据。

今天的互联网企业,可以跟每一个终端用户建立数据联系,通过数据流,为用户量身定制,提供个性化服务。

我们现在手机淘宝在做一件事情,每个人打开手机淘宝,你看到的页面都不一样,我们有几亿用户,手机淘宝不仅要做到这个,看到的产品、商品不一样,我们还推送新闻,我们还要做到每个人看到的新闻也不一样,这个效果要好多少?我们没做个性化之前,点击和现在做了个性化的点击率相差一倍。一旦做到个性化,打开手机淘宝,下单的人要比不做个性化高一倍。为什么?因为这是他关心的事情。我们的几亿个个性化怎么做?凭借数据、算法,全部自动完成。

阿里巴巴有一句话,一切业务数据化。这是我们的宗旨。我们是一个互联网公司,互联网是沉淀数据的平台,但是马云先生认为还不够,我们所有的业务过程,从人力资源到我们的业务,团队的建设、薪酬的福利,我们的文化建设,全部要变成数据,要让所有的业务工作在数据上形成一个闭环,这就是我们所说的“一般业务数据化”。我们认为这是今天互联网企业跟传统企业本质的差别。你有没有把这个数据化做到一切业务。如果今天有一个企业把自己所有的业务过程都数据化了,那他就是互联网企业。

阿里巴巴是一家什么样的公司?电商公司。电商公司做什么,每做一笔交易就沉淀一笔记录,随着我们的记录,数据沉淀越来越多,在2010年时我们发现一件事情,我们可以用这些数据去做新的工作,金融工作。怎么做?我们平台上有很多小商家,上百万、上千万的小商家,这些小商家有金融需求的,他们希望得到贷款,我们发现一件事情,他每一笔交易都在互联网上、平台上留出数据,所以我知道他的交易流水、运营情况,所以根据这些数据可以推断他的资质情况,所以我敢给他发放贷款。现在我们平台的商家,只要提出说贷款需求,我们在几分钟之内,立刻决定给不给他贷款,利率多少,贷多少,这就是我们最早的阿里小贷。

阿里巴巴怎么变成一家金融公司,凭借数据,就这样华丽的转身,成为一家金融公司。今天的金融公司已经独立出来了,叫蚂蚁金服。现在很多评论员分析,蚂蚁金服又是一个巨无霸。我们不仅这种贷款模式比传统银行快,更重要的是传统银行怎么贷款,传统银行是企业找到他,说我要贷款,银行干什么?就派人去调查,调查的本质是什么?调查的本质是收集数据,了解你资信的情况。这种情况是先有需求,后有调查和数据,在这种情况下,我们派出去的调查,收集的数据是极可能遭到扭曲的。这个企业有很多种手段,为了得到贷款,有意无意扩大一些情况,甚至捏造一个账本骗取贷款,他是先有需求后有数据。

阿里巴巴平台,你的数据早就沉淀在阿里巴巴平台上了,而且是真实的,很难造假的。然后再提出需求,我们根据这个需求和数据做判断,所以我们先有数据再有需求。这两个关系决定了我们的贷款,所以我们的坏账率远远低于传统银行。

我把它叫做数据的外部性。数据为什么这么有用?我们在收集数据时,可能是一个目的,在一个维度上,为了这件事收集数据,但是收集的这些数据往往可能在一个新的维度,在一个新的领域发生作用。去年8月份我在硅谷,硅谷发生了一场地震,晚上3点半发生地震,地震第二天有一个公司做可穿戴式设备,他发布一个数据分析,他说我知道昨天晚上3点半地震时,当时有多少人醒了。为什么?它的可穿戴设备,你翻一个身他都知道,这个图划了一个圈,正中5英尺的范围内,有多少人一下子从沉睡状态全部醒了,90%多。随着时间推进,5点、6点陆续人越来越多,6点多5英尺以内还有50%的人没有醒来,你可以看到这个数据曲线的差别。人类历史上从来没有一个晚上知道这个地方有多少人睡着了,多少人没有睡着,这个数据发布出来到底有什么用?第二天可以解释很多现象,交通事故为什么这么多,夫妻吵架这么多。我们在进入一个精细化的社会,很多原来难以解释的事情都可以得到解释,就像我们说的男人一看球,女人就网购。所以很多东西是微妙、隐性的,今天通过数据捕捉下来,可以量化、分析。

我们再举一个例子,去年月全食。全世界很多地方出现月全食。当时发生时,全世界无数手机对着月亮拍照片,苹果手机拍的照片都到苹果云上去了,这些照片拍的时候目的是什么,是为了分享,为了娱乐,我看到月食了。但是这些照片一整合起来,现在天文学家发现,全世界没有任何一台望远镜可以不同地点、不同时间把月全食记录下来的,数据可以在新的维度上发生作用。

很多人说数据是什么?说是黄金、石油,那是对大数据认识的1.0时代,所以在我的书里提出“数据是土壤”。为什么是土壤?它不是黄金,不是石油,黄金和石油一次性就消耗了,没有了,数据永远在那里,越用越多。这个数据跟那个数据加起来,1+1>2。这些数据为什么有用?

我们再看一个例子。美国的佛罗里达州有一个小城市,发生了一起车祸,是一位退役的警察开快车超速把人撞死了,当地一个女记者知道这个车祸后,她就查阅了历年的数据,她发现这个小城市十年以来有十几起警察开快车把人撞死,这个女记者大胆的怀疑警察这个群体,普遍存在开快车的现象,不是偶然的。她提出这个猜测后,她就证明这个猜测,她想了很多办法跟踪警察,躲在高速路口,一看超速的车是警察就跟进。大家想想这很难,要证明警察快开车有多难。她申请数据开放,警车过收费站的时候,每过一个收费站会留下一笔数据记录,两个收费站之间的距离是一定的,时间也记录下来,两个收费站时间一减就时间差,距离/时间就是它的车速。接下来她获得一百万条警车过收费站的记录,11个月中有5100宗警车超速,1/5的车超过140公里/小时,美国一般是70公里/小时。更绝的是全部是下班时间,根本不是执行公务。这个新闻得了当年的新闻奖。

一年后她又做了一个同比分析,她又申请开放数据,她发现警察开快车现象下降84%,这是铁数如山,她可以分解到每一个部门,每一个部门有多少人在超速。这些新闻在美国有一定的轰动效应的,这个记者第二天电话被打爆了,各地的新闻部门说,你到底怎么做的,我们这里的警察肯定也在超速,我们都要证明。当年的新闻奖说用技术、大数据手段解决人类历史上一个没有办法解决的问题。如果这件事情不用数据解决,怎么证明警察开快车?

我们现在把这个数据拿到中国场景来说,首先我问大家,我们抓超速能不能用这种办法抓?我们抓超速怎么抓的?雷达。包括美国,警察在高速公路说下坡的地方,那一段路容易把车子速度快开,一发现快车,警察马上跟过来,就这么抓的。我们每一辆车下一个收费站的时候对他进行计算,什么时候上来的,这段时间平均行驶速度多少,我们今天的计算能力执行这一点事情完全没有问题的。阿里巴巴是1秒钟完成8万次计算,双十一时一秒钟8万笔交易全部要处理完,今天是这种计算能力,每部车下去的做这样一次计算完全没有问题,前提是所有收费站的数据必须在同一朵云上,我在这个收费站下去的时候,那个收费站的数据我要能实时调取,不是放在本地,这就是云化。如果一个城市所有收费站的数据都放在同一朵云上,接下来要发生什么?我去过我们交通部,跟他科技司的司长做过这个交流,司长听了后,他说涂老师,你这个方法我认为行之有效,但是效果也要打折扣,为什么?因为咱们的超速者,驾驶员也不是这么笨的,他可能快得比较快,他到收费站的时候就停下来,他知道他超速了,停下来晚一点交费,会造成收费站拥堵,这是一个新的问题。

我们这种方法不仅仅解决这个问题,我认为大家要教育,要适应这种常态,如果大家都知道你的速度被监控,我何苦呢?我为什么要开那么快,到了收费站又停下来。如果下收费站就进行计算,这个计算不仅是这个目的,而且可以看同样车牌的车在别的地方有没有出现这种问题,马上可以解决一个问题,套牌车、黑车,套牌车、黑车没有生存空间。

我们还能解决更多的问题,在座我想90%的各位都开车,你路过路口时经常看到闪一下,这是在拍照。我们在很多路口都有卡口、摄象头,拍照意味着什么?拍照意味着过去后,留下了一个数据记录,我们今天对这种照片的处理能力,这种照片拍下来后,可以识别你的车牌,可以识别车上坐了几个人,前排有没有坐人,可以识别车型,是卡车还是小车,识别率是多少?98%,高的做到99%,这意味着什么?任何一部车闪一下后,你就被识别了。我们接下来想,我们有多少这样的卡口?我们今天中国的交通情况,我们的数据远远比美国丰富。为什么?中国是摄象头最多的国家,没有哪一个国家有中国的摄象头这么多,我们的摄象头极大的重复建设,各个部门各建。意味着什么?意味着我们的公安部门、交通部门,可以掌握每一台车的运行轨迹,一闪后就证明你在这里,但是今天我们的交通部门处理不了这个事情,他实时处理不了。今天是出了事情,交通部门去查,未来要做到什么?未来要做到实时呈现,我实时能看到每一台车的运行轨迹。技术上今天也不是问题了,马上就回到我们第一个例子,我们进入一个人人时代,人人可以在互联网上被识别出来,正是因为我可以识别你,我可以给你提供个性化服务,未来我们进入一个车车可以被实时识别的时代。前段落时间有一个电影《速度与激情》,两部车在追的时候,有一个人说调动天网,一调动天网就知道另一部车在哪里,今天这不是什么高科技了,我们只欠临门一脚的应用。

前段时间,阿里巴巴跟贵州省政府做了一个项目,贵阳市把它出租车的数据开放出来,开放了几千万条出租车的数据,出租车有GPS,每五秒钟收集一次出租车的位置,这个数据拿到后,阿里巴巴平台有一个叫“天池”(音),我们有一个数据大赛,实时知道每一部车的位置,就知道每一部车在红绿灯面前等了多久。现在红绿灯是最愚蠢的东西,没有协同,各个红绿灯是独立变的,各变各的,所以车就等。我们有了这些数据后,我们做数据大赛,设计了一套赛题叫红绿灯。我们知道每一部车红绿灯前面等待的时间,现在我们公布赛题,设计一套红灯等改变的计划,让所有车在红绿灯路口等待的时间最少。现在智能红绿灯是全世界交通领域的前沿,你能不能设计这样一套系统,让所有车在所有路口,在这个地区等待的时间加总之和要最小,这意味着什么?全世界最优。我们发了这个赛题出去,我们最后发了40万奖金出去,都是17-20岁年轻人上我们这个平台上挑战,主题是“寻找时代的英雄”,越来越多的问题需要用数据来解决。

回到云化,互联网+意味着什么?互联网+首先意味着云化云化首先意味着数据要物理集中在一个地方,还要让它7×24小时随时被使用。如果你的数据放在你本地,我怎么用?你没有互联。“云”,在中国最早的实践也起源于阿里巴巴,云最早的出现为了解决一个成本的问题,降低成本,但是今天云不是为了降低成本,是为了数据融通,数据要融通才能产生价值。阿里巴巴是一家电商公司,电商公司搭一个平台,小微企业在我们平台上卖货,他卖货的时候,把自己的CRM,交易系统放在自己家里的服务器上,导致逢年过节生意好的时候,服务器不够用,处理不了崩溃了,一件都卖不了,但是又不愿意买多一个服务器,因为这时候也就两三天生意好成这样子,成本太高,所以阿里巴巴说,你不用买一台服务器,你放在我这台服务器上,这就是云,你用一天,我只收一天的租金。当时云是为了这个目的,当时是中小企业,在美国也是一样,降低成本,不要买服务器,降低创业的门槛。但是今天我们看到什么?大企业都在上云,为什么要上云?数据融通,增加灵活性。我们今天还有一家公司,我们卖火车票的公司12306,他想把中国的汽车票在互联网上卖,他在做一件什么事?网上销售。他在我们阿里巴巴云平台上,这家企业最早在江西,现在搬到深圳,因为他没有机房,没有基础设施,他的基础设施全部在云端,所以看到今天的公司是什么公司?灵活性轻公司,他就租,比如说从深圳,要搬到广州来,立刻可以搬到广州来,我们传统企业可以吗?不可想象。为什么大组织也在向云迁徙,就是灵活性,数据融通。

今天上云,不是为了降低成本,是数据融通。原来的信息孤岛都是割裂的。我们再做一个结论,大数据是什么?大数据是现象,处理数据的能力才是本质,才是你的核心竞争力,未来一个组织有没有处理数据的能力,是一个组织,一个公司,一个国家、一个地区核心的竞争力。奥巴马早上起来,他可能要问一个问题,互联网上昨天产生了多少视频,这些视频有没有危机国家安全的内容,可能有一个公司要为他提供这种服务,把当天全世界互联网产生的视频用大数据检索一遍,声音、图像有没有危机美国的内容,有的话再采取措施。我们习大大早上起来也要问同样的问题,我们有没有大计算的能力处理这些数据?我们今天经济学家发现数据这么重要,这个地区产生多少数据,数据吞吐量是多少,未来都成为一种衡量指标,表明这个地区经济发展的活跃程度。

讲了这么多例子,大家都知道数据很重要。我们回到原点,数据定义,什么叫做数据?今天的数据跟传统数据完全是两码事。我给数据的定义,是对客观世界的测量和记录,测量和记录是不一样的,测量是今天的气温是多少,我们这里是多少人,我们这个报告厅多大要去测量,记录呢?记录是拍个照、录个音,这是记录。大数据是什么?大数据是传统的小数据+现代的大记录。今天我们图片也是数据,音频也是数据,PPT也是数据,邮件也是数据,这些全叫数据。我们今天的数据爆炸,不是传统的小数据测量爆炸,是记录的爆炸。大家都可能没有认真想,我们今天很多现象都是大数据的现象,前段时间中央电视台有一个主持人,在饭桌上有不当的言论,最后很被动,为什么?因为他在发表这些言论的时候有人拿出手机把他这个过程变成了数据,分享到互联网上。我们前段时间还有刷屏的,优衣库事件。为什么优衣库事件能产生,在试衣间拿出手机,发生了一切变成的数据。还有一个事件,美国洛杉矶有一个球场,在看球,后面坐一对姐妹,前面坐一对夫妻,前面夫妻太太发短信,发短信过程中,因为后面的座位要高,后面的姐妹看到了发短信的过程,她发现太太发的短信非常暧昧,发给她的情人的,短信内容已经证明她出轨了,她立刻掏出手机把过程录下来,球赛结束时,就告诉了那个男的,说你太太出轨了。类似的新闻在美国不只是出现一次,是第二次了。为什么这些事件能发生,因为我们掏出手机来,就把你所见所得立刻变成数据,立刻分享出去。今天数据存储分享成本极其低廉,现在数据爆炸就是社交媒体的普及,微信、微博,每个人都在贡献数据、引起数据爆炸。原来的数据怎么来的?你去银行取一笔钱,银行留下一笔数据。今天无数的人,全世界都在发微信、微博,共享数据。

(编辑:耿雁冰)

X

分享成功