归根结底,我们整个社会越来越多的资源,包括时间、一个人的技能、智能、金钱,能够自由的交换、流动和整合。我们能看到这种变化在各个领域发生,越来越多的资源在自由的进行交易和整合。
近日,阿里巴巴集团副总裁、《大数据》和《数据之巅》的作者涂子沛做客广东职工大讲堂。
讲堂上,他分享了包括:“互联网+”的定义、数据的利用和云化、阿里巴巴怎么利用数据成为一家金融公司、未来大数据将分为四类、数据对农业和工业的影响,众包、众筹跟共享如何发展起来等观点。
涂子沛认为,过去的互联网是“连接人和机器”。而今天,互联网所带来的含义,已经远远超越了过去, 当下的互联网必须被看作是沉淀数据的基础设施,具体表现为云化和数据化。
他举了一个例子:球赛期间,女人的购物热情明显上涨——男人看球,女人受到冷落了于是买买买,并且买的东西很可能是平时舍不得买的贵价商品。以上行为形成的数据,被购物网站捕获并分析,再有针对性地给用户推送购物广告,又拉升了购物指数。“哪一家电商平台最早、最有效、最精确把这些分析出来,他的销售量可能提得更高。”涂子沛提出,通过跟每一个终端用户之间建立起来的数据流,互联网企业可以为每一个用户量身定制、提供个性化服务。
“大数据是什么?大数据是现象,处理数据的能力才是本质,才是你的核心竞争力,未来是否有处理数据的能力,是一个组织,一个公司,一个国家、一个地区核心的竞争力。”
以下是涂子沛演讲全文(下):
我们再有一个例子说明数据有什么用,什么是数据?
我们把视角推到1860年代,美国打南北战争时,我给大家介绍一个人,谢尔曼。他是北方的将领,他带了6.2万人打到亚特兰大,距离美国东海岸差不多400公里,他写了一封信给林肯。他说总统阁下,我说我要切断自己的后勤补给,这是冷兵器时代,没有飞机。林肯一听立刻否认,说根本不同意。他说将在外,军令有所不受。带着人就走,怎么解决后勤吃饭的问题。美国是唯一一个国家立国时写进了宪法,美国要进行人口普查。美国当时进行人口普查是为了解决选举的问题,就是这个地方有多少人该产生多少代表。但是1860年美国进行很多次人口普查了,最早是算人头,多少女的、多少男的。美国社会认识到数据很有用,所以到1860年代,他们人口普查已经扩展的1万个问题了,就是每一次做一次人口普查,细到你们家里多少头牛,产多少花生,有多少土豆,多少家禽,全部记录下来,谢尔曼发起这个行动时,他拿到最新的人口普查数据,他根据这个人口普查的数据去计算,说这个地方这个镇这条路线有多少奶牛,有多少土豆,有多少马匹,我的部队到了那里能不能支持住,我不要后勤。换一句话说,他在当地抢。所以他这场战争,走过400公里,历史上叫死亡之路,不是说他死,是挖地三尺,走到哪里就抢光,所以亚特兰大本来是一个富裕的州,他走过后,变成一个贫穷的州,从此一蹶不振。所有的部队都是精良状态,6.2万人。一万人打仗,需要几万人补给,所以后勤是一个重大的问题。数据是什么?数据是对客观世界的测量和记录,正是因为有这些测量和记录,才能做这件事情。
我们世界的现象是普遍联系的,数据能够把这些普遍联系记录下来。我们人类一切的知识、努力目的是什么?目的是为了更好的掌握未来,更好的预测未来。阿里巴巴在做什么?那不就是预测吗?明天这个东西要卖多少,什么人会来买?如果知道你来买,你还没买,我就把东西发给你了,带给你的用户体验多好啊。数据是预测世界最好的工具,数据表示的是过去,表达的是未来,数据就是规律的载体。
案例实在太多,谷歌可以根据搜索的情况知道流行病的情况,比美国疾病预防中心还要准,今天早上一起来,大数据一检索,在推特、微博平台上有人说我感冒了,有人说我感冒了,塞鼻子,这些数据一旦增多,意味着流行感冒可能来了。
这是我们传统小数据时代,但是到今天,我们数据爆炸到我们难以想象,我们最早计算机互联的是计算机,下一步要把机器连起来,成为物联网,再下一步要把人体连起来,原来我们说第一次数据爆炸,现在数据爆炸是发微信、微博、推特、微信新媒体影响,这是人在贡献数据,你一天发多少条微博,可能多的发微信二三十条,那不得了,一小时要发几条,未来机器跟人体一旦上网,是什么概念?是7×24小时源源不断的收集数据、产生数据,所以这个量级完全不一样。我们正在发生的这种数据爆炸是一个超级爆炸,我们难以想象的爆炸,一切都在数据化。
举一个例子,我刚回国时,在飞机上看到一个新闻,有一个在外打工的游子,打电话回家没人听。他非常担心,风尘扑扑赶回家,推门发现父亲母亲在房间死了几天了,父亲是急性病发作,心脏病,从浴室出来倒地身亡,母亲瘫痪在床,活活被饿死的。我们智能手环普及后,这些事情还会出现吗?你的心跳、体温源源不断送到云上,智能手环知道你睡着没睡着,未来最早知道一个人离开世界的可能是他的亲人,是云,是大数据。我们今天智能手环之所以还不够普及,是没有数据融通,没有找到杀手级应用,一旦跟医院打通,接下来就会发生很多变化,首先人去医院不用量体温、血压、脉搏,因为这些数据源源不断传在云上,大数据只要做一个分析就可以了,当异常的时候立刻把异常提交给医生,他会找你去医院。美国到医院去,第一件事无论是什么医院,哪个科,第一件事就是做量血压、测脉搏、体温,未来这个环节都不复存在。我们即将上网的是机器、人体。
回到我们刚刚最早的结论,互联网是沉淀数据的基础设施。
什么东西会连到物联网上去?计算机发展过程中经历了一个悖论,功能越做越好,越做越小,价钱越来越便宜。为什么硅谷这么有名,我们这个时代是硅驱动,大规模生产带来成本大幅度下降,这是摩尔定律。摩尔定律说的就是我们同一个面积上的晶体管,每一到两年就要翻一倍,大家这么一听没什么感觉,这有什么了不起的。一到两年翻一倍是什么例子?有一个囚徒跟一个国王下棋,这是一个传说故事,但是数学逻辑是真实的。国王说你下完后,我答应你一个条件。囚徒说条件很简单,我如果下赢了果王陛下,在第一格放一颗稻米,第二格放四颗稻米等等,放到64格,整个国家的稻米都不够了,这就指数级发展,你不算不知道,一算吓死你。你一天存一分钱,第二天存两分钱,第三天存四分钱,存了一年你有多少钱?我们今天数据的存储成本,为什么云服务那么便宜,因为存储成本下降多几乎为0的地步,1950年代时,那时候一兆要6千美元,一首歌都三四兆,当年存储器被发明时,保存一首歌几万美元,现在是0.00000几美分。存储器的价格在它被发明到今天,它下降了几百万倍,大家想象汽车,计算机是我们这个信息时代的标志,汽车是工业时代的标志,汽车从发明到今天价格下降了几百万倍。我们今天存储器的价格是什么样的?像以太,一个中型图书馆全部拷下来就以太,就这个硬盘这么大,现在300人民币。你花300人民币买这样一个硬盘,把整个图书馆拷下来,放在口袋带着走,关键是这300万人民币还在下降,现在很多人相信,到2020年,我们摩尔定律还在按这个规律,每一到两年价格还在下降,芯片的密集度还在上升,这个规律到现在还有效,到2020年还在生效,2020年之后可能就到极限了,没办法再降了。到2020年这个东西可能就是30块钱,30块钱就把整个图书馆拷下来,放在口袋里带着走。
我们今天看到的是什么?只要有液晶显示器的地方,意味着它是硅驱动,软件驱动的。这意味着它可以连上互联网,非常轻松连上互联网,我们今天看到所有带液晶显示器的地方,大家可以想像这个量级多大,DVD、电视、洗衣机、微波炉,只要有这个东西,它就可以连上。连上后做什么?全部在互联网上可以操控,然后它们就在互联网上产生数据,未来的生产,格力生产空调,明珠已经在讲,他们未来的空调是怎样的,现在已经在实践了。空调出去的时候,在生产的时候就有一个传感器放在里面,因为传感器太便宜了,这在记录空调运行的过程,为什么要记录这些过程,因为记录了这些过程,数据表示的是过去,表达的是未来,我通过分析这些数据发现一点点异常时,就发现这台空调要更新,这台空调要维修。没产生问题的时候,格力就知道了,就派人进来了。我们说的是空调,飞机上的螺旋桨也是同样的道理。很多不可控的事件就变成可控了。很多不该停的电就不会停了,防患于未来。
我们未来的大数据有四类,第一类是最传统的商务过程的数据,第二类是环境状态的数据。
传感器会分布到生活的各个角落,所以我们说天气预报,这个词已经不足以概括我们天气产业、气侯行业正在发生的事情,美国怎么去做它的天气,他们把传感器装到大巴上,这个大巴从纽约开到波士顿,每10秒钟收集一次数据,10秒钟收集温度、光照度、湿度,现在地球上哪一个点是多少温度都知道,这是精报。再把传感器放在邮车上,邮件送到哪里,就收集这个小区的污染度、噪声度。第一次数据大爆炸,新媒体数据、社会行为的数据,第二种是即将引起更大规模的爆炸正在发生,第三种是物理实体的数据,未来我们可以看到万事万物背后都有一个数据报跟它相对应,这就是我们今天另外一个热门技术,3D打印。打印的东西在快速增加,你关注报纸,基本上每天中国的报纸都有关于3D打印的消息,珠宝也可以打印了,面包也可以打印,房子也可以打印,武器也可以打印了,武器打印是前两年的新闻了。美国的武器,数据包放在互联网上,被下载几十万次,有人打印出可以发射子弹的手枪,英国记者把手枪带到火车上,引起了新闻效应。
数据化生产是怎样的?只要这个数据包,生产这种数据包,有原材料、打印机就可以生产。现在全世界有几万种3D打印机,已经成了一个产业了,你要打印一件东西,得找一个咨询公司,他告诉你要用哪个公司生产的打印机,能打印的东西在快速增加,我们未来生产会变成什么样子?生产一双鞋子,你的根、花型、鞋带粗细要做一个改变,改变一行代码,拿到这个数据包,修改一下代码,我要一个3厘米的跟变成3.1厘米,然后就可以打印出来。我们今天讲的都是正在发生的事情。很多制造不会在工厂发生,3D打印机现在几千万美元就能买到一台,你要生产一个杯子,你想在这个杯子上加上省总工会的标志,我只要50个,工厂可以不愿意给你生产,你先找杯子的数据包,找到后,在互联网上把这个包下载下来,找懂的人加一行代码,省总工会加上上面去,谁有生产杯子的打印机,可能离你很近的地方有一个人有生产杯子的打印机,他生产好了就给你用互联送过来,我们的制造模式,无数微制造的中心出现。
大的工厂可能生产的就是几种款式,很多小的款式,小微款式,都由微制造中心发生。今天人类个性化需要得到抑制,工厂调研一下,发现今年这几双鞋子这几个款式可能畅销,我就生产这几个款式,人们对款式的需要是成千上万的,每一个细节都可以做改变,这是玫瑰花,我想要一个芍药花或者桃花,未来全是代码。工厂要研究一下,我只生产这几个款式,其他的我生产不了,都由微中心制造。这是未来我们对工业的影响。
对工业的影响太多了,阿里巴巴在做很多事情,我们在做什么事情?今天我们要把工厂搬上互联网,什么意思?我们今天的淘宝是干什么?就是卖东西,改变的是商品的流通领域,我们今天工厂搬上互联网,把自己的生产档期开放出来,作为商品销售出去,这是另外一场革命,甚至我们正在发生的这场革命,我们预计会以东莞为中心,东莞在半年内,现在有几百家企业上到互联网上,把自己的生产档期开放出来,就是告诉他,在互联网上,我能生产什么,现在生产能力多少,无数要生产这些的买家,就在这个平台上对接,直接在平台上下单,我们这个平台没多久,现在日均成交量一天500万,很少,跟淘宝没法比。我们穿一件衣服,最早的时候经过很多环节,最早是一块布,我们把原料提供商也搬到互联网上,标准化,把它变成数据,之后工厂来采购这些原材料,直接在上面采购,采购完了进行生产,再找到下一家生产,设计师也在互联网上,他在买卖自己的创意、设计,整个从生产到销售全部互联网上,这是我们正在做的事情,我们这个产品叫淘工厂。数据化的生产跟数据化的管理,对我们工业领域,还有数据标准,整个过程要标准化,我们一旦做到了,今天最大的挑战是什么?是原材料的管理,各种布匹来料标准太多,我们要制定一套标准放上去,让别人一看就知道这是什么东西。接下来才有所有的流程。我们今天的陶工厂开放的第一个板块就是服装,接下来包、箱子、鞋子这些板块全部要上去,它对经济是怎样的盘活?对工业影响很大。
农业也是一样,今天微信里没有人说无人车了,都说无人机。无人机在干什么,我们上半年的时候,淘宝已经用无人机送了一次货。前两天佛山开车,佛山已经启用第一架警用无人机,飞到100多米高空在高速公路上取证,不仅高速公路,很多场合都可以取证,现在一家无人机就几百美元,农场主买了后,让无人机在农场不断的飞,把整个农场拍下来,今天拍的和昨天拍的用软件进行对比,一对比发现,哪个地方的果实变成红色了,变成黄色了,哪个地方的叶子被咬了,哪个地方的土干裂了,再采取措施,加入了一个精细化的耕种。我们无人机是一个可以飞行的传感器,未来可以变成可以飞行的机器人。现在无人机不仅在中国,在全世界都是一个热门话题。
电力领域,电线的检修,电线的架设跨越田野、平原,靠人去走。无人机沿着这个电线飞就可以了,一旦发现有问题,停下来360度飞一圈。今天的信息技术已经可以做到任何一件东西进库都必须留下记录,整个数据化过程,这个已经完全没有问题了,信息技术做到这里很简单。
农业也在改变,大数据对农业的改变,互联网上有很多例子,服务业不用说了,为120万顾客提供个性化的票价。就像根据所说的,为几亿人提供个性化淘宝页面,每个人看到的都不一样。我们淘宝一做,打开立马翻倍。我们现在是一个注意力匮乏的时代,大数据信息爆炸,注意力是最宝贵的。注意力经济,我们都关注N多微信,到底哪个公众号最后让你打开一下,所以我们今天是标题党,大量的标题党在吸引,大家在想尽办法获取你的注意力,因为你的注意力是有限的,你关注了这个东西,就不能关注那个东西。
我们在进入一个新的经济,经济状态有各种各样的叫法,知识经济、网络经济,我把它叫新经济,新经济以数据为依托,所以我把它叫数据经济。去年世界互联网大会,我去做演讲,我讲的就是这个数据经济。去年全国没有人讲数据经济,今天开始中国慢慢有人讲数据经济了。
最后讲一个大的话题,众包、众筹跟共享。
共享经济,我们今天的共享经济怎么发生的?嘀嘀打车、快车是标准的共享经济,到底是怎么发生的?它的发生就是因为数据,为什么?
人类从来没有一次有这么大的能力进行大规模的数据交换,我们在大量的信息中,把最合适的信息挑拣出来,在合适的地点推送到合适的人。把正确的信息在正确的时间推送到正确的人,这不是一件容易的事情。
嘀嘀打车首先解决的第一个事情是信息对称。原来你要去一个偏远的地方,找一个的士他不愿意去,因为他回来注定99%要空手回来,所以他不愿意去,今天无论你去哪里,他都愿意去,而且越远越愿意去,他开到那个地方,我们的数据平台可以把正确的信息挑拣出来,传递给他,告诉他500米地方,离你不远的地方就有一个人又需要打车,所以他今天去一个偏远的地方,100%他知道他不会空车回来,所以我们这个软件平台一推出来,中国空车率大幅度下降。
80年代90年代早期出国的人都知道,到国外招手就能打车,打电话预定。我们90年代、2000年,我们的车全部盲目在街上走,到处找客,效率低,浪费节油,阻碍交通一系列的问题,今天在上海、北京、杭州,基本上过了招手打车的时代了。如果上空有一双眼睛看,中国现在还有很多出租车存在这个问题。
共享经济完成第一件事信息更加匹配,更有效了。这拉动新的蓝海,原来不开出租车的人也来开出租车了,我有车闲置家里,我加入这个平台去开就可以了。我专门坐了一次优步,大家可能想象不到会发生什么事情,传说中优步发生了很多故事,员工下班叫一辆优步,司机是上级,碰到很多女司机之类的。我没有碰到女司机,我发现很有意思的是事情,我叫的优步,坐优步去机场,一上车小伙子喋喋不休跟我讲话,告诉我为什么开优步。我们阿里巴巴是一个很大的园区,几万人在里面,对面有一个科技园,也有大概上万人,所以他不接其他地方单,就接那个地方,他说那个地方很多高管,他说我开车不是为了赚钱,是为了认识阿里巴巴的高管。他说您去哪里找机会跟阿里巴巴高管可以相处一个小时,送到机场,做一个小时的交流,这是他的目的。他说我又能认识朋友,又能开阔眼界,还能赚钱,所以他调动了多少社会资源。他把很多资源都盘活了,所以这是我们共享经济的意义,不仅让经济变得更加有效,还增加了新的蓝海、新的资源。
很多模式都在发生变化,这个校验码,是我的校友路易·安(音)200年发明的,QQ用完后会有一段字符界面,因为现在机器在恶意注册,在互联网上,不知道你是一条狗,就是为了鉴别你是一个人,还是一台机器,还是一条狗。路易·安发现全世界每一个天有几亿个校验码在校验,纽约时报想把自己上百年的报纸电子化,一百年前的报纸字体也不一样,扫描识别字符识别率很低,唯一的办法让打字员一篇文章一篇文章的敲下来,所以电子化这是很难的事情,路易·安把报纸切成一小片,作为校验码发给全世界,一天几亿的校验码被校验了,只要三个人认识这一篇字符是一样的,输入同样的结果就整合回去。他成立了一家公司,24个月完成129年报纸的电子化,这个公司最后被谷歌买掉了。理论上他没有花一分钱,没有雇一个打字员,这叫众包。众包不是外包,外包是把这个东西包给一个特定的人,以特定的价格让他帮你完成,今天互联网上不知道包给谁,还不要钱,类似的事情在不在发生?在发生。
我再举一个例子,我们现在手机上有一些应用,帮你管理名片,很多应用甚至对这个名片一拍立刻转化为数据,这件事情免费的,很多应用在存这个数据的同时,这个数据也同时被存到云上,为什么他要做这件事情?这是众包。终端有多少用户,每天帮他收集数据,这是一个什么库?我们陈总今天给了我一张名片,我扫进去,陈总的电话、工作单位都上到云上了,接下来会发生什么?可能一个月后,我收到一条短信,告诉我陈最换了一个新的电话,高升到另一个岗位,你想不想知道,他去哪儿了,他电话多少?你说我想,那你做我会员,一年20块钱,或者一个5块钱。它为什么能知道,因为陈总认识另一个朋友,另一个朋友有了名片,拍了下来。如果陈总是一个女的,成交率又要大幅上升。这就是众包,这种模式在大量出现。
今天你去纽约旅游,已经不用住酒店了,在这个网上找一下,住到人家家里,他把他的房子共享出来。
我真实经历的一个例子,看过我的书的人都知道,我的两本书都是许卓云(音)老先生写的序,他是有名的历史学家,我发现许卓云在维基有中文条目,没有英文条目,所以我有一天想给许老先生建一个英文条目,维基百科像建百度百科一样,你说他是历史学家,你要有来源,我写编辑条目时,我用第一个来源就想第二个来源用哪里,从哪里找一条有说服力的来源,比如说北京大学、中国历史协会,要引用这些才能证明。等我把第一条建完,我刷新页面发现第二条来源已经被世界哪一个角落的人已经加进去了,那一刹那,你建这个条目,世界另一个角落,另外一个地方已经有人看到了,他也认为这个事情值得做,也在协同,我再刷新页面,第三条也加上去了,互联网能调动多大的能量,远远超出我们的想象,他在全世界平台上调动能量。我记得那天下午,我最大的感受,我想到中国的俗语,林子大了什么鸟都有。我当时就是一只鸟,关注许老师的条目,不知道哪个地方有另一只鸟,你们开始协同。云给人什么能力,给全世界协同的能力,在云上,可以跟全世界协同,你不知道是谁。很快众筹网站一大批涌现出来,我想做一件事情,我需要钱,我在互联网上发布方案,有没有人愿意投钱给我,甚至捐钱给我。像Kickstarter,为全国9万个项目,融4.5亿美金,投资177个国家。这是英国的FundingCircle,8万美元项目,29分钟融完。我做这个项目更需要8元美元,29分钟,全世界的钱融到这个平台上,完成这个交易。所以我们今年开始,国务院发了一系列的文,都在关注这些问题,这是+投资,还有P2P借贷,是我们今天的信息,可以在这个平台上进行非常有效的交换。一切变成数据。
归根结底,我们整个社会越来越多的资源,包括时间、一个人的技能、智能、金钱,能够自由的交换、流动和整合。我们能看到这种变化在各个领域发生,越来越多的资源在自由的进行交易和整合,现在按摩师都被解放出来了,按摩师要不要在一个店里按摩?很多APP都在做这个,直接通过APP下单,厨师在APP下单,让他做好菜给你送来,或者请到家里。去年有一篇文章,越来越多的人不依附于组织,他成为个体执业者。还有医生,这些平台也在出现,病人要找医生,医生需要病人,在平台上对接,一对接立刻给你提供资讯、资料。马云先生有一句话,公司是工业时代一个最伟大的发明,但是到信息时代,越来越多的不是人为公司工作,是公司为人而存在,公司为人而服务,很多个人都会从公司中解放出来。
开放数据,数据既然是最重要的资源,就要开放出来,让它流动。如果不开放,那资源不流动,就不能产生价值。我们知道数据的价值怎么来的?是1+1>2,要整合数据才有价值。原来微信刷屏的,说欧洲一家面包店知道哪一个面包晴天卖得好,哪一个面包阴天卖得好,为什么中国的面包店不会发生。因为他们气侯数据是开放的,在互联网上一下载下来,跟自己的数据一整合就能发现。我们今天开放数据是推动知识经济、网络经济、新经济的发展,是要站在这个高度上看开放数据,是推动行业跟经济发展。
数据文化是什么?数据是追究精确的、逻辑、理性、分析。科学的根本是什么?数据就是科学的载体,我们说一件东西科学,就是量化它,把它变成数据,这样才能成为科学。量化是科学最主要的手段,没有其他的手段,当一件东西要科学化,就是要量化,把它变成数据。
大数据不是黄金,不是矿藏,黄金跟矿藏是1.0时代,我们对大数据认识1.0时代都不准确,为什么?那是可消耗的。数据不是这样,历久弥新,用了还在这儿,数据是我们迈向智能社会的土壤。所有的智能都源于数据,没有哪个智能不源于数据。所谓的智能就是机器在自动处理大量的数据后,可以为人类重复的完成一些常规性、重复性任务,我们就说机器有智能。为120万人量身订作票价,就是120万人都可以拿到不同的票价,理论上也可以做到,可能要10万人来做,事实上是行不通的。今天机器产生的智能,毫秒单位类为120万人解决问题。不要说120万人,240万人也同样几秒钟解决问题。数据是这个时代的土壤,为什么今天都意识到数据是战略者,我们要提高到土壤这个层次上认识问题,还要开放数据。开放数据就是土壤上的河流,河流流过的地方,才会孕育起发达的数据文明。
(编辑:耿雁冰)
21世纪经济报道及其客户端所刊载内容的知识产权均属广东二十一世纪环球经济报社所有。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。
分享成功