崔大鹏:“金枕头”酒店体验指数如何计算

21世纪经济报道
2015-09-23 15:03

各位嘉宾晚上好!今天主要和大家分享一个报告数据怎么来的,我们怎么样算出这个分数的。我们分四个部分讲,第一个部分做一个评选的基本说明,数据来源、覆盖范围。第二部分我们看一下基于大数据的计算方法和指标可以产生什么样的东西。第三部分,虽然我们是评选一个酒店的项目,但是我们很愿意从大数据解读出消费者到底需要什么,我们如何满足他...

各位嘉宾晚上好!今天主要和大家分享一个报告数据怎么来的,我们怎么样算出这个分数的。

我们分四个部分讲,第一个部分做一个评选的基本说明,数据来源、覆盖范围。第二部分我们看一下基于大数据的计算方法和指标可以产生什么样的东西。第三部分,虽然我们是评选一个酒店的项目,但是我们很愿意从大数据解读出消费者到底需要什么,我们如何满足他们的需求。第四个部分我们强调一下,因为我们有了大数据基础,明年可以做什么,怎么样做得更好。

这次我们报名参与的酒店很多,入围总共168家,其中包括11家酒店集团品牌,我们按照类似商务、精品、度假,做了一个分类。我们怎么样评价这些酒店,我们想了很多办法,我们现在认为最好的办法是在相关的垂直网站上抓取消费者对于酒店的体验评论。这些体验评论非常真实,如果你不住几个酒店,不下单没有办法做评论,而且现在的酒店评论允许晒单晒照片,这是非常真实的数据。我们全国一共有十几个有规模的酒店网站,我们选取了前五个,数据占十几家旅游网站的90%,这次我们选取了前五个,我们抓取了505万条消费者评论,我们为什么做这个,以往我们调研可能做一些问卷调查,问卷调查比较简单实用,但是我觉得这不合适。

当我们做问卷的时候我们需要引导被访者告诉他答案是什么,有一定的引导性。第二个问卷调查是人设计的,如果设计者对酒店的理解有缺陷,这个问卷就不够公正。第三我们问卷收集数据需要一个漫长的过程。第四个原因,如果一个酒店每天都是百分之百的入住率,从14个亿人里面如何找到人帮我们填问卷,这个太难了,没有办法做到。相反大数据在很多互联网平台上,消费者自愿地在表达对酒店的看法,这些表达里面充满了情感,充满了情故,数据资源非常丰富。

第二个消费者都是从个人需求角度评估酒店的,总有你意想不到的地方。将来只要一有评估就可以拿下来使用。对我们可以提高评估工作。所以我们这次没有做调研,我们重点用了消费者的评论数据。消费者的评论数据在网上有两种,一种是打分的,对你的卫生和地理、服务打分。另外一种方式是文字评论,这次没有用直接的打分,为什么?这是涉及到打分,大家可以看一下,我们携程上的评分总评分位置设施服务和卫生,我们不知道服务指的什么。如何把不同网站的数据加起来,我们没有办法做到。

第三每个网站的标准不同,我们没办法梳理。所以这次我们放弃消费者直接在网站上的打分,我们使用的数据是文字评论,我们为什么喜欢文字评论,大家可以看一下,随便在携程上找两个例子,这家酒店位置很好,前台工作人员效率很低等等,整个入住体验很糟糕,评论里面涉及到酒店体验的很多点,很生动。有一定的画面感。从早餐到艺术品从电视到床头柜。非常丰富的内容,如果用这种丰富的资源我们不使用我们做纯粹的打分,我们失去了很多,这次我们放弃了打分,用这样的一个数据,这些数据为什么很重要,因为我个人是做数据研究的,所以国外的两家顶尖杂志告诉我,这些评论如果用的好可以预测未来的入住率,另外如果你是上市公司的话和股市的业绩有关联。我们希望将来能够做到这个水平。

我们知道我们用什么数据评酒店,我们怎么做?文字评论怎么做?我们整个流程分了五个步骤,第一个步骤文字要分词,第二个部分要做词性的识别,好特别好什么词性等等。第三个步骤归纳一些消费者什么标准从什么方面做评论,我要做归纳。我选择酒店的时候关注卫生,卫生有很多子项,有了属性之外,我要打分,到底说的这句话是正面的还是负面的,可以想像505万条评论,不可能拿肉眼看一遍,必须机器来做,最后有了正负面的评论之后,我产生一个分组做排名。

什么叫分词,用户的评价,房间很干净,隔音效果好,我分成房间干净、物有所值、隔音效果好。我们根据搜狗的词典做分词。

第二个部分怎么样判断词性,服务员主动热情送行李到房间,我们先要区分这句话词性是什么,消费者从什么角度评估这个东西,提到了前台提到了服务员这些都是名词,形容词是用来描述名词的,我们从语句上区分。我们做的第三项工作,有些属性是相似的,客户用不同的语言表达,比如说Wifi和无线上网是一个意思。我们人知道是一个意思,但是机器不知道。我们要训练机器识别知道Wifi和无线上网是一个东西,把机器训练出来之后,就可以把Wifi和无线上网合并成一个属性。

后面的东西都是我们的名字,接近于消费者的选项,这些东西归结为酒店风格,酒店主题、功能、配套设计等等,我们合并成几个大环境,这四个。

消费者评论你的时候从哪四个纬度来评论,地理位置、周边环境、酒店设计的好不好,设计里面包括很多内容,酒店设施如何、酒店服务怎么样。

我们做完归类之后,我们做平分,你要知道一个评论里面可能十几个属性,点评的量超出了我们的想象,我们说了正面和负面的评论之后,我们把正面把一个属性的正面评论量用一个方程结合起来,我们放在下面的文章里面。有了分数排名之后,我们的专家他们的观察他们的评论用于校正分数,分五个步骤做点评。

我们把消费者点评最高量的30个词拿出来,评论最高的词是酒店两个字,第二个词是房间或者客房。第三个词位置。第四个词设施。离中间的词越近,说明点评频率越高。还有环境、早餐、游泳池等等等等,都是消费者评论比较多的词。比如说位置、交通说的是一个概念。我们把它综合成四个属性之后,占总体评论的多少,评论最多的是酒店设计,四大项里面的酒店设计,37%,其次是地理位置和周边环境,23%。再次是酒店的设施,21%。然后是服务19%。酒店设计方面消费者在指什么,一个是整体设计还有一个内部设计,整体设计里面你的外部配套环境和酒店功能非常重要,内部设计里面,客房的设计面积的大小和阳台,还有大堂的设计,换句话说消费者评估你的时候,你房间内部的设计的重要程度大于大堂的设计程度,外部的功能和外部的配套环境也蛮重要的。

基础设施包括什么,酒店的基本设施,有的消费者评论用到硬件软件,我知道他们指的是基本设施。剩下的词里面有卫浴设施、配套家电、网络信号、洗浴用品,这都是比较多的,配套设施里面有餐厅、泳池、儿童乐园、停车库等等,这是比较突出的。其他方面提到了水压、室内温度等等这些,他们也比较关注。

地理位置上这个大的纬度下,地理位置指的是购物娱乐餐饮这项。酒店服务的时候,他们谈的最多的是什么,人。酒店的服务人员还有一小部分是酒店的管理人员。在态度能力上面,你的服务态度远远高过服务能力,消费者认为消费态度是最多的一个方面,而且负面者居多。对于餐厅的服务点评的是用餐的具体时间段,酒水饮料、点心餐饮类型等等。

我们做这些有什么用,每家酒店在下面这些属性上的分数,都会看到,尽管我们这次评论是最佳最受欢迎的酒店奖,但是每家酒店的表现如何这些东西可以帮我们研究在消费者眼中这些酒店有什么差别,他们怎么竞争。举一下例子,宏观的点是属性,消费者点评的比较多的属性。蓝色的点是酒店集团品牌,我们取了部分,如果蓝色的点和红色的点离的比较近,而且靠在图的边缘,说明这家酒店在属性上相对得分,相对于竞争对手和自己来讲,得分是比较高的。在右上角香格里拉和希尔顿他们和一堆属性混在一起,就说明这些属性在消费者眼中差异不大。但是如果左边和右边有差异,金茂和万达,金茂左边的酒店和右边的酒店有差异,左边的酒店在地理位置周边环境包括卫生服务分数要高于右边,但是右边在硬件人员服务态度要高于左边,但是酒店之间没有什么差异,酒店做品牌做特色,酒店到了今天这个阶段要重视自己的特色,我的目标客户是谁,要满足他们什么需求,才能稳定住客源,如果不这样,洲际、香格里拉、喜来登在我们眼里没有什么区别,它们都是五星级酒店。

我们今年的分数就是这么来的,我不能讲排名是什么,但是明年可以做。明年我们做的重点是变化,我们保留酒店集团品牌的奖项,保留商务、度假、精品、艺术、新开业酒店的分类奖项。保留最佳酒店管理公司、最佳酒店业主等等奖项,我们增加分项奖,现在数据随时可以抓取,明年不是这168家了,明年要把500家全部拿下,我们做评估,我们增设综合服务类奖项,最佳洗浴体验、最佳睡眠奖项、最佳房间设计、最佳早餐奖、最佳餐厅奖。这是我们明显要增加的分项。我们有一个酒店集团的排名,但是酒店集团之下有不同的品牌,我们会做一个酒店品牌奖项。有一个数据可以详细到城市,我们也足够的数据量,明年会分地区重点城市按季度分布我们的HEI指数。

今年覆盖了五家旅游网站,有的酒店说重点可能不在这五家,明年我们会覆盖所有的旅游网站,我们的算法基于很多谷歌和自己研发的东西综合起来做一个算法。这是一个持续进步的过程,我们会持续改善各个算法,各个环节。有些部分已经在国外的杂志发表。我们会细化一些逻辑,比如说在酒店集团的年报中我们一般不纳入新开业酒店,明年我们考虑新开业酒店是否纳入酒店集团的评审中。基本上我们就是这样的内容,大家有什么问题,可以问我,谢谢!

(2015年9月21日)

X

分享成功