百度VS360七年悬案近日宣判:搜索引擎大战考验互联网开放精神

DR大数据王峰2020-07-25 14:21

百度和360这两家头部互联网公司,自从360在2012年推出360搜索后就成为直接竞争对手,彼此之间频生摩擦,引发了大量诉讼。

2013年,百度起诉360不正当竞争,索赔1亿元,引起社会轰动。这起纠纷因Robots协议而起,这是互联网网站与搜索引擎的沟通方式,又被称为爬虫协议、机器人协议,各个互联网网站通过设置Robots协议,“告诉”搜索引擎,自己的哪些内容可以被爬取,哪些则不能被爬取。

案件缘起于360搜索上线后,百度并未将其列入Robots协议白名单,因此360搜索无法爬取百度的网站内容。但360搜索越过了Robots协议,抓取了百度百科、百度知道、百度贴吧中的内容,并生成快照向360搜索用户提供。

这起案件在2014年8月7日宣判,百度胜诉,获赔70万元。但案件审理过程中,360提起了一项反诉,称百度利用Robots协议是为了限制360搜索,是为了维护自己的市场垄断地位而设立的竞争壁垒,带有恶意和歧视性。

这起反诉的结果是360获胜,法院判决百度构成不正当竞争,向360赔偿20万元。

不过,这场拉锯战可谓旷日持久。在一审判决多年之后,今年7月,北京市高级人民法院才最终做出二审判决,维持原判,驳回百度的上诉。

这起判决的意义已超出“3B大战”的商业争端,而是对互联网搜索业务起到了厘清规则的作用。

“828夜战”打响

360搜索引擎于2012年8月16日上线。在此之前,360依靠免费策略彻底改变了互联网安全市场,随后掀起“3Q大战”,让互联网大佬腾讯极为被动。这一次,互联网搜索霸主百度也不免为之虎躯一震。果然,“3B大战”瞬间开打。

据第三方公司Hitwise数据显示,截至2012年8月26日,百度、360、谷歌、搜狗、腾讯搜搜的份额依次为56.44%、10.22%、7.54%、7.14%、4.72%。

也就是说,360搜索引擎上线仅10天,就抢占了搜索市场的十分之一,并让百度丢掉了近6%的市场份额。

一场国内互联网发展史上留名的“828夜战”打响了。2012年8月28日晚上9时左右,百度开始在小范围进行测试:用户通过360综合搜索访问百度知道、百科、贴吧等服务时,将会强行跳转至百度首页。

360随后展开对攻,用户在360浏览器中使用360综合搜索时,点击来自百度相关服务的搜索结果,会被直接带至“网页快照”页面。根据部分页面上提示的时间,这些百度页面的快照,应该是360搜索当日傍晚存储的。

双方采取这些举措的根源就是Robots协议。由于360搜索未被百度列入Robots协议的白名单,360搜索就无法爬取百度知道、百科、贴吧中的海量内容。虽然其时,360搜索宣称“拥有13000多台服务器,庞大的蜘蛛爬虫系统每日抓取网页数量10多亿,引擎索引的优质网页数量超过200亿”。

360搜索越过了Robots协议,直接向用户提供百度网页的快照。当时,百度工程师赵明华在微博中称,“360搜索不顾Robots协议肆意抓取百度数据,是一种不遵守互联网基本协议的行为,对全体网民的隐私和安全都会造成威胁,也破坏网民完整的搜索体验”,直斥360为偷窃数据(小偷)、劫持用户(强盗)、欺骗(骗子)合作伙伴(主要是中小站长)。

什么是Robots协议

理解“3B大战”,首先需要理解什么是Robots协议。

Robots协议的英文全称为Robots Exclusion Protocol,直译为机器人排除协议,又可称为爬虫协议、机器人协议,是指网站所有者设置于网站根目录下的一个文本文件,即robots.txt。

为了提高网络用户获取信息的效率,搜索引擎出现,但同时也带来了新问题:

一是网络机器人过快抓取或重复抓取相同的网页内容导致受访网站的服务器过载,影响网站正常运行,降低了抓取的效率;

二是一些网络机器人抓取网站管理后台的内部信息、临时性文件、cgi脚本等对网络用户没有使用价值的信息。

这些问题表明,需要建立一种受访网站与搜索引擎的网络机器人之间的交互方式,通过这种方式,网站所有者能够提示网络机器人哪些网页内容没有必要抓取,从而引导其抓取对网络用户有用的信息。

为解决上述问题,荷兰网络工程师Martijn Koster于1994年初首先提出通过在网站的根目录下设置robots.txt文件的方式来提示搜索引擎的网络机器人抓取的范围。

1994年6月30日,一些网络机器人设计者及爱好者在网络机器人邮件组论坛上就Martijn Koster的提议达成一致意见,并形成了一个书面文档《机器人排除标准》(《A Standard for Robot Exclusion》),其中有如下说明:“它不是一个由标准组织备案的官方标准,也不属于任何商业组织。它没有强制执行力,也不能保证所有目前的或未来的网络机器人将使用它。它是网络机器人的设计者们提供给互联网社区的一个通用工具,能够保护服务器免受网络机器人不必要的打扰。”

若某网站希望禁止任何搜索引擎的网络机器人抓取,该网站的robots.txt文件写法如下:

User-agent:*

Disallow:/

1997年,Martijn Koster向互联网工程任务组(IETF,Internet Engineering Task Force)提交了一份名为《网络机器人控制方法》(《A Method for Web Robots Control》)的互联网草案(Internet-Draft),其中对如何设置robots.txt文件作了进一步的说明。

IETF是互联网领域最具权威的国际组织,其主要任务是制定互联网领域的技术规范,绝大多数互联网技术标准均出自IETF。任何人都可以向IETF提交互联网草案,只有被IETF采纳才会成为行业标准或规范。

然而,IETF至今仍未采纳该草案。

被搁置的争议

2014年8月7日,百度起诉360不正当竞争案一审宣判,百度胜诉,获赔70万元。但法院在这起案件中搁置了百度Robots协议拒绝360搜索的合理性问题。

 

(2014年8月7日,百度360不正当竞争纠纷案宣判 来源:北京一中院)

此案中,北京一中院认定,360搜索引擎在网络用户点击原本链接到百度具体网页的搜索结果时,直接链接至奇虎公司网页快照界面,其行为明显已经超出网页快照的合理范围。这种行为构成了不正当竞争。

百度曾请求法院判令禁止360搜索抓取百度网站,但没有得到法院支持。

法院认为:百度在不知晓360提供搜索引擎服务的前提下,没有将360搜索引擎加入其Robots协议的白名单内并无不当。但是在360推出搜索引擎之后,尤其是在双方争议短时间内快速升级,行政机关和行业协会已经积极介入调处,360也明确表示希望抓取原告网站内容的前提下,百度既没有充分阐明如此设置Robots协议的理由,又拒绝修改其Robots协议。

事实上,根据今年7月北京高院作出的判决书披露,当年北京一中院已经就百度Robots协议是否合理留出了余地:“鉴于本案360对于百度将其网站相关栏目设置的Robots协议是否正当已经另行提起诉讼,对于网站服务商或所有者设置Robots协议限制搜索引擎爬虫机器人抓取的合理理由的范围不予评述,留待后续案件中,在双方当事人充分阐明对合理理由的意见后,再行判定。”

“3B大战”延续至今

2012年“828夜战”打响后,宜搜CEO汪溪接受媒体采访时认为,与“3Q大战”“二选一”、速战速决的打法不同,“3B大战”将是“小刀刮肉”式的持久战。

此话一语成真。“3B大战”引发了多起诉讼,双方互有胜负,延续至今。2013年10月,360起诉百度不正当竞争,此案至今仍在二审之中。

但360起诉百度Robots协议设置不合理,则将“3B大战”的层次从商战拉升到了互联网规则层面。

此案的争议焦点为:百度通过设置Robots协议的方式限制360搜索引擎抓取其相关网页内容是否构成不正当竞争。

在法律界,形成了完全相反的观点:有人认为如何设置Robots协议是百度的经营自由,有人则认为Robots协议的初衷是为了促进信息共享,应该保障互联网的开放、公平。最终,法院采纳了后一种观点。

在判决书中,法院举了一个形象的例子。

如果把网站比作一个对公众开放的博物馆,Robots协议就相当于在博物馆入口处悬挂的提示牌,告知游客哪些区域不对外开放,如:“本馆三楼301-302室正在装修、四楼为办公区,谢绝参观”。

提示牌的目的并不是限制游客的正常参观活动,而是通过提示游客哪些区域为非参观区,从而引导游客更有效的参观游览。

提示牌的内容对所有游客应一视同仁,如果要禁止某一类人进入参观,则需要有合理、正当的理由,如可基于安全的考虑,禁止无民事行为能力人进入参观。在缺乏合理、正当理由的情况下,禁止某一类人进入一个对公众开放的博物馆参观显然是不合理的。

2012年11月1日,在中国互联网协会的牵头组织下,十二家互联网企业签署了《互联网搜索引擎服务自律公约》(简称《自律公约》)。该公约第八条规定:互联网所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由。

开放、平等、协作、分享

法院认为,任由互联网公司设置Robots协议会导致以下后果:

第一,影响了360搜索引擎的正常运行。百度对Robots协议的设置方式导致360搜索引擎无法抓取其相关网站的网页内容,使得360搜索引擎的功能无法正常发挥,从而直接影响360搜索引擎用户的上网体验,进而可能导致360搜索引擎的网络用户流失。

第二,损害了相关消费者的利益。影响网络用户对360搜索引擎使用体验的同时,迫使存在相关信息检索需求的网络用户不得不更换其他搜索引擎,从而影响网络用户自主选择的决定权,增加了选择成本。

第三,将导致360搜索引擎与百度之间交易机会和竞争优势的“此消彼长”。用户放弃使用360搜索引擎,在导致360搜索引擎的交易机会和竞争优势受到削弱的同时,一定程度上增加了百度搜索引擎的交易机会和竞争优势。

事实上,包括互联网工程任务组在内的一些重要的国际组织拒绝采纳Robots协议作为行业标准的原因就是考虑到少数行业巨头可能会利用Robots协议本身的漏洞而将其作为垄断的工具。

第四,有违公平竞争原则,扰乱了正常的互联网竞争秩序。百度对Robots协议的利用方式,是将其他经营者区别对待,此种有针对性、歧视性的设置方式,有违公平竞争原则。此种行为与互联网发展普遍遵循的开放、平等、协作、分享原则不符,若任由其发展,可能导致同行业经营者的效仿,从而有损社会公共利益。

21世纪经济报道记者发现,目前在360搜索已经可以正常搜索并打开百度的网页内容。

此役过后,在公平、开放的竞争环境下,百度仍然牢牢占据国内搜素引擎市场的最大份额,360搜索得到了有效发展,新的搜索产品也在不断出现。

艾媒咨询《2018中国PC搜索市场专题报告》显示,百度仍然占据56%的流量份额,360搜索流量份额35.2%居于第二。而艾媒咨询《2019-2020年中国移动搜索市场运行监测报告》显示,百度移动搜索的用户份额为71.1%,神马搜索、搜狗搜索的用户份额分别为40.3%、32%。

(作者:王峰 编辑:李博)