爬虫受限 AI训练数据供求双方对抗白热化丨AI数据合规

王俊 2024-08-16 14:12

关联内容

21世纪经济报道记者王俊实习生韩佳序北京报道

AI科技公司与数据持有方的对抗正在白热化。

近日，人工智能专家吴恩达在网站The Batch上提及了一篇有关数据许可的研究，研究发现C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议，开放数据获取变得愈发困难。

随着本轮生成式人工智能的快速发展，为给大模型“喂”数据，科技公司从各个渠道搜刮数据，直观反应就是过去一两年间，网络爬虫激增。这带来了数据对价、版权、用户隐私等问题，对OpenAI、Anthropic这两家AI行业最瞩目公司的谴责和质疑不绝于耳。

业内普遍认可的爬虫协议（Robots协议）逐渐失效。君子协议一旦被打破，行业必将上演新的博弈戏码，此次研究提到的开放数据获取困难，正是爬虫与反爬虫不断对抗升级、AI科技公司与数据持有方缠斗的最好注脚。

AI数据荒雪上加霜？

训练数据是构建和优化 AI 模型的基石，是大模型成长的基础和驱动力。高质量数据是训练性能优越AI模型的关键，但当前却面临着“高质量数据告急”的情况。

此次研究成果，让本来就有数据荒危机的AI行业雪上加霜。

研究发现，从GPTBot出现（2023年中期）后，在robots.txt层面进行完全限制的网站数量激增。

根据模型预测，无论是robots.txt还是ToS，这种限制数增长的趋势都会持续下去。

OpenAI、Anthropic和Common Crawl的受限占比位列前三，都达到了80%以上，但网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。

研究人员担心的是，这不仅会影响商用AI模型的训练，也会对学术界和非营利机构的研究造成阻碍。

君子协议下互联网数据掘金

开放的互联网生态为何变得谨慎起来，又为何对AI科技公司关上窗户？这要从爬虫说起。

爬虫是指在互联网上爬取各网站、平台数据信息内容的程序。按照编写好的规则，能自动为使用者爬取互联网上的数据信息内容。它们通常使用自动化数据抓取技术来自动访问网站，并收集、解析和存储网站上的信息。

伴随着互联网发展，爬虫技术广泛应用于搜索引擎、内容聚合、电子商务比价或市场研究、社交媒体舆情监测、竞争情报分析等等多个领域。

不过，爬虫存在灰色地带，爬虫软件既可以帮助使用者便捷地大范围获取网页数据，也常常因涉嫌侵犯平台方数据资产与用户个人隐私而遭到质疑。司法实践中，最著名的案件便是职业社交平台LinkedIn诉数据分析公司HiQ案，后者通过爬取前者数据并进行处理后将分析结果出售给相关企业获利，双方关于第三方是否有权爬取网站信息展开了长达五年的诉讼拉锯。

尽管爬虫存在争议，但是在“数据为王”时代，其为深度挖掘数据提供了巨大便利性，行业也形成一定共识基础：

一是爬虫协议，二是爬虫带来的商业价值以及形成的商业生态。

爬虫协议（Robots协议）是业内的君子协议。协议会将搜索引擎抓取网站内容的范围进行约定，包括网站是否希望被搜索引擎抓取，哪些内容不允许被抓取，如果将网站视为酒店里的一个房间，robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这能够保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

在爬虫协议的约束下，逐渐搭建以搜索引擎为主要场景的商业生态：让搜索引擎抓取你的网站，同时你会获得搜索引擎的流量回报。

Medium 创始人托尼·斯塔布宾（Tony Stubblebine）说：“谷歌是我们最重要的爬虫。谷歌下载 Medium 的所有网页，作为交换，我们获得了大量的流量，这是双赢。每个人都这么认为，这就是谷歌与整个互联网达成的协议，在向其他网站传输流量的同时，他们还在搜索结果中出售广告。”

也就是说，互联网时代爬虫虽然伴随着争议，但很多场景下能够构建起一个合理的空间，数据持有方与使用者之间一定程度能形成良性运行的机制。

这在上述研究中也有体现：网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。

数据荒背后 AI公司被反噬

然而，人工智能时代，科技公司们打碎了上述两个前提。

一是爬虫协议被不断突破。例如今年7月，AI独角兽Anthropic公司利用其爬虫工具ClaudeBot，无视网站许可协议，疯狂地访问抓取美国电子商务和指南网站iFixit的数据，导致后者服务器被严重占满。

面对iFixit公司CEO的公开指责，Anthropic公司的回应完全回避自己的爬虫工具“未经允许”的问题。

爬与被爬不断升级，AI公司不断升级爬虫工具，甚至利用人工智能爬取数据来“喂”给人工智能。例如基于人工智能的Python网络爬虫库Scrapegraph-ai，可以利用大语言模型（LLM）和直接图逻辑来实现“流水线式爬虫”。

面对来势汹汹的爬虫工具，有些数据持有者选择在数据中“投毒”，并敞开“大门”将“有毒数据”送给它们。所谓“有毒数据”，是指在数据中故意放置异常数据。这种数据库会扰乱模型训练。

双方激烈“攻防”的背后，反映出整个行业利益分配的不平衡，上述提及的第二个前提破裂。与之前被搜索网站爬虫可获得流量不同，数据持有者在AI公司的爬虫行为中不仅无法得到任何回报，反而还要接受“喂养”出来的大模型取代自身的风险。因此，数据持有者高筑“数据墙”也实属保全自身的无奈之举。

2023年8月OpenAI 发布了爬虫工具GPTBot，称在注重版权的基础上，使用透明的方式收集网页信息。尽管释放了友好信号，但旋即遭到《纽约时报》等封禁。

说到底，这是一门AI公司一本万利、数据持有方难以获得收益的生意。

各种网站正在快速在收紧他们的许可协议，是数据持有方的反扑，也是AI公司疯狂“攻城略地”时忽视数据持有者利益的反噬。

有评论称阻止AI爬虫可能是短期的胜利，长远的灾难。但是没有合理甚至可见的利益分配，数据持有方很难有动力开放。如何寻求双方都满意的解决方案，似乎仍有一段距离要走。

（作者：王俊编辑：蔡姝越）

南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权，任何人不得以任何方式使用。详情或获取授权信息请点击此处。

加载全文

王俊
向TA提问

记者

做数字经济时代的观察者。

爬虫受限 AI训练数据供求双方对抗白热化丨AI数据合规

AI数据荒雪上加霜？

君子协议下 互联网数据掘金

数据荒背后 AI公司被反噬

王俊 向TA提问

记者

君子协议下互联网数据掘金

王俊
向TA提问