LinkedIn利用用户数据训练AI受阻,科技公司与监管博弈加剧|AI训练数据合规

合规科技郭聪聪,刘欣 2024-09-25 16:42

21世纪经济报道 见习记者郭聪聪 实习生刘欣 北京报道

近期,又一起科技平台利用用户数据训练AI的行为被英国监管机构(ICO)叫停。

此次“踢到铁板”的科技平台是目前全球最大的职场社交平台LinkedIn,这家总部位于美国的社交平台在全球200多个国家/地区拥有超过8亿用户。

该事件的起因是用户发现Linkedln在并未更新用户隐私政策之前,就在较长的一段时间内私自使用用户输入数据训练AI模型,用户立即对此表达不满与担忧,舆情引起了英国“开放权利组织”(ORG)的注意,将此事投诉至ICO。随后,ICO在一份声明中表示对LinkedIn做法的担忧,并建议LinkedIn暂停此类模型训练行为。

此前6月,坐拥Facebook和Instagram的Meta公司也因ICO监管而搁置类似计划。不止如此,在近一年内,Adobe、Zoom、Snap、谷歌等多家科技公司纷纷试图通过更新隐私政策的方式,合法使用用户输入数据,然而无一例外均遭到用户不满而引起当地监管注意。当地监管机构可有权请求科技公司停止违法行为,对拒不改正的科技公司,监管机构将依据欧盟数据保护法规开展诉讼,事实上已有科技公司收到了高达2.4亿元的处罚单。

用户数据蓝海的诱惑令科技公司与监管机构博弈加剧。此时Meta公司另辟蹊径,选择与监管机构合作,遵守监管的反馈建议,同时确保数据使用更加透明。目前该合作模式初现成效,9月14日Meta已官宣成功重启了已搁置三个月的用户数据使用计划。

LinkedIn未事先通知,使用用户数据训练AI 模型

9月18日,媒体报道了一则“LinkedIn未经用户许可,利用用户数据改进其生成式AI产品”的新闻,就此事LinkedIn回复媒体称,“尚未更新其服务条款以反映这一数据处理行为,但将‘很快’更新其服务条款。”换句话说,LinkedIn确认了其曾在较长一段时间内,存在默认使用用户数据训练其 AI 模型的行为。

凭借着精准的用户定位、丰富的用户产品、高效的社交互动,LinkedIn在全世界范围内拥有超8亿用户。用户在注册时,LinkedIn会收集手机用户的邮箱信息、手机号码等信息,注册成功之后用户会上传个人信息、教育背景、职业档案信息、工作场所等信息以获得求职机会。

据报道,多个用户发帖称以LinkedIn正在未经用户许可,利用用户的数据来改进其生成式AI产品。LinkedIn的内置生成式AI功能可能会使用用户的个人信息来自动建议写作内容,并且用户数据被用于训练这些功能背后的模型。

用户对此表示了强烈的不满和担忧,认为这是对隐私的侵犯。有用户在LinkedIn上发布了如何关闭数据收集功能的指南:用户可以通过点击个人资料,选择“设置”,然后选择“数据隐私”,找到“用于生成式AI改进的数据”选项,并关闭该功能。

隐私专家和数字权利组织“开放权利组织”(ORG)注意到了LinkedIn的行为,认为LinkedIn的行为违反了用户的数据保护权益,并向英国信息专员办公室(ICO)提交了投诉。很快,ICO开始关注此事,其风险执行主任Steven Almond在一份声明中表达了对LinkedIn做法的担忧,并建议LinkedIn暂停此类模型训练行为。

于是,迫于监管机构与用户的双重压力,在报道发出当日,LinkedIn就迅速更新了隐私条款。

更新的隐私条款明确了三件事:一、平台将使用用户数据训练生成式AI模型;二、目前不会训练来自欧盟、欧洲经济区、英国或瑞士的成员的内容生成 AI 模型;三、允许用户在账户设置中关闭用于生成式AI改进的数据功能。

然而,需要注意的是,即使用户选择了关闭个人数据用于AI 模型训练,LinkedIn仍可能会使用之前收集的数据。

LinkedIn表示,公司会收集和处理用户与平台交互的数据,包括个人数据。这可能包括:1)用户使用生成式AI或其他AI功能的情况;2)用户的帖子和文章;3)用户使用LinkedIn的频率;4)用户的语言偏好;5)用户提供的任何反馈。

就拿平台用户使用生成式AI功能来撰写“个人资料建议”举例来说,用户的输入和输出结果、使用信息、语言偏好以及提供的任何反馈,都将被平台拿来当作“饲料”继续“喂”给生成式AI模型。

目前此功能仅对部分LinkedIn高级订阅者开放,仅提供英语、西班牙语、德语、法语和葡萄牙语版本。未来,此功能可能会逐步提供给更多用户。

​与监管达成合作,Meta已重启在英训练AI模型计划​

当AI阔步发展引发了行业数据追赶竞赛后,如何将存储在平台的海量用户数据利用起来是科技公司苦苦求索的难题,首先掣肘的就是用户隐私政策及法律规定。因此,各大科技公司纷纷出招,更新隐私政策在用户接受度与监管容忍度的边缘疯狂试探。

用户对于个人数据用于生成式AI仍较为抵触。与LinkedIn的违规做法相同,X公司也在未明确告知用户的情况下,自动收集了用户的帖子、互动、输入和结果,用于训练生成式AI聊天机器人。该行为在今年7月被平台用户发现后,被投诉至爱尔兰数据保护委员会(DPC),DPC采取了诉讼措施,双方在诉讼中达成和解,X公司承诺“永久停止处理来自欧盟和欧洲经济区用户的个人数据用于人工智能模型训练”。

此外,今年 6 月初,Adobe 也闹了一个大乌龙。起因是Adobe在隐私政策更新中加入了一句关于自动化的短语,这被用户误认为Adobe将使用用户个人数据将被用来训练 AI 模型,因此遭到用户强烈反对。对此Adobe 特意通过博客文章澄清,这些变更是为了检测和删除非法内容,不会使用存储在 Adobe云上的文件来训练其 Firefly AI。

监管紧箍咒也遏制了公司借助用户数据训练生成式AI的节奏,今年6月Meta就因受到监管压力而暂停了类似计划。

但就在9月14日,Meta宣布重启了其利用英国用户数据训练人工智能的计划,Meta在一篇博客文章中表示,此次重启计划是与信息专员办公室(ICO)的达成了合作,已获得数据使用的明确性和合法性,这为企业与监管机构之间的协作带来了新消息。

ICO监管风险执行主任Stephen Almond表示:“ Meta对其方法进行了调整,包括简化用户反对数据处理的流程,并为用户提供更长的反对期限。Meta现已决定恢复其计划,我们将密切关注Meta如何向英国用户传达此信息,并在未来几周内开始处理数据。”

此外,在数据使用透明度方面,Meta也做出了示范操作。Meta明确表示,他们不会以私人消息、18岁以下用户的信息进行AI训练,对于成年用户的信息也是经用户授权同意后才会使用。

Meta称,9月下旬开始将向英国成年用户推送应用内通知,并明确其数据使用方式及如何反对其数据被用于AI训练的选项。

在公众与监管的关注下,Meta此次重启计划离不开与ICO的合作,本次Meta采用的数据合规使用方式无疑是积极有效的,人工智能技术的未来离不开大规模的数据集,如何确保训练过程中的数据使用完全合规是,需要科技公司进一步探索。

(作者:郭聪聪,刘欣 编辑:王俊)