21社论丨完善数据治理,推动人工智能产业健康发展

21社论 2026-03-19 07:00

近日,央视“3·15”晚会曝光了一条利用人工智能实施的灰色产业链——AI“投毒”。报道中,记者购买了一款名为“力擎GEO优化系统”的软件,虚构一款并不存在的智能手环,散布于多个互联网平台。结果显示,多个AI大模型在回答相关问题时,竟主动推荐了这款虚构产品,且排名靠前。

所谓AI“投毒”,是人工智能数据污染的一种典型表现,指行为人通过主观恶意编造、篡改数据,诱导人工智能输出错误信息。需要指出的是,数据污染并非伴随大模型才出现。早在搜索和算法主导互联网信息的时代,人为篡改和操纵数据以提升排名、谋取商业利益的现象就已存在,并在部分领域形成灰色产业链。

当前,各类AI大模型已深度融入人们的工作与生活,数据质量直接决定了模型能力的上限与安全的底线。AI数据污染,除了一些人为主动注入恶意数据外,更隐蔽、更普遍的来源,是模型在采集海量网络数据时,未能有效甄别和剔除其中存在偏差、失实或劣质的信息。

我国相关研究数据显示,当训练数据集中混入仅0.01%的虚假文本时,模型输出的有害内容便会增加11.2%;即便虚假文本比例降至0.001%,有害输出仍会上涨7.2%。这表明,哪怕极小规模的数据污染,也足以对模型安全构成实质性挑战。在我国大力推进人工智能规模化应用的当下,必须将数据质量与AI数据污染治理置于战略高度,以清洁可信的数据优势,支撑人工智能产业的健康、可持续发展。

数据污染更深层的影响,是触发“递归污染”。人工智能既是数据污染的受害者,也是污染数据的再生产者。当污染数据被模型吸纳并生成内容,这些被污染的内容又可能被反复抓取、用作后续模型的训练数据,从而形成“自我吞噬”的递归循环。这种现象需要警惕并及时应对。

以央视曝光的GEO灰产为例,相关问题需及时治理,同时,就内容生态而言,AI生成爽文的成本趋近于零、产量近乎无限,若此类内容持续获得算法推荐,优质原创内容将被海量“数据垃圾”湮没,出现“劣币驱逐良币”的生态失衡。

需要警惕的是,数据污染一旦发生,治理难度远超污染本身。数据验证、核实与过滤需要投入大量专业资源,且往往难以彻底消除影响。因此,需要从源头阻断,避免递归污染不断累积,导致模型输出质量下降,以及认知能力退化。一项研究表明,当模型长期暴露于低质量网络信息时,其能力退化是深层、持久且难以修复的,相当于让模型“永久变笨”。

因此,必须以前瞻性、系统性的思路,加大对人工智能产业链源头的污染治理力度。

当前,《生成式人工智能服务管理暂行办法》及新版数据安全法已将AI训练数据纳入监管框架,但仍有待深化。针对人工智能发展过程中涌现的新问题,应进一步完善治理规则,尤其要强调以预防数据污染风险为核心的制度设计,在责任设定上更多体现风险导向和过程规制,而非仅靠事后行为结果的追责。

数据信息质量及其治理问题,对于全球AI行业而言,是一个共性的课题,全球应加大合作,积极提升数据治理水平。