21社论丨完善数据治理，推动人工智能产业健康发展

2026-03-19 07:00

近日，央视“3·15”晚会曝光了一条利用人工智能实施的灰色产业链——AI“投毒”。报道中，记者购买了一款名为“力擎GEO优化系统”的软件，虚构一款并不存在的智能手环，散布于多个互联网平台。结果显示，多个AI大模型在回答相关问题时，竟主动推荐了这款虚构产品，且排名靠前。

所谓AI“投毒”，是人工智能数据污染的一种典型表现，指行为人通过主观恶意编造、篡改数据，诱导人工智能输出错误信息。需要指出的是，数据污染并非伴随大模型才出现。早在搜索和算法主导互联网信息的时代，人为篡改和操纵数据以提升排名、谋取商业利益的现象就已存在，并在部分领域形成灰色产业链。

当前，各类AI大模型已深度融入人们的工作与生活，数据质量直接决定了模型能力的上限与安全的底线。AI数据污染，除了一些人为主动注入恶意数据外，更隐蔽、更普遍的来源，是模型在采集海量网络数据时，未能有效甄别和剔除其中存在偏差、失实或劣质的信息。

我国相关研究数据显示，当训练数据集中混入仅0.01%的虚假文本时，模型输出的有害内容便会增加11.2%；即便虚假文本比例降至0.001%，有害输出仍会上涨7.2%。这表明，哪怕极小规模的数据污染，也足以对模型安全构成实质性挑战。在我国大力推进人工智能规模化应用的当下，必须将数据质量与AI数据污染治理置于战略高度，以清洁可信的数据优势，支撑人工智能产业的健康、可持续发展。

数据污染更深层的影响，是触发“递归污染”。人工智能既是数据污染的受害者，也是污染数据的再生产者。当污染数据被模型吸纳并生成内容，这些被污染的内容又可能被反复抓取、用作后续模型的训练数据，从而形成“自我吞噬”的递归循环。这种现象需要警惕并及时应对。

以央视曝光的GEO灰产为例，相关问题需及时治理，同时，就内容生态而言，AI生成爽文的成本趋近于零、产量近乎无限，若此类内容持续获得算法推荐，优质原创内容将被海量“数据垃圾”湮没，出现“劣币驱逐良币”的生态失衡。

需要警惕的是，数据污染一旦发生，治理难度远超污染本身。数据验证、核实与过滤需要投入大量专业资源，且往往难以彻底消除影响。因此，需要从源头阻断，避免递归污染不断累积，导致模型输出质量下降，以及认知能力退化。一项研究表明，当模型长期暴露于低质量网络信息时，其能力退化是深层、持久且难以修复的，相当于让模型“永久变笨”。

因此，必须以前瞻性、系统性的思路，加大对人工智能产业链源头的污染治理力度。

当前，《生成式人工智能服务管理暂行办法》及新版数据安全法已将AI训练数据纳入监管框架，但仍有待深化。针对人工智能发展过程中涌现的新问题，应进一步完善治理规则，尤其要强调以预防数据污染风险为核心的制度设计，在责任设定上更多体现风险导向和过程规制，而非仅靠事后行为结果的追责。

数据信息质量及其治理问题，对于全球AI行业而言，是一个共性的课题，全球应加大合作，积极提升数据治理水平。

南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权，任何人不得以任何方式使用。详情或获取授权信息请点击此处。

加载全文

关联专题

21世纪经济报道头版社论

收录往期头版社论，以飨读者。