这两天,有个非常“魔性”的事——
先是一则题为《演员王一博案,判了》的新闻发酵,文章提到,人工智能公司DeepSeek就AI模型违规将王一博与腐败案进行不当关联一事正式道歉,还援引了刑事判决书,随后,“DeepSeek向王一博道歉”冲上微博热搜。然而,多家媒体查阅DeepSeek国内外所有官方渠道,却发现无此“声明”,裁判文书网上也无法找到“声明”提及的判决书。此外,网上流传的“声明”是一张AI生成内容页面的截图,截图下方可以看见标明“给DeepSeek发送消息”的对话框。据《南方都市报》,虽说DeepSeek并未作任何表态,但“经多方核查发现,这则声明系使用AI生成”。
如今,不少人用AI写东西,若只是生成个道歉声明,没什么大不了。问题的关键在于,AI生成的声明被个别媒体当成事实报道了出来,有了媒体“背书”,虚假信息就此“洗白”,再经大量转载与讨论,其他AI大模型也出现了被“污染”的情况,在回答问题时称DeepSeek已道歉。“虚假信息—媒体传播—AI学习—二次扩散”的完整闭环就此形成,也揭示出AI大模型在信息海洋中被“污染”的一角。
疏于事实核查的媒体,被批评不冤。因即使不能判定“声明系使用AI生成”,只要去检索所谓声明、判决书,就能发现疑点,真假不明同样不适合发表。好在不管DeepSeek有没有道歉,都没有多大影响。而若语料污染发生在金融、医疗、法律等领域,大模型“食用”虚假信息的后果就会更为显化。比如,有股市“黑嘴”炮制假消息后,通过高频率、大规模地传播,污染AI语料库,误导大模型给出虚假内容,再雇佣“水军”扩散AI对话截图,人为制造概念股假象诱导散户接盘,制造“AI杀猪盘”。
造成AI语料污染的,不管是媒体不实报道及其引发的转载和讨论,还是别有用心之人造谣后借AI传谣,都会显著增加AI生成虚假甚至有害内容的概率。此次“乌龙”事件中,其他AI大模型也被“污染”,印证了业内人士所说的,AI生成内容还会造成递归污染——大模型生成的虚假内容被再次上传至互联网,成为后续模型训练的数据源,形成“污染遗留效应”。这种递归循环会导致错误信息逐代累积,最终扭曲模型的认知能力。故而,除了个别媒体没有把好关外,值得讨论的还有,如何加强虚假语料治理,以避免“纯净水中滴入墨水”。
针对“AI杀猪盘”等通过“自媒体”造谣诱导AI传谣的,引入权威信源“白名单”,优先抓取政府机构、学术期刊等可信数据,可谓釜底抽薪。至于媒体为虚假信息“背书”,则需要通过多层次多源交叉验证和权威数据库比对,过滤可疑内容。总之,警惕语料污染甚至数据投毒,避免AI沦为谣言“扩音器”。
(来源:南方日报)