k8凯发·(中国)天生赢家,一触即发

让AI查了330次新闻：平均准确率25%近一半链接打不开丨AI幻觉捕手

时间：2025-05-25 16:09:22

浏览：

　　自DeepSeek全球走红后■★，各个AI尝到了推理大模型的甜头，纷纷新增了“深度思考”功能。不过，在溯源新闻事实上，我们并没有发现深度思考让AI准确度明显更好或更糟。只有通义千问在打开深度思考后★■，愿意回答的问题增加了★■◆，但错误也更多了。

　　这种局面是由底层结构决定的◆★◆■◆。App内的信息孤岛，大部分在搜索引擎的公域网中不可见，只有“自家人◆★■◆■■”才能索引，大厂旗下的AI因此拥有得天独厚的数据库。互联网时代围墙花园的问题，在AI时代依旧在加固。

　　对新闻媒体来说，这意味着两重更大的挑战■★◆★：一方面，拒绝被AI引用变得困难。比如，该研究指出，虽然《今日美国》直接屏蔽了ChatGPT爬取网站★◆★■，但ChatGPT抓取了雅虎新闻的转载页面，提供原文的副本；另一方面，有些媒体和AI公司牵手成为合作伙伴，希望换取精准推荐与流量回报，但AI仍然会错误引用转载版本。被视为解药的版权合作◆★★★★，效果没有想象中好★★■■★■。

　　AI的另一个问题出在引用链接上★★◆。在联网状态下，AI应当要附上来源链接，这是用户验证真伪的第一步。但在我们统计的330次查询中，大约43%的回复提供了无效链接，要么AI称无法提供■■■◆★★，要么链接已被删除。

　　AI普遍链接到新浪财经、腾讯新闻等门户网站，不乏给自媒体◆■◆★■◆“搬运号”引流■★■◆★★，而不是原始来源★◆。媒体拿流量更难了。

　　以“查一条新闻”为起点■★★，我们对六款国产AI进行了测试，评估AI引用新闻事实的可靠程度。

　　美国宣布对所有贸易伙伴加征“对等关税”的消息持续动荡，这几天里，手机里的新闻弹窗爆炸，不同地区、不同行业的关键词在标题里轮番滚动◆■★。

　　不过★★★★■，也存在损害媒体权益的情况。各个平台的内容池鱼龙混杂，原创内容、转载文章、自媒体洗稿并存。比如新浪财经账号经常“全文转载”其他媒体的原创报道◆★◆★，媒体署名虽在，但流量早已转嫁◆■。测试结果显示，AI有大约14%回复引用了这些转载链接，而非官方链接。

　　AI很难准确引用新闻报道，六款AI的平均准确率只有25%，其中豆包最准确■★★、文心一言出错最多、通义千问最常拒绝回答。

　　有用还是正确，目前对所有AI依然是一道选择题：太追求正确，容易走向宽泛无用，但具体有用的回复往往避免不了错误■◆★。要让技术继续前进，比错误更关键的两个问题是★★■，AI哪里容易出错？为什么会出错◆★★★■？

　　类似的状况也在全球范围内上演◆◆★★■。哥伦比亚大学数字新闻研究中心的最新研究指出，Grok-3和Gemini在超过60%的回答中提供了失效链接。在正确回答中，AI也倾向于引用雅虎新闻、AOL（美国在线）等转载链接★◆■■，而非原始来源★★◆。

　　另一种情况里★◆◆★■◆，AI分辨不出自媒体的转载文章。以经济观察报采访的《一位高中化学老师的困惑：阿司匹林实验怎么做不成了》为例，虽然原文有明确的记者署名，但一部分内容被自媒体账号照搬洗稿后，DeepSeek把作者归为该自媒体★■。

　　令人意外的是，有些链接并不是失效★■，而是纯属虚构。比如，《第一财经》发布的一篇关于亚马逊低价商品的报道，被DeepSeek误判作者为“刺猬公社”，并配上了一个根本不存在的网址◆◆■◆◆：。

　　根据各个AI产品“吐出”的链接■★★★■■，今日头条、微信公众号两家平台的链接出现次数最多■■★◆★■，但这并不意味他们渠道铺陈到位★◆◆，恰恰相反，这些■■“吐出■■■★”的链接多来自他们自身的产品：今日头条链接出现的37次里■★◆◆★，34次都来自字节跳动旗下豆包AI■■■★，剩下3次来自Kimi，其他平台引用了0次■◆★◆◆■。

　　然后◆★■，我们从这些新闻报道中手动摘取片段，以此一一询问AI◆■：◆★“请帮我找出包含这段引用文字的原文出处，并提供标题◆■◆◆■◆、原文作者、原链接：……■◆★★”

　　回到2000年前后，搜狐、新浪、网易■◆■★、腾讯四大门户网站兴起，开始将各大媒体的原创报道“搬运”到自己的新闻专区里。到了2017年，今日头条又革了新闻行业的命，移动互联网的普及和个性化算法将海量自媒体账号推上舞台◆■◆。传统媒体◆★★◆★■、门户网站、内容平台就此开展了为期十多年的拉锯★★：2014年◆◆◆★，《广州日报》起诉今日头条侵犯著作权；直到2023年，腾讯仍然和今日头条有侵害知识产权的法律纠纷★★◆。

　　为了保证结果可靠，这30篇报道都发布于2024年至今，能在百度或必应上搜到网页原文。从每篇报道里截取的片段大约300字，都是通过记者采访得到的事实，有采访人物、地点、数据等独特元素■◆■★■■，而非通稿消息。

　　这也不是一个AI时代的新问题■★★★■。许多媒体早已意识到互联网推荐算法的影响，试图打造自己的独立App和官网★★，但实际情况并不理想■★★。中国社会科学院在2020年对三万人开展了问卷调查，以此发布的《新媒体蓝皮书：中国新媒体发展报告》显示★◆，七成以上的人从微信获取新闻信息，四成左右在抖音里看新闻◆■，其次是今日头条和微博■◆■■★。

　　拿南方媒体来说◆★◆，广东省网信办今年1月公示的《互联网新闻信息服务单位许可信息》显示，《21世纪经济报道》《南方都市报》《南方周末》《南方窗》在内的119家广东媒体，一共注册了1197个公众账号，相当于一家新闻媒体平均拥有10个不同账号。这些账号覆盖微信公众号◆■、今日头条号、百家号、网易号、搜狐号等，构成一张庞大的合作网。

　　有必要对AI做一次系统测试。这不是“哪个AI更强■■◆★◆”的排行榜，而是★■★◆“哪个AI更可信”的质检，比起能力，更关心每一条AI生成内容背后的信息责任★★。

　　AI果然高效。短短几秒里，它就给出了股市情况、行业冲击、中国应对措施★◆◆■★。有言之凿凿的数据★■★◆，有生动的案例，比如华为启动了“鸿蒙供应链计划”，联合1500家供应商构建去美化产业链；Temu★◆★◆◆■、SHEIN等平台被迫提价15%~25%；TikTok商家伪装东南亚店铺销售.★◆◆■■....★■◆.

　　今年3月，来自美国哥伦比亚大学数字新闻研究中心的最新研究指出，让AI查找新闻时，八款AI搜索提供的回复有 60% 是不准确的◆◆◆★◆。

　　找基本的新闻背景，AI还称得上靠谱◆◆★■◆。在测评的330次回答中■■★★◆，AI只有28次完全说错了报道标题和事件（占比约8%）。

　　但AI并不擅长辨别◆★“新闻事实来自哪里★■◆”。当被问到原文作者时，AI的表现出现了明显滑坡——90次回复完全错误（约27%），是三项指标中错误率最高的一项。

　　例如，我们拿一篇讲述老人王秋生在直播间网购古董的片段提问★★■■，几乎所有AI都准确指出原报道是《在假古董直播间疯狂下单的老人》，来源却五花八门。这篇报道由澎湃新闻采写、发表在腾讯新闻中，而DeepSeek的回答是■◆：“作者是澎湃新闻转自腾讯新闻”◆★。

　　站在媒体的立场上■■◆◆■，如果AI能引用媒体官方账号的链接——不管是官方搜狐号还是官方今日头条号，都能拿到属于内容创作者的流量。

　　去年5月时，我们也测试了不同AI搜索的准确度★◆◆◆。当时Perplexity带火了“AI搜索”概念，AI联网搜索之后，一方面有了实时更新的知识库，一方面更有可能拒绝回答不确定的问题。但今年的测试结果显示，AI搜索依然会自信提供错误答案，而不是“谦虚★◆★■”承认局限性——除了通义千问，所有AI错误回答的次数都比拒绝回答多。

　　在这之中，豆包情况最严重，30次查询中8次查询都引用了转载链接，主要引流向今日头条的自媒体号◆■■◆◆■。

　　同样的，27条微信公众号的链接◆★，19条都由腾讯旗下元宝AI引用。文心一言、豆包在个别场景下也能提供公众号链接，其他平台没有提供过★★。

　　这些错误并不完全因为AI能力有限，也与国内新闻的分发模式有关◆★。国内新闻并不遵循“发布即来源”的简单逻辑，而是多平台、多账号的复杂格式■◆★■■。

　　更令人担忧的是媒体自身的可见度。尽管许多媒体也有自己的官方网站，但除了澎湃新闻◆◆★■★，其他媒体官网很少出现在AI文献列表里。相比之下■◆◆，搜狐★★★★■◆、网易★■■★、新浪、腾讯四大门户网站是AI更普遍的索引资料★■◆，补上缺位的App数据。

　　但这些★★◆■“故事”这么快就出炉了吗◆◆■？作为记者◆■★★，出于职业本能的半信半疑，一条条点进链接查看★◆★★■◆，结果发现有的说法出自个人账号，看不出来源■■★；有的是好几年前的行业数据——今年情况早就不同了；还有的数据根本就是无中生有◆★■，前文提到的几则信息均是如此。

　　AI经常表示自己找不到链接，或者提供已被删除的链接，因此很难验证出处——而且一些打不开的链接地址明显是编造的★◆■■◆。

　　不同大模型的准确度不同。按照正确◆■◆★■★、错误★■、没回答的情况分别赋分，整体来看，豆包得分最高，50%的回答完全准确，通义千问吊车尾。而在错误率上文心一言最高，87%的回答出现错误。

　　一些模型的问题更突出。文心一言和通义千问（深度思考版）有超过三分之一的回复，提供的是无法打开的链接，其他AI的频率则要低得多。

　　我们总共提问了330次（3篇报道x10家媒体x11个版本AI）★■■■，在AI的330次回答中，只有大约25%的回答完全正确，即准确回答了标题、作者和链接三个指标◆★。

　　换句话说◆◆，哪些新闻会被优先推送■★、哪些新闻更容易被看见，一定程度上仍然取决于不同平台的算法设计■★★★。而AI的到来，并没有改变这一结构★■★★，反而可能固化。

　　类似的，Kimi的回答也出现混淆。一篇由北青深一度采写、在网易新闻发布的家暴报道■★◆，Kimi直接把作者归为网易■◆■★。

　　沿着这一测试方法■★■◆★，我们在国内选择了10家市场化运作的机构媒体——一半偏社会新闻（新京报、澎湃新闻、北青深一度、南方周末★★◆◆◆◆、三联生活周刊）★■■■，一半偏财经新闻（21世纪经济报道★★◆■■、第一财经、每日经济新闻◆★■、财经杂志、经济观察报）。每家媒体3篇报道★◆★◆，一共30篇新闻报道★★。

　　我们拿着30条新闻片段，一共向AI提问了330次。这是330次问讯后的几个核心发现：

　　但这张合作网在AI时代带来了新的混乱。从此次测评结果来看◆■★，AI常常被新闻分发矩阵所迷惑——它面对的是同一篇文章的多个■◆◆◆■★“面孔■■”，难以识别哪一个才是作者。而移动互联网时代未被根治的自媒体“洗稿”“搬运”“伪原创”等老问题，则在AI中继续发酵◆★★■。

　　住建部重磅发声■★！我国超9★★■■■◆.4亿人生活在城镇，城市发展质量和人民生活水平显著提高

　　想要快速看懂发生了什么★◆◆■★，却越刷越眼花缭乱★■◆■★，突然想到◆★◆：能不能让AI帮忙总结一下“美国最新关税加征政策对市场的影响”◆★■？

　　经历了一次次法庭对簿★■★★■，互联网平台逐渐重视起◆■★“新闻搬运工”的侵权问题，也开始争夺优质内容。现在■◆■◆◆■，传统媒体与互联网平台已经形成了成熟的合作模式，通常是签订版权合同★■、开通官方账号，一篇稿件全网多发■◆★■★◆。

上一篇 : 新浪新闻app上线小时全方位提升财经快讯阅读体验

下一篇 : 新浪微博最新资讯-快科技--科技改变未来