人工智能的幻觉越来越严重,而且会持续下去

来自美国OpenAI和谷歌等科技公司的人工智能(AI)聊天机器人在过去几个月中一直在进行所谓的推理升级——理想情况下,它们将更好地提供人们可以信赖的答案。但最近的测试表明,它们有时比以前的模型做得更差。聊天机器人所犯的错误被称为“幻觉”,从它们诞生以来就是一个问题,现在看来,人们可能永远无法摆脱它们。
幻觉是大型语言模型(LLM)所犯的某些类型错误的总称,这些模型为OpenAI的ChatGPT或谷歌的Gemini等系统提供支持。它们有时会把错误信息当作真实信息呈现。幻觉也指AI生成的答案是正确的,但实际上与所问的问题无关,或者在某些方面没有遵循指示。
OpenAI的一份技术报告评估了其最新的LLM,显示其今年4月发布的O3和O4-mini模型的幻觉率明显高于2024年末发布的O1模型。例如,在总结关于人的公开事实时,O3有33%的时间、O4-mini有48%的时间产生了幻觉。相比之下,O1的幻觉率为16%。
这个问题并非仅限于OpenAI。美国Vectara公司发布的评估幻觉率的排行榜显示,一些“推理”模型——包括中国DeepSeek公司开发的DeepSeek- R1模型在内,与之前开发的模型相比幻觉率上升了两位数。这类模型在响应之前会通过多个步骤展示推理过程。
OpenAI表示,推理过程本身不应该受到指责。OpenAI的一位发言人表示:“幻觉在推理模型中并不是天然地更普遍,我们正在努力降低O3和O4-mini中更高的幻觉率。”
但LLM的一些潜在应用可能会因幻觉的存在而失败。一个不断陈述错误并需要事实核查的模型不是一个有用的研究助手;一个引用虚构案例的律师助理机器人会让律师陷入麻烦……
AI公司最初声称,这一问题会随着时间推移而解决。事实上,最开始,模型的幻觉往往会随着更新而减少。但最近版本的高幻觉率使这一说法变得复杂——无论推理本身是否有错。
Vectara的排行榜根据模型在总结它们所给文档时的事实一致性进行排名。Vectara的Forrest Sheng Bao说,这表明“推理模型与非推理模型的幻觉率几乎相同”,至少对于OpenAI和谷歌的系统而言是这样。Bao说,就排行榜的目的而言,具体的幻觉率数字不如每个模型的整体排名重要。
然而,这个排名可能不是比较AI模型的最佳方式。一个问题,它混淆了不同类型的幻觉。Vectara团队指出,尽管DeepSeek-R1模型的幻觉率为14.3%,但其中大部分是“良性”的:这些答案在逻辑推理或事实支持下是合理的,只是不存在于被要求总结的原始文本中。
美国华盛顿大学的Emily Bender表示,这种排名的另一个问题是,基于文本总结的测试“无法说明将LLM用于其他任务时出错的概率”。她表示,排行榜的结果可能不是判断这种技术的最佳方式,因为LLM并不是专门为总结文本而设计的。
美国普林斯顿大学的Arvind Narayanan说,问题不仅仅是幻觉。模型有时也会犯其他错误,例如利用不可靠的来源或使用过时的信息。简单地向AI投入更多训练数据和算力并不一定有帮助。
结果是,我们可能不得不与容易出错的AI共存。 Narayanan表示,在某些情况下,最好只使用这些模型来完成任务,因为事实核查方面,AI的答案仍然比自己做研究要快。但Bender表示,最好的做法可能是完全避免依赖AI聊天机器人提供事实信息。
本文链接:http://knowith.com/news-1-10574.html人工智能的幻觉越来越严重,而且会持续下去
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
辽宁考研机构实力排名?大连理工大学盘锦校区海洋工程研究生怎么样
跨专业考研(井冈山大学研究生院是几本)
中国地质大学考研难吗(中国地质大学考研难吗二本)
想考研但是不知道选什么专业(女生考研跨考适合什么专业)
考研英语70分有多难(考研英语70分有多难考)
普通二本考研还是考公务员(二本选择考研还是考公)
我的跨专业南开经院考研经验教训谈
2015经济学考研:西方经济学模拟试题二答案
2015经济学考研:西方经济学模拟试题六
中科院都有哪些所_中科院都有哪些所大学
天平:京东白条套线商家,教你五个简单方法秒到
如登春台:昆明代还信用卡垫还,可长期合作,多年经验诚信
立志成才:花呗额度怎么提现出来(试试3个最新的方法)
志在千里:花呗额度怎么提现出来现金(分享最新的十个操作方法)
大吉大利:东莞垫还信用卡,最便宜的地方,需要的请联系
花团锦簇:东莞代还信用卡垫还,找我就可以了,实体店多种方式
欣欣向荣:东莞垫还信用卡,可长期合作,需要的请联系
粤港澳大湾区跨境消费再升级 深圳市首个陆路口岸离境退税试点在文锦渡口岸启用
四季:微信分付怎么提现(3个提现方法很多人不知)
诚信第一:羊小咩便荔卡怎么套取出来完美的攻略: