苹果AI研究引争议：模型推理极限还是评估方法有误？-知多少教育网-记录每日最新科研教育资讯

苹果AI研究引争议：模型推理极限还是评估方法有误？

ITBEAR

发布时间: 188次浏览

近期，科技界围绕苹果公司发布的一篇AI研究论文展开了热烈讨论。这篇名为《思维的幻象》的论文，于6月6日问世，迅速引起了专家们的关注与争议。

论文中，苹果公司提出了一项令人瞩目的观点：即便是目前技术最前沿的大型推理模型（LRMs），在应对复杂任务时也会遭遇崩溃。这一论断立即引发了广泛讨论，其中Open Philanthropy的研究员Alex Lawsen尤为活跃，他对苹果的结论提出了详尽的反驳。

争议的焦点集中在苹果论文所提及的一个实验：在处理如汉诺塔问题这样的复杂任务时，即便是最先进的LRMs也会彻底失败。汉诺塔问题，作为一个经典的递归算法难题，要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子上，过程中需遵守严格的规则。

针对苹果的这一发现，Lawsen在其反驳文章《思维的幻象之幻象》中，深入剖析了实验设计的潜在问题。他认为，苹果的研究结果更多地反映了实验设置上的缺陷，而非LRMs推理能力的根本性不足。Lawsen指出，苹果的研究混淆了输出限制与评估设置的问题，导致了对模型推理能力的误判。

为了支撑自己的观点，Lawsen提出了三大核心质疑。首先，他强调苹果忽略了模型在处理复杂任务时的Token预算限制。在处理8盘以上的汉诺塔问题时，一些模型如Anthropic的Claude Opus已接近输出极限，甚至因节省Token而停止输出。

其次，Lawsen指出苹果的“过河”测试中包含无解谜题。例如，当角色数量与船只容量限制不匹配时，模型因拒绝解答而被扣分。这一设置无疑对模型的评估造成了不公平的影响。

最后，Lawsen批评苹果的自动化评估脚本过于僵化。该脚本仅以完整步骤列表为标准，未能有效区分推理失败与输出截断的情况，导致部分策略性输出被错误地判定为失败。

为了验证自己的观点，Lawsen重新设计了汉诺塔测试。他要求模型生成递归Lua函数来打印解法，而非逐一列出所有步骤。这一改进的测试方法取得了令人惊讶的结果：Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法，远超苹果报告中所述的“零成功”界限。

基于这些发现，Lawsen得出结论：在去除人为输出限制后，LRMs在处理高复杂任务时展现出了强大的推理能力，至少在算法生成层面是如此。这表明，问题可能并不在于模型本身，而在于评估方法的选择与应用。

点击展开全文

本文链接：http://knowith.com/news-23-233165.html苹果AI研究引争议：模型推理极限还是评估方法有误？

声明：本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：苹果App Store兑换码系统全面升级，订阅与游戏内购均可享

下一篇：三星Galaxy Z Fold7将搭载AI算法，数码变焦与视频防抖效果大提升？

延伸阅读

热点精选

广东省2024艺考改革 2024年广东舞蹈艺考新政策

小编给大家带来了广东省2024艺考改革 2024年广东舞蹈艺考新政策相关文章，一起来看一下吧。 2024年广东舞蹈艺考新政策对艺术类专业进行了分类。艺术类专业分为“组织专业能力考试的艺

2023年春季高考专科分数线 2023春季高考专科录取分数线

2023年春季高考专科分数线 2023春季高考专科录取分数线相关内容，小编在这里做了整理，希望能对大家有所帮助，关于2023年春季高考专科分数线 2023春季高考专科录取分数线信息，一起来了解一下吧！ 20

编导艺考考什么？

山东美术艺考2024好考吗为何山东的美考竞争如此激烈？

今天小编为大家带来了山东美术艺考2024好考吗为何山东的美考竞争如此激烈？，希望能帮助到大家，一起来看看吧！山东省2023年美术艺考最新政策如下：除经教育部批准的部分独立设置本科艺术院

2024届艺考模拟考济南济南艺考文化课培训机构哪家好

今天小编整理了2024届艺考模拟考济南济南艺考文化课培训机构哪家好相关信息，希望在这方面能够更好帮助到大家。济南市艺术中学。这所学校专注于艺术教育，为艺考生提供了更为专业的文化课培训。学

镇江专科学校有哪些

今天小编为大家带来了镇江专科学校有哪些，希望能帮助到大家，一起来看看吧！镇江市高等专科学校等。通过镇江教育官网得知，镇江共有4所专科院校，名单分别为镇江市高等专科学校、江苏农林职业技术学院、

您可能感兴趣

【申报】关于发布2024年度车规级芯片科技攻关 “揭榜挂帅”榜单的通知

《人力资源服务机构管理规定》（人社部第50号令）

关于确定国家知识产权强市建设试点示范城市、强县建设试点示范县的通知（国知发运字〔2024〕2号）

【解读】《北京经济技术开发区小微企业贷款风险补偿资金管理办法》政策解读

北京市新型冠状病毒感染监测预警工作方案

北京市新型冠状病毒感染防治工作总方案

力箭一号遥三运载火箭成功发射

催化组合将二氧化碳转为碳纳米纤维有助抵消强效温室气体排放

科技部关于公布2023年度全国优秀科普作品名单的通知

科技部关于开展2023年度科技统计调查工作的通知

桂林一居民水费猛涨自来水公司：水表正常，用户可自行排查管道是否漏水

2025新价格，正版老挝恩曲替尼多少钱：印度/老挝恩曲替尼多少钱（售价在2955）不出国怎么购买老挝恩曲替尼呢