大模型测不出9.11和9.9哪个大_大模型集体失智！9.11和9.9哪个大，几乎全翻车了

大模型测不出9.11和9.9哪个大_大模型集体失智！9.11和9.9哪个大，几乎全翻车了是非常多小伙伴都想了解的内容，下面小编为大家整理的大模型测不出9.11和9.9哪个大_大模型集体失智！9.11和9.9哪个大，几乎全翻车了相关信息，欢迎大家的分享收藏哟！

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

近期，一个看似简单无误的问题——“9.11和9.9哪个更大”——竟让众多顶级人工智能模型陷入了尴尬境地。就连大名鼎鼎的GPT-4o也坚信9.11更大，谷歌的Gemini高级版与新星Claude 3.5 Sonnet亦步亦趋，给出了令人费解的解答逻辑。这不禁让人质疑，难道AI世界正在联手编织一场对人类的“知识欺骗”？

来自艾伦AI研究所的林禹臣尝试了不同数字，GPT-4o依旧未能幸免于难，凸显了AI在处理基础常识与数学直观能力上的矛盾：它们在解复杂的数学问题上日益精进，但在简单的事实判断上显得力不从心。

一些网友提出，如果将问题置于软件版本的上下文中，9.11版本确实表示较新，考虑到AI由软件工程师开发，这一点似乎提供了些许解释。然而，问题的核心在于，为何这些先进的模型会在基本比较上栽跟头？

这一切的发现归功于首位全职提示词工程师Riley Goodside，他在与GPT-4o互动时首次撞上了这个“知识盲区”。尽管试图通过更精确的提问方式来规避，如限定在“实数”范畴，但结果并未改善。有趣的是，调整数字的提问顺序有时竟然能触发正确的回应，揭示了AI对问题表述敏感性的微妙之处。

对于中文环境下的大模型，我们也进行了相似测试，发现它们的表现参差不齐。有的直接给出错误答案，如Kimi；有的虽然尝试通过网络查询来辅助，如文心一言，却在最后关头给出了误导性的结论。相比之下，腾讯的元宝和字节跳动的豆包在理解并正确回答问题上表现得更为出色，显示了它们在处理此类问题时的清晰逻辑。

深入探究，AI的困惑源于其基于令牌(token)的理解方式。例如，9.11在分拆后，“11”作为单独的令牌数值较大，导致模型误判。此外，训练数据中对这类基础数学比较的缺乏也是一个关键因素。

Goodside后续的实验表明，特定的提问格式是引发错误的关键，而非模型固有的缺陷。正确的引导，尤其是明确指出这是双精度浮点数的比较，能有效避免此类错误。这也激发了人们探索如何优化提示策略，以确保AI能够准确理解并回答问题。

此外，关于OpenAI新模型“草莓”的泄露信息，虽然在数学难题上展现出色能力，但对于“9.11与9.9哪个大”的基本问题，人们的信心并不充足，期待实际测试结果揭晓谜底。

这一系列事件不仅暴露了AI理解能力的局限，也促使研究者和开发者反思如何优化算法和训练数据，以提升模型在基础逻辑判断上的准确性。

以上就是多特软件站小编给大家带来的大模型测不出9.11和9.9哪个大_大模型集体失智！9.11和9.9哪个大，几乎全翻车了全部内容了，希望对小伙伴们有所帮助。

了解更多消息请关注收藏我们的网站(news.y866.cn)。