"误判连连：9.11与9.9的大小，记者实测12大模型仅2个答对"

网络阅读： 2024-07-17 08:41:34

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

根据您提供的文章内容，以下是优化后的版本：
---
**一道小学生数学题难倒众多AI大模型**
![小学生数学题](/d/file/p/2024/07/3201916283545350550.jpg)
近日，一道小学生的数学题难倒了众多海内外AI大模型。具体问题是：“9.11和9.9哪个更大？”经过测试，12个大模型中，有4个给出了正确答案，而其余8个都答错了。
**错误答案分析**
- **阿里通义千问、百度文心一言、Minimax和腾讯元宝**：这四个模型都正确地认为9.11大于9.9。
- **ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量**：这八个模型都给出了错误的答案。
**错误原因探讨**
大部分答错的模型在比较时都错误地关注了小数点后的数字，认为9.11大于9.9。当问题限定为数学语境下时，即使是如ChatGPT这样的大模型也会出现错误。
**背后的问题**
大模型在数学能力上的不足是一个长期存在的问题。有行业人士认为，生成式的语言模型从设计上更偏向文科生而不是理科生。不过，针对性的语料训练未来或许能逐步提升模型的理科能力。
**扩展背景**
这个问题最初是由艾伦研究机构(Allen Institute)的成员林禹臣发现的。他在X平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。此后，Scale AI的提示工程师莱利·古德赛德基于此灵感变换了问法，并成功引发了公众对这一问题的关注。
事实上，如果追溯问题的根源，这起事件起源于国内一个综艺相关的热搜。在《歌手》的排名中，国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%，引发了关于数字大小的争议。
**结语**
尽管AI技术在许多领域都取得了显著进展，但在数学推理等特定领域仍然存在挑战。为了提高AI的准确性和可靠性，未来的研究和开发仍然任重道远。
---
希望这个版本能够满足您的要求！如果有其他需要，请随时告诉我。

本文原创，转载保留链接！网址：https://licai.bangqike.com/cjnews/645707.html

标签:

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。