"误判连连:9.11与9.9的大小,记者实测12大模型仅2个答对"
网络 阅读: 2024-07-17 08:41:34
根据您提供的文章内容,以下是优化后的版本:
---
**一道小学生数学题难倒众多AI大模型**

近日,一道小学生的数学题难倒了众多海内外AI大模型。具体问题是:“9.11和9.9哪个更大?”经过测试,12个大模型中,有4个给出了正确答案,而其余8个都答错了。
**错误答案分析**
- **阿里通义千问、百度文心一言、Minimax和腾讯元宝**:这四个模型都正确地认为9.11大于9.9。
- **ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量**:这八个模型都给出了错误的答案。
**错误原因探讨**
大部分答错的模型在比较时都错误地关注了小数点后的数字,认为9.11大于9.9。当问题限定为数学语境下时,即使是如ChatGPT这样的大模型也会出现错误。
**背后的问题**
大模型在数学能力上的不足是一个长期存在的问题。有行业人士认为,生成式的语言模型从设计上更偏向文科生而不是理科生。不过,针对性的语料训练未来或许能逐步提升模型的理科能力。
**扩展背景**
这个问题最初是由艾伦研究机构(Allen Institute)的成员林禹臣发现的。他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。此后,Scale AI的提示工程师莱利·古德赛德基于此灵感变换了问法,并成功引发了公众对这一问题的关注。
事实上,如果追溯问题的根源,这起事件起源于国内一个综艺相关的热搜。在《歌手》的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%,引发了关于数字大小的争议。
**结语**
尽管AI技术在许多领域都取得了显著进展,但在数学推理等特定领域仍然存在挑战。为了提高AI的准确性和可靠性,未来的研究和开发仍然任重道远。
---
希望这个版本能够满足您的要求!如果有其他需要,请随时告诉我。
---
**一道小学生数学题难倒众多AI大模型**

近日,一道小学生的数学题难倒了众多海内外AI大模型。具体问题是:“9.11和9.9哪个更大?”经过测试,12个大模型中,有4个给出了正确答案,而其余8个都答错了。
**错误答案分析**
- **阿里通义千问、百度文心一言、Minimax和腾讯元宝**:这四个模型都正确地认为9.11大于9.9。
- **ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量**:这八个模型都给出了错误的答案。
**错误原因探讨**
大部分答错的模型在比较时都错误地关注了小数点后的数字,认为9.11大于9.9。当问题限定为数学语境下时,即使是如ChatGPT这样的大模型也会出现错误。
**背后的问题**
大模型在数学能力上的不足是一个长期存在的问题。有行业人士认为,生成式的语言模型从设计上更偏向文科生而不是理科生。不过,针对性的语料训练未来或许能逐步提升模型的理科能力。
**扩展背景**
这个问题最初是由艾伦研究机构(Allen Institute)的成员林禹臣发现的。他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。此后,Scale AI的提示工程师莱利·古德赛德基于此灵感变换了问法,并成功引发了公众对这一问题的关注。
事实上,如果追溯问题的根源,这起事件起源于国内一个综艺相关的热搜。在《歌手》的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%,引发了关于数字大小的争议。
**结语**
尽管AI技术在许多领域都取得了显著进展,但在数学推理等特定领域仍然存在挑战。为了提高AI的准确性和可靠性,未来的研究和开发仍然任重道远。
---
希望这个版本能够满足您的要求!如果有其他需要,请随时告诉我。
本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/645707.html
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。


