小学生的送分题大模型的送命题

admin 阅读： 2024-07-17 16:21:42

（原标题：小学生的送分题大模型的送命题）

“9.11和9.9谁大？”这个人类小学生都能正确回答的问题，难倒了一批大模型。7月17日上午，经济观察网用这个问题询问了阿里巴巴的通义、腾讯的元宝、百度的文心一言、字节跳动的豆包，以及AI创业公司的大模型产品智谱清言、百小应、Kimi、海螺AI。8个大模型产品中，只有1个产品的回答正确。

回答错误的大模型产品，犯错的方式并不相似，它们背后的性格也各不相同。Kimi直截了当给出了几个字：“9.11大于9.9。”海螺AI的推理有一种荒谬感，它说，在比较整数部分时，因为9大于9，所以9.11比9.9大。

其余几个大模型产品都一本正经地分析这道题，并给出解题思路。它们的推理逻辑是正确的，但答案是错误的。它们都认为，应该先比较整数部分，当整数部分相同时，则比较小数点后第一位数。

通义倒在了推理的倒数第二步，它说，9.11的第一个小数位比9.9的第一个小数位大，因此9.11大。文心一言也是同样的逻辑，认为小数点后的第一位，1比9大。

豆包和百小应错在最后一步。它们说，因为1小于9，所以9.11大于9.9。

图1：大模型产品的回答

图2：大模型产品的回答

为什么号称能做奥数题的大模型，会犯这种低级错误？经济观察网询问了几位大模型技术专家，他们的答案各不相同。

一位互联网大厂大模型技术人员说，上述错误是大模型数学推理能力不足的体现。从业内评估榜单上看，国内大模型和国外大模型在知识型问答上差距不大，但在更难一些的数学逻辑推理能力上相差明显。他认为，关键原因在于，大模型训练数据中，语言模型对浮点数（带有小数点的数字）的建模和理解是不到位的，因此导致了上述错误。

AI上市公司创新奇智首席技术官张发恩认为，上述错误与大模型的分词机制有关，在当前大模型技术链条上，分词组件（Tokenizer）是比较弱的一个环节，很多问题也是由此引发的。他举例说，比如9.11一般会被分为3个token（处理文本的最小单元）：“9”和“.”和“11”。9.9也会被分为3个token：“9”和“.”和“9”。最后那个token的比较，容易让大模型搞错。

张发恩一直在训练工业大模型，见过大模型的各种错误。他认为，“9.11比9.9大”这种错误不算大事，人是高级智能体，可以做高级战略，但做三位数除法，口算一样容易出错，准确率不如计算器。

“随着大模型算法和工程技术进步，通过使用大模型的规划能力，或者智能调用专门的小工具，大模型这种错误会进一步减少。”张发恩说。

本文原创，转载保留链接！网址：https://licai.bangqike.com/gnxw/646418.html

标签:

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。

小学生的送分题 大模型的送命题

小学生的送分题大模型的送命题