开云体育官方网站 - KAIYUN

开云体育官方网站 多款主流大模子翻车!统共“50米洗车题”竟答“车在家,东谈主走往日”,网友吵翻:AI到底有莫得学问?

发布日期:2026-02-18 12:03    点击次数:174

开云体育官方网站 多款主流大模子翻车!统共“50米洗车题”竟答“车在家,东谈主走往日”,网友吵翻:AI到底有莫得学问?

{jz:field.toptypename/}

统共看似无厘头的生计题,这两天却冲上了 Hacker News 热榜,激发一场围绕“AI 到底懂不懂学问”的跨国臆测。

题目很通俗:“ 我想洗车,洗车店离我家 50 米。我应该开车去如故步碾儿去?”

这个被网友戏称“AI 版脑筋急转弯”的问题,很快成了磨真金不怕火大模子学问推奢睿商的统共小考题。更让东谈主好奇的是:为什么能解复杂数学题、写系统级代码的大模子,会在一个东谈主类险些不需要念念考的生计场景里集体“翻车”?

统共基础性问题,测出两种 AI

在东谈主类看来,这谈“50 米洗车题”的要道险些一眼就能看出来——要洗车,车必须在场。这个前提不需要刻意讲明,咱们会自动补全。但不少大模子,并莫得补上这一步。

从实测情况看,主流大模子或者分红了两个阵营。

第一类:逻辑严谨,但场地错了

张开剩余87%

其中,包括 OpenAI 的 ChatGPT、Anthropic 的 Claude、字节的豆包、月之暗面的 Kimi、阿里旗下的千问、百度的文心一言等,皆给出了至极“稳重”的分析。它们的念念路高度一致:

50 米距离很短,步碾儿粗造 1 分钟;开车需要启动、挪车、泊车,可能还会产生油耗和泊车本钱;步碾儿更环保;致使还有模子挂念“开往日会把车再恶浊”。

{jz:field.toptypename/}

最终纷纷给出了“步碾儿去洗车”的建议。

比喻,以昨日阿里最新发布的 进行测试,它还罕见作念了表格,细数步碾儿 1 分钟、开车需 3-5 分钟的时候差,以及开车的油耗、泊车本钱,从而建议「步碾儿去」,可谓有理有据。

ChatGPT 的逻辑念念维差未几,亦然基于时候、开车带来的本钱方面进行了念念考:

一向擅长复杂编码任务的 Claude Sonnet 4.5 也莫得躲闪这个“坑”,通常建议步碾儿:

至极自信的豆包也给出了访佛的讲解和复兴:

文心一言从“距离、便利性、本钱和洗车目的”多个维度进行了拆解,最终得出了「步碾儿去洗车店昭彰是更符合的礼聘」论断:

Kimi 的分析旅途险些如出一辙:

这些模子复兴看上去逻辑深刻、层次好意思满,但它们臆测的是“东谈主怎么去洗车店”,而不是“车怎么去洗车店”。

更有趣味的是,当被领导“车还在家里,你走往日洗什么?”时,不少模子速即认错,速即谈歉并修改谜底。

Kimi 直言我方刚才“没想明晰,这种情况必须开车去”:

千问承认我方之前的建议有“逻辑罅隙”,尔后修正了复兴:

Claude Sonnet 4.5 也稳重默示我方雄厚错了:

ChatGPT 也似是烦懑地进行了“找补”:

豆包经过领导后,弄明晰了问题的本体:

举座而言,这种“先自信输出,再即时纠错”的阐扬,kaiyun sports反而让臆测更吵杂。有网友辱弄说,这像极了考试时写满两页推导经过,终末发现题目看错了。

第二类:一眼收拢中枢

与之酿成对比的是,仅有少数模一眼看透问题,比如 DeepSeek、Gemini 和 Grok,它们给出了与上文天差地远的复兴。

DeepSeek 用时 8 秒给出了好意思满的念念考经过,平直点名问题的中枢:“自然距离唯有 50 米,但步碾儿无法将车移动往日。”

Gemini 3 不仅有些坚贞地说“必须开车去”,还给出了隔邻几家洗车店的保举。

Grok 的复兴更直白:“你要洗的是车,不是你这个东谈主”。

这让一些网友景仰,原本模子之间的差距不在算力,而在“第一步雄厚”。

争议:这到底算不算 AI 的失败?

跟着这一问题在 HN 上发酵,焦点逐渐从“谁答对了”转向另一个问题:这到底算不算 AI 的失败?

其中有一种不雅点合计,这是一次典型的学问测试。模子知谈“50 米步碾儿更省时候”,却没意志到“洗车的前提是车必须到场”。它们在匹配谈话方式,而不是雄厚施行天下。

HN 网友 jstummbillig 的指摘就很有代表性。他合计,若是咱们必须把那些东谈主与东谈主交流时根底不会明说的布景条目皆补充出来,那问题本人就也曾出现了。施行疏通不会先声明“车能平日开动、油箱有油、我有钥匙”。若是模子必须依赖这些显式设定技术得出正确论断,那它的“雄厚”智商确乎值得质疑。

但也有东谈主建议反问:题目并莫得讲明洗车店不提供上门取车职业。若是职业包含取车,走往日反而更合理。东谈主类会自行动念默许假定,模子有时会。这有时是穷乏学问,而是莫得替发问者补全隐含设定。

另一位网友 cynicalsecurity 说得更平直:“问了一个不好意思满的问题,就赢得了一个不好意思满的谜底。LLM 是器用,不是大脑。语境才是一切。”

还有不少声息相对中立。他们合计,这类题目适值很有价值。真确落地的 AI,不是在实验室里解数学题,而是在施行天下中雄厚朦胧需求。施行交流充满“没说出口但默许存在”的前提:你说“帮我订机票”,默许对方知谈登程地;你说“我想洗车”,默许车就在身边。东谈主类交流高度依赖分享学问,而模子并不自然领有这种警戒。

从这个角度看,问题裸露的不是推奢睿商,而是“问题雄厚”的范围。好多模子之是以翻车,并不是后续逻辑智商不及,而是在第一步分类时就偏了场地。一朝它把任务归入“短途出行建议”,后续推理再严实,亦然在作假前提上张开。

那么,你怎么看这谈 50 米洗车题?这是 AI 穷乏学问推理的字据?如故东谈主类刻意筹划的谈话罗网?亦或是咱们对“雄厚”本人的界说,其实并不一致?接待留言聊聊你的认识。

参考:

发布于:北京市



Copyright © 1998-2026 开云体育官方网站 - KAIYUN™版权所有

nxyc-kaiyun.com 备案号 备案号: 

技术支持:®开云体育  RSS地图 HTML地图