Qwen3.7-Max来了：一个拼命干活的AI

昨天阿里在云峰会上发布了Qwen3.7-Max，国产模型盲测第一，编程和推理评测超过了Claude Opus 4.6。我从B端做了6年产品，最近这1年转做AI方向，一直在跟各种模型打交道。这次我看得比较仔细——不是因为名次，而是它让我想清楚了一件一直没说透的事：Qwen和Claude其实是两种完全不同的人，你得分开用。

一、让我多看几眼的不是名次

5月20日阿里云峰会，Qwen3.7-Max正式发布。

Arena全球大模型盲测总榜，它拿了国产第一，把Kimi、DeepSeek、GLM这些都压下去了。全球来看，Claude、GPT、Gemini这些还排在前面，但差距已经在肉眼可见地缩小。

但这个名次不是让我停下来多读两遍的原因，让我停下来的是这件事：他们让Qwen3.7-Max在一块它训练时从没见过的全新芯片上，从空白工作区开始，自己写代码、自己调试、自己跑性能分析。没有任何文档，没有任何示例，没有人插手。他自己就跑了35小时。调用工具超过1000次。最终把推理速度提升了10倍。

我第一反应是：天呐，这太牛了！

二、官方说了三件事，我翻译一下

发布会上给了一堆评测数字，看完很容易脑子发懵。我挑几个跟日常用得上的说说。

最值得关注的是长任务能力。

以前用AI做稍微复杂一点的事，走着走着它就散了——要么开始说废话，要么绕回头重复之前说过的。这次Qwen3.7-Max专门在这里下了功夫。那个35小时、1000次工具调用的实验，就是在证明它能保持连贯，不会跑着跑着就垮。

打个不严谨的比方：以前的AI像外卖小哥，接一单跑一单，叫它做两步以上的事就容易出错。现在更像能独立跟进整个项目的人——你交代完，它自己跑完。

推理方面也有提升，会先把问题拆开再给答案，而且还会自己不断复盘，幻觉少了一些。在几个高难度推理测试上已经超过了Claude Opus 4.6，用过的人应该能感觉到差别。

编程据说很强，SWE-Pro这些评测排第一。但我不是技术背景，这块没法帮你验证，有经验的朋友们可以自己跑一遍再判断。

（顺便一提——每次大模型发布都会附上一堆评测截图，数字好看不代表用起来好用。后面我会说这个）

三、从Qwen之前的版本用下来，感觉它们是两种人

Qwen3.7-Max像个执行力很强的项目经理

你给它一个目标，它自己拆、自己规划、自己调工具、最后交付结果。你说”帮我做完这件事”，它就去做了，中间不需要你太多干预。如果你知道要什么结果的时候，交给它最省事。让它联网查资料、整理成报告、生成带结构的文档，扔进去基本能出来。

但它有个小毛病：爱自作主张。你没说清楚某个细节，它不问你，自己判断了就往前走。走偏了你得回头改，有时候比自己做还费事。

Claude更像个严谨的分析师，但有时候有点啰嗦

它不急着交付，更像在陪你把问题本身想清楚。你越跟它来回推，它给的东西越准。

遇到模糊的需求或者还没想透的问题，我基本先跟Claude对话。不是问它答案，是跟它一起把问题理清楚。但你要它快速出东西，等起来真的有点急。

两个我都在用，但用的场合不一样。要我选的话：想清楚问题找Claude，想把事情做完找Qwen。

四、最近身边用得最多的场景：面试前搞懂一个新行业

我认识几个最近在跳槽的朋友，面试前最头疼的一件事：要去一家完全不熟悉的公司，行业不懂、业务不懂，怎么在两三天内准备出来？

以前的办法是搜文章、找研报、拼凑个大概印象，费时间还零散。但是现在可以直接让Qwen3.7-Max来做这件事。

比如你要去一家做人形机器人的公司面试，直接告诉它：”我要去机器人公司面试，帮我搞懂这个赛道，市场规模、主要玩家、各家技术路线差在哪、近半年有什么重要动态，最后出一份带图表的分析报告。”

它自己去联网搜，自己读研报，自己整理，最后给你一份至少有框架在那的东西。你不用盯着，交给它跑就行。我认识一个做猎头的朋友就在这么用。她说以前帮候选人做行业速览要花半天，现在两三小时能出一份能用的东西。

但这份报告只是起点，拿到之后建议第二步换Claude：把报告粘进去，问它”这里面哪些判断站不住脚”、”我是B端产品经理背景，面试这家公司应该重点准备什么”。跟Claude来回推几轮，比单纯看报告理解深很多。

推荐大家两个配合着用，比只用一个强。

五、说一句可能不讨喜的话

国产第一这个标签很好看，但我自己每次看到这种新闻都会多想一步。

在编程和推理评测上超过Claude Opus 4.6，不代表你拿它做所有事都比Claude强。评测是特定任务、特定条件下跑出来的，和你每天实际用的场景差着一段距离。

还有一件事我观察了一段时间：模型排名一两个月就换一次，你刚熟悉一个工具，新的又出来了。但真正拉开差距的，不是你用的是哪个模型，是你有没有把需求说清楚，有没有一套自己用顺了的习惯。

追新模型这件事我现在做得越来越少了。

六、几个我还没想清楚的问题

昨天看完发布会，我一直在想一件事：Qwen这次不只是评测分更高，是它能干的活变了——以前AI是回答问题的，现在开始变成执行任务的。

我不知道这对做产品的人来说算好事还是坏事。

所以把几个问题扔给你：

你工作里有哪些每次都在重复的事，但从来没想过能交给AI？
你现在用AI，是更多在让它帮你”想清楚”，还是”做出来”？
如果一个AI能帮你扛35小时的连续任务，你最想让它干什么？

我也不一定对，欢迎评论区沟通。

作者：小蝶

扫一扫微信咨询

联系我们青瓜传媒服务项目

商务合作联系我们

本文经授权由青瓜传媒发布，转载联系作者并注明出处：https://www.opp2.com/381718.html

《免责声明》如对文章、图片、字体等版权有疑问，请联系我们。广告投放找客户找服务蘑菇跨境

运营大纲