Qwen3.7-Max来了:一个拼命干活的AI

昨天阿里在云峰会上发布了Qwen3.7-Max,国产模型盲测第一,编程和推理评测超过了Claude Opus 4.6。我从B端做了6年产品,最近这1年转做AI方向,一直在跟各种模型打交道。这次我看得比较仔细——不是因为名次,而是它让我想清楚了一件一直没说透的事:Qwen和Claude其实是两种完全不同的人,你得分开用。
一、让我多看几眼的不是名次
5月20日阿里云峰会,Qwen3.7-Max正式发布。
Arena全球大模型盲测总榜,它拿了国产第一,把Kimi、DeepSeek、GLM这些都压下去了。全球来看,Claude、GPT、Gemini这些还排在前面,但差距已经在肉眼可见地缩小。
但这个名次不是让我停下来多读两遍的原因,让我停下来的是这件事:他们让Qwen3.7-Max在一块它训练时从没见过的全新芯片上,从空白工作区开始,自己写代码、自己调试、自己跑性能分析。没有任何文档,没有任何示例,没有人插手。他自己就跑了35小时。调用工具超过1000次。最终把推理速度提升了10倍。
我第一反应是:天呐,这太牛了!
二、官方说了三件事,我翻译一下
发布会上给了一堆评测数字,看完很容易脑子发懵。我挑几个跟日常用得上的说说。
最值得关注的是长任务能力。
以前用AI做稍微复杂一点的事,走着走着它就散了——要么开始说废话,要么绕回头重复之前说过的。这次Qwen3.7-Max专门在这里下了功夫。那个35小时、1000次工具调用的实验,就是在证明它能保持连贯,不会跑着跑着就垮。
打个不严谨的比方:以前的AI像外卖小哥,接一单跑一单,叫它做两步以上的事就容易出错。现在更像能独立跟进整个项目的人——你交代完,它自己跑完。
推理方面也有提升,会先把问题拆开再给答案,而且还会自己不断复盘,幻觉少了一些。在几个高难度推理测试上已经超过了Claude Opus 4.6,用过的人应该能感觉到差别。
编程据说很强,SWE-Pro这些评测排第一。但我不是技术背景,这块没法帮你验证,有经验的朋友们可以自己跑一遍再判断。
(顺便一提——每次大模型发布都会附上一堆评测截图,数字好看不代表用起来好用。后面我会说这个)
三、从Qwen之前的版本用下来,感觉它们是两种人
Qwen3.7-Max像个执行力很强的项目经理
你给它一个目标,它自己拆、自己规划、自己调工具、最后交付结果。你说”帮我做完这件事”,它就去做了,中间不需要你太多干预。如果你知道要什么结果的时候,交给它最省事。让它联网查资料、整理成报告、生成带结构的文档,扔进去基本能出来。
但它有个小毛病:爱自作主张。你没说清楚某个细节,它不问你,自己判断了就往前走。走偏了你得回头改,有时候比自己做还费事。
Claude更像个严谨的分析师,但有时候有点啰嗦
它不急着交付,更像在陪你把问题本身想清楚。你越跟它来回推,它给的东西越准。
遇到模糊的需求或者还没想透的问题,我基本先跟Claude对话。不是问它答案,是跟它一起把问题理清楚。但你要它快速出东西,等起来真的有点急。
两个我都在用,但用的场合不一样。要我选的话:想清楚问题找Claude,想把事情做完找Qwen。
四、最近身边用得最多的场景:面试前搞懂一个新行业
我认识几个最近在跳槽的朋友,面试前最头疼的一件事:要去一家完全不熟悉的公司,行业不懂、业务不懂,怎么在两三天内准备出来?
以前的办法是搜文章、找研报、拼凑个大概印象,费时间还零散。但是现在可以直接让Qwen3.7-Max来做这件事。
比如你要去一家做人形机器人的公司面试,直接告诉它:”我要去机器人公司面试,帮我搞懂这个赛道,市场规模、主要玩家、各家技术路线差在哪、近半年有什么重要动态,最后出一份带图表的分析报告。”
它自己去联网搜,自己读研报,自己整理,最后给你一份至少有框架在那的东西。你不用盯着,交给它跑就行。我认识一个做猎头的朋友就在这么用。她说以前帮候选人做行业速览要花半天,现在两三小时能出一份能用的东西。
但这份报告只是起点,拿到之后建议第二步换Claude:把报告粘进去,问它”这里面哪些判断站不住脚”、”我是B端产品经理背景,面试这家公司应该重点准备什么”。跟Claude来回推几轮,比单纯看报告理解深很多。
推荐大家两个配合着用,比只用一个强。
五、说一句可能不讨喜的话
国产第一这个标签很好看,但我自己每次看到这种新闻都会多想一步。
在编程和推理评测上超过Claude Opus 4.6,不代表你拿它做所有事都比Claude强。评测是特定任务、特定条件下跑出来的,和你每天实际用的场景差着一段距离。
还有一件事我观察了一段时间:模型排名一两个月就换一次,你刚熟悉一个工具,新的又出来了。但真正拉开差距的,不是你用的是哪个模型,是你有没有把需求说清楚,有没有一套自己用顺了的习惯。
追新模型这件事我现在做得越来越少了。
六、几个我还没想清楚的问题
昨天看完发布会,我一直在想一件事:Qwen这次不只是评测分更高,是它能干的活变了——以前AI是回答问题的,现在开始变成执行任务的。
我不知道这对做产品的人来说算好事还是坏事。
所以把几个问题扔给你:
- 你工作里有哪些每次都在重复的事,但从来没想过能交给AI?
- 你现在用AI,是更多在让它帮你”想清楚”,还是”做出来”?
- 如果一个AI能帮你扛35小时的连续任务,你最想让它干什么?
我也不一定对,欢迎评论区沟通。
作者:小蝶
扫一扫 微信咨询
商务合作 联系我们
微信扫一扫 