约 30秒看懂阶跃Step 3.7 Flash
想让AI独立完成多步骤任务,却总在工具调用时跑偏?阶跃Step 3.7 Flash专为生产级AI Agent(智能体)设计,在速度、成本和可靠性上找到了平衡。

这款开源大模型由阶跃星辰于2026年5月29日发布并开源,采用稀疏MoE架构,总参数196B+1.8B ViT,激活参数仅11B。最高生成速度400 Tokens/s,适合高频、多轮、低延迟的Agent应用。
它为什么专为Agent而生
Agent场景需要模型能看懂界面、主动搜索、稳定调用工具。阶跃Step 3.7 Flash围绕这些需求进行系统优化。它不只是回答问题,更要理解复杂输入、执行长程任务。官方用“See. Think. Act.”概括其设计理念。
196B参数,11B激活:稀疏MoE架构解析
作为一款原生多模态模型,它采用稀疏MoE(混合专家)架构。总参数196B+1.8B ViT(视觉编码器),但每次推理只激活11B参数。这就像一个大团队,每次任务只派最相关的专家上场。结果:性能强、速度快、成本低。
速度与成本的双重优势
据官方数据,它最高生成速度达400 Tokens/s。在Artificial Analysis榜单上,实测输出速度409 tokens/s,位列主流模型第一。成本方面,单任务成本约Claude Opus 4.6的1/9。速度与成本优势让它适合大规模部署。
拆解阶跃Step 3.7 Flash的能力清单
这款AI Agent模型的能力围绕自动化任务构建。它原生理解多模态信息,主动搜索验证,稳定调用工具,并兼容主流框架。下面逐一拆解。
原生多模态理解:从UI到代码的转化
作为多模态模型,它能直接理解UI、图表、文档、图片。比如,给它一张软件界面截图,它能识别按钮和菜单,生成操作脚本。它还能将图表转化为数据分析报告。这种能力让视觉信息直接变成可执行任务。
联网与视觉搜索:主动交叉验证信息
遇到不确定的信息,它会主动联网搜索。不仅搜文本,还能搜图像。然后交叉比对多个来源的证据。这增强了在开放信息环境中的实用性。比如,它可以搜索最新新闻并总结简报。
高可靠工具调用:长程任务不跑偏
在长程多轮工作流中,它能稳定调用API、浏览器、终端、Office工具。官方优化了任务轨迹一致性,降低跑偏风险。有开发者指出,它是首个稳定完成66个工具调用测试的开源模型。
Agent生态兼容:无缝接入主流框架
它针对主流Agent框架做了兼容优化。支持Claude Code、KiloCode、RooCode、OpenCode等。也支持MCP(模型上下文协议)和Skills工具调用协议。这降低了开发者的接入成本。
从注册到第一次产出:5步走通阶跃Step 3.7 Flash
下面通过五个步骤,带你从零开始使用该工具。
第一步:访问官网并注册账号
打开浏览器,访问官网 stepfun.com。点击注册按钮,填写邮箱和密码。完成验证后登录。整个过程几分钟即可完成。
第二步:选择模型并创建API Key
登录后进入控制台。在模型列表中找到“Step 3.7 Flash”。然后进入API管理页面,创建一个新的API密钥。保存好这个密钥,后续调用需要用到。
第三步:配置本地开发环境
在你的电脑上安装Python和必要的库。打开终端,运行:pip install openai。然后设置环境变量:export STEPFUN_API_KEY="你的密钥"。环境就准备好了。
第四步:编写你的第一个Agent调用
用以下代码示例,让模型分析一张图片并生成描述。
from openai import OpenAI
client = OpenAI(
api_key="你的密钥",
base_url="https://api.stepfun.com/v1"
)
response = client.chat.completions.create(
model="step-3.7-flash",
messages=[
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
{"type": "text", "text": "描述这张图片的内容"}
]}
]
)
print(response.choices[0].message.content)
运行代码,你将得到图片的文字描述。
第五步:查看结果并优化提示词
查看模型返回的结果。如果不够详细,可以调整提示词。例如,加上“请用三句话描述”。反复测试,直到输出满意。提示词越清晰,效果越好。
阶跃Step 3.7 Flash vs 同类:差异在哪
为了看清定位,我们把它与DeepSeek V4 Flash、MiniMax M2.7、Claude Opus 4.6进行对比。
| 特性维度 | 阶跃Step 3.7 Flash | DeepSeek V4 Flash | MiniMax M2.7 | Claude Opus 4.6 |
|---|---|---|---|---|
| 架构 | 稀疏MoE,196B+1.8B ViT,激活11B | 未公开 | 未公开 | 稠密,未公开参数 |
| 生成速度 | 最高400 Tokens/s | 较快 | 较快 | 较慢 |
| 工具调用 | 高可靠,长程稳定 | 良好 | 良好 | 优秀 |
| 多模态 | 原生支持UI/图表理解 | 有限 | 有限 | 有限 |
| 开源 | 完全开源 | 开源 | 开源 | 闭源 |
| 成本 | 低,约Claude的1/9 | 低 | 低 | 高 |
与DeepSeek V4 Flash的正面交锋
在编码基准测试中,该工具略占上风。据官方数据,SWE-Bench Pro得分56.3%,DeepSeek V4 Flash为55.6%。Terminal-Bench 2.1得分59.6%,对手为55.1%。速度上,它更快。
对比MiniMax M2.7:响应体验与成本
开发者反馈,该工具在响应速度上优势明显。成本方面,两者均属低价位。但该工具的多模态和工具调用可靠性更突出。
开源生态中的定位:与Claude Opus 4.6的成本较量
作为开源大模型,它可免费商用。Claude Opus 4.6是闭源API,成本高。据量子位报道,该工具单任务成本仅Claude的约1/9,但编程能力达到其97%。
这3类用户最适合用阶跃Step 3.7 Flash
不同用户能从中获得不同价值。下面列出三类典型人群。
AI应用开发者:快速构建Agent原型
你可以利用它的工具调用和生态兼容性。快速接入Claude Code等框架,构建自动化Agent。多模态能力让你处理图像和UI任务更轻松。
企业自动化团队:处理复杂工作流
企业环境中,它可处理多步骤、多工具任务。比如,自动抓取数据、分析报表、发送邮件。高可靠性降低了流程中断的风险。
研究人员:探索多模态Agent的能力边界
研究人员可用它进行实验。联网搜索和多模态理解能力,适合探索开放域任务。开源特性也便于修改和微调。
阶跃Step 3.7 Flash能帮你节省什么
使用它能带来具体的时间、成本和效率收益。
开发时间:从小时级到分钟级
以前构建一个UI测试Agent可能需要几小时。现在用该工具,生成脚本只需几分钟。它理解截图后直接输出代码,省去手动编写步骤。
推理成本:降至Claude Opus 4.6的1/9
据量子位报道,单任务成本约Claude的1/9。对于每天运行成千上万次任务的企业,这能节省大量预算。
任务成功率:稳定完成66个工具调用
有开发者测试,它能稳定完成66个工具调用。这意味着复杂工作流不易失败。隐性成本如人工排查、重试时间都减少了。
阶跃Step 3.7 Flash近半年的演进
该模型发布不久,但已有显著动态。
从Step 3.5 Flash到3.7:Agent能力的飞跃
相比前代Step 3.5 Flash,它在编码和工具调用上提升明显。SWE-Bench Pro从51.3%升至56.3%。Terminal-Bench 2.1从53.5%升至59.6%。
登顶AA榜:速度与性价比的认可
据Artificial Analysis榜单,它以409 tokens/s输出速度位列第一。同时在端到端响应时长、智能效率、速度价格比上领先。
开源社区的热烈反响
发布两天后,它登上OpenRouter Trending全球第二。在HuggingFace上,下载量和讨论持续升温。开发者称赞其效率和工具调用能力。
阶跃Step 3.7 Flash的亮点与局限
客观看待它的优缺点,有助于你做出选择。
三大突出优点
- 速度极快:400 Tokens/s生成速度,减少等待。
- 工具调用可靠:长程任务中保持稳定,降低失败率。
- 多模态原生支持:直接理解UI、图表,无需额外模型。
两个不可忽视的缺点
- 上下文长度有限:256K Tokens,处理超长文档可能不足。
- 体系相对较新:虽然兼容主流框架,但社区资源不如老牌模型丰富。
阶跃Step 3.7 Flash在国内的可用性
国内用户可以无障碍使用它。
访问方式:官网与API无障碍
官网 stepfun.com 可直接访问。API调用无需特殊网络配置。这为国内开发者提供了便利。
中文界面与文档支持
平台提供中文界面和文档。技术说明、API参考均为中文。这降低了语言门槛。
支付方式:适配国内习惯
据官网信息,支持支付宝、微信支付等国内常用方式。充值付费很方便。
