大模型孤岛困境:当单点能力吞噬协作效率
过去三年,大模型在编程、问答、推理、绘画等单点任务上已达到专家水平,但这些能力本质上是互不相通的孤岛。在实际工作流中,AI完成创意环节后,图文整合、校对排版、内容搬运等衔接工作仍需人工完成——这种“人肉胶水”成本吞噬了相当一部分技术效率红利。据艾媒咨询2026年报告,2025年全球AI智能体市场规模达372亿美元,预计2030年攀升至3122亿美元,智能体规模化渗透正成为词元调用量激增的核心引擎。商汤Token Plan于2026年5月8日发布,其核心切入点正是将完整方案生成从人工胶水变成模型内置能力。

随着模型单点性能持续提升,多模型协作的瓶颈愈发明显。一个典型的办公流程中,先用一个模型生成文案,再用另一个模型绘制配图,最后手动将图文拼接成信息图或PPT——这个过程不仅耗时,还容易因上下文断裂导致风格不一致。在开发者一侧,不同模型通常对应独立的API端点、计费规则和输入格式,集成和维护成本高企。这种“拼接式AI”的局限,逐渐成为大模型在生产力场景实践的核心阻力。商汤选择在这个节点推出Token Plan,背后是算力资源服务化的长期布局。根据港交所公告,商汤通过配售17亿股新B类股份募集约32.3亿港元,其中约40%用于扩大SenseCore商汤AI大装置规模,直接支撑词元计划的实践。该计划将商汤自持的4.04万PFlops算力打包成可量化的Token服务,试图整合从模型到最终交付物的全链条。
NEO-unify架构:连续图文创作如何拓展模型能力边界
NEO-unify是商汤自研的原生理解生成统一架构,能够在一次推理中完成文本与图像的交替生成——不再是传统的“先理解文字再生成图像”两阶段分离流程。SenseNova U1是商汤Token Plan体系内最具差异化的模型,基于该架构专门针对信息图、报告、教程等内容类型的自动化生产而设计。商汤于2026年4月28日发布U1,并以Apache 2.0协议将两个版本的模型权重全面开源,这意味着开发者可在自有环境中部署并微调该模型。
架构层面的关键设计是MoT(Mixture of Tokens)机制。U1-8B-MoT版本在保持8B参数规模的同时,通过token级混合路由实现计算资源的高效分配——与传统的混合专家(MoE)在层或模块级别进行路由不同,MoT在更细粒度的token级别决定激活哪些参数,在图文交替任务中可减少冗余计算。据商汤官方宣称,同一图文任务的Token消耗比同行低60%,这一数据与MoT架构中仅激活部分参数的机制逻辑一致,但第三方独立评测数据截至2026年5月尚未公开。
从技术指标看,NEO-unify与传统多模态方案的区别体现在三个维度。第一是生成粒度:传统方案以段落或图片为单位切换模态,NEO-unify以token级粒度在文本token与图像token之间直接过渡,使得在一段文字中穿插多幅小图或局部风格变化成为可能。第二是上下文连贯性:连续图文生成要求模型在输出图像后保持对文本上下文的完整记忆,而非重新编码提示词,这避免了图文割裂。第三是计算效率:在相同任务下,MoT机制可减少大量无关参数的浮点运算,这对于需要频繁进行长序列图文生成的办公场景尤为重要。
该架构的实际性能边界同样值得关注。连续图文创作当前对复杂信息图(如多层嵌套图表、精确数据可视化)的支持仍有限。U1在创意类图文任务(海报、社交媒体卡片、教程配图)上表现更稳定,而在需要精确数值对齐的商业图表场景中可能出现布局偏差。此外,NEO-unify对输入长度的敏感性高于传统分离式方案——超过4000 token的上下文可能导致图文交替节奏紊乱,需要开发者自行分段控制。从行业对比角度,这一架构使商汤在多模态连续生成方向占据先发位置。截至2026年5月,主流大模型厂商中,OpenAI的GPT-4o虽支持多模态理解但未开放连续图文输出API,Anthropic的Claude系列侧重文本推理,Google Gemini的多模态能力以理解为主。NEO-unify的连续图文生成定位了一个尚未被巨头充分覆盖的中间地带。
SenseNova-Skills技能包与Agent环境:降低胶水成本的中间层
SenseNova-Skills是一套封装好的办公技能包,覆盖海量数据分析、自动化办公等实战场景,兼容主流Agent框架。它与底层模型、上层Agent协作构成降低“人肉胶水”成本的中间层。
- 信息图生成技能:基于SenseNova U1 Fast模型,自动评估提示词,从87种布局与66种风格中智能选择,生成可直接用于报告或社交媒体的信息图。使用独立的图像生成接口POST /v1/images/generations。
- PPT生成技能:支持两种模式——创意模式输出全页图片,标准模式输出HTML并导出PPTX文件。适合将文本大纲快速转换为演示文稿。
- Excel数据分析技能:理解表格结构,自动生成分析报告和可视化图表,减少手工制图环节。
- 深度研究技能:多步骤调研、信息收集与综合分析,适用于市场报告、竞品分析等长文本任务。
- Agent兼容性:原生支持Hermes Agent和OpenClaw两大主流框架,可通过修改配置文件直接调用各技能。但当前兼容性仍以商汤自有环境为主,第三方Agent框架的适配深度参差不齐,部分函数调用需要自定义适配层。
与之配套的SenseNova 6.7 Flash-Lite则面向高并发生产级办公需求优化。该模型为轻量多模态智能体,支持图像输入理解(OCR、图表解读),上下文长度达256K tokens(最大输入252K,最大输出64K),适用于日常办公流程中的文档处理与任务规划。三者构成从底层模型到中间技能再到上层Agent的三层技术栈,其中SenseNova-Skills作为衔接点,封装了办公场景中常见的图文整合、排版、数据可视化等胶水动作,使得Agent可直接调用“完整方案生成”而非零散的模型能力。
商汤Token Plan免费策略的边界:每5小时1500次调用够用吗
对于轻量级测试或个人开发者,首月每5小时1500次免费调用额度(DeepSeek V4 Flash为150次/5小时)足以覆盖日常调试和小型项目。但对于日均API调用超过1000次的团队开发者,该额度在半天内即会耗尽。根据商汤官方数据,Token消耗比同行低60%的宣称基于内部基准测试,实际节省幅度取决于任务类型——在纯文本任务中,差距缩小至20%–30%;而在图文混合任务中,由于MoT架构的优势,差距更显著。
从市场竞争格局看,词元经济已进入规模化实践阶段。截至2026年5月,多家厂商推出了付费词元服务。阿里云百炼Token Plan团队版的标准坐席为¥198/月,提供25,000 Credits(统一积分),兼容文本与图像生成模型;高级坐席¥698/月提供100,000 Credits。中国电信试商用Token套餐的个人轻享版为9.9元/月,含1000万Tokens,可调用星辰大模型及DeepSeek V3.2等环境模型。相比之下,商汤Token Plan免费期后的价格体系截至2026年5月尚未公布,这给需要长期稳定成本预算的团队带来不确定性。
| 特性维度 | 商汤Token Plan | 阿里云百炼Token Plan团队版 | 中国电信Token计划 |
|---|---|---|---|
| 核心功能 | 连续图文创作、信息图生成、办公技能包 | 多模型切换(千问、DeepSeek等),统一Credits计量 | 星辰大模型+环境大模型,适配办公与编程 |
| 免费版限制 | 每模型1500次/5小时(DeepSeek V4 Flash为150次) | 新用户部分模型100万Token/90天 | 无免费层(试商用套餐直接付费) |
| 起步价 | 未公布 | ¥198/月(标准坐席) | 9.9元/月(个人轻享版) |
对于重度依赖连续图文生成的团队,U1的开源(Apache 2.0)提供了自部署的替代路径,但自建推理基础设施的GPU成本可能轻易抵消Token费用的节省——以单张A100 GPU约¥1.2万/月的租赁成本计算,日均处理500次图文任务即可能接近付费API的等价Token开支。需要精确数据可视化的商业场景中,U1的布局偏差意味着仍需人工校验或借助专门的图表工具;而日均调用量超过万次的企业用户,免费期后的方案若无明确的大客户定价,转向阿里云百炼或中国电信等已明确定价的服务可能更为稳妥。
参考资料
- 商汤SenseNova Token Plan官网 — 公测方案、模型清单与 API Key 申请入口
- SenseNova 开发者文档 — 接口规范、调用示例与 Cowork-Skills 技能包说明
- SenseNova-Skills 开源仓库(GitHub) — Hermes Agent 与 OpenClaw 接入指南及 Apache 2.0 协议说明
- 商汤科技港交所公告(0020.HK) — 17亿股 B 类股份配售及 SenseCore 算力扩容相关信息披露
