商汤Token Plan——以连续图文创作打破大模型孤岛的词元服务平台

大模型孤岛困境：当单点能力吞噬协作效率

过去三年，大模型在编程、问答、推理、绘画等单点任务上已达到专家水平，但这些能力本质上是互不相通的孤岛。在实际工作流中，AI完成创意环节后，图文整合、校对排版、内容搬运等衔接工作仍需人工完成——这种“人肉胶水”成本吞噬了相当一部分技术效率红利。据艾媒咨询2026年报告，2025年全球AI智能体市场规模达372亿美元，预计2030年攀升至3122亿美元，智能体规模化渗透正成为词元调用量激增的核心引擎。商汤Token Plan于2026年5月8日发布，其核心切入点正是将完整方案生成从人工胶水变成模型内置能力。

随着模型单点性能持续提升，多模型协作的瓶颈愈发明显。一个典型的办公流程中，先用一个模型生成文案，再用另一个模型绘制配图，最后手动将图文拼接成信息图或PPT——这个过程不仅耗时，还容易因上下文断裂导致风格不一致。在开发者一侧，不同模型通常对应独立的API端点、计费规则和输入格式，集成和维护成本高企。这种“拼接式AI”的局限，逐渐成为大模型在生产力场景实践的核心阻力。商汤选择在这个节点推出Token Plan，背后是算力资源服务化的长期布局。根据港交所公告，商汤通过配售17亿股新B类股份募集约32.3亿港元，其中约40%用于扩大SenseCore商汤AI大装置规模，直接支撑词元计划的实践。该计划将商汤自持的4.04万PFlops算力打包成可量化的Token服务，试图整合从模型到最终交付物的全链条。

NEO-unify架构：连续图文创作如何拓展模型能力边界

NEO-unify是商汤自研的原生理解生成统一架构，能够在一次推理中完成文本与图像的交替生成——不再是传统的“先理解文字再生成图像”两阶段分离流程。SenseNova U1是商汤Token Plan体系内最具差异化的模型，基于该架构专门针对信息图、报告、教程等内容类型的自动化生产而设计。商汤于2026年4月28日发布U1，并以Apache 2.0协议将两个版本的模型权重全面开源，这意味着开发者可在自有环境中部署并微调该模型。

架构层面的关键设计是MoT（Mixture of Tokens）机制。U1-8B-MoT版本在保持8B参数规模的同时，通过token级混合路由实现计算资源的高效分配——与传统的混合专家（MoE）在层或模块级别进行路由不同，MoT在更细粒度的token级别决定激活哪些参数，在图文交替任务中可减少冗余计算。据商汤官方宣称，同一图文任务的Token消耗比同行低60%，这一数据与MoT架构中仅激活部分参数的机制逻辑一致，但第三方独立评测数据截至2026年5月尚未公开。

从技术指标看，NEO-unify与传统多模态方案的区别体现在三个维度。第一是生成粒度：传统方案以段落或图片为单位切换模态，NEO-unify以token级粒度在文本token与图像token之间直接过渡，使得在一段文字中穿插多幅小图或局部风格变化成为可能。第二是上下文连贯性：连续图文生成要求模型在输出图像后保持对文本上下文的完整记忆，而非重新编码提示词，这避免了图文割裂。第三是计算效率：在相同任务下，MoT机制可减少大量无关参数的浮点运算，这对于需要频繁进行长序列图文生成的办公场景尤为重要。

该架构的实际性能边界同样值得关注。连续图文创作当前对复杂信息图（如多层嵌套图表、精确数据可视化）的支持仍有限。U1在创意类图文任务（海报、社交媒体卡片、教程配图）上表现更稳定，而在需要精确数值对齐的商业图表场景中可能出现布局偏差。此外，NEO-unify对输入长度的敏感性高于传统分离式方案——超过4000 token的上下文可能导致图文交替节奏紊乱，需要开发者自行分段控制。从行业对比角度，这一架构使商汤在多模态连续生成方向占据先发位置。截至2026年5月，主流大模型厂商中，OpenAI的GPT-4o虽支持多模态理解但未开放连续图文输出API，Anthropic的Claude系列侧重文本推理，Google Gemini的多模态能力以理解为主。NEO-unify的连续图文生成定位了一个尚未被巨头充分覆盖的中间地带。

SenseNova-Skills技能包与Agent环境：降低胶水成本的中间层

SenseNova-Skills是一套封装好的办公技能包，覆盖海量数据分析、自动化办公等实战场景，兼容主流Agent框架。它与底层模型、上层Agent协作构成降低“人肉胶水”成本的中间层。

信息图生成技能：基于SenseNova U1 Fast模型，自动评估提示词，从87种布局与66种风格中智能选择，生成可直接用于报告或社交媒体的信息图。使用独立的图像生成接口POST /v1/images/generations。
PPT生成技能：支持两种模式——创意模式输出全页图片，标准模式输出HTML并导出PPTX文件。适合将文本大纲快速转换为演示文稿。
Excel数据分析技能：理解表格结构，自动生成分析报告和可视化图表，减少手工制图环节。
深度研究技能：多步骤调研、信息收集与综合分析，适用于市场报告、竞品分析等长文本任务。
Agent兼容性：原生支持Hermes Agent和OpenClaw两大主流框架，可通过修改配置文件直接调用各技能。但当前兼容性仍以商汤自有环境为主，第三方Agent框架的适配深度参差不齐，部分函数调用需要自定义适配层。

与之配套的SenseNova 6.7 Flash-Lite则面向高并发生产级办公需求优化。该模型为轻量多模态智能体，支持图像输入理解（OCR、图表解读），上下文长度达256K tokens（最大输入252K，最大输出64K），适用于日常办公流程中的文档处理与任务规划。三者构成从底层模型到中间技能再到上层Agent的三层技术栈，其中SenseNova-Skills作为衔接点，封装了办公场景中常见的图文整合、排版、数据可视化等胶水动作，使得Agent可直接调用“完整方案生成”而非零散的模型能力。

商汤Token Plan免费策略的边界：每5小时1500次调用够用吗

对于轻量级测试或个人开发者，首月每5小时1500次免费调用额度（DeepSeek V4 Flash为150次/5小时）足以覆盖日常调试和小型项目。但对于日均API调用超过1000次的团队开发者，该额度在半天内即会耗尽。根据商汤官方数据，Token消耗比同行低60%的宣称基于内部基准测试，实际节省幅度取决于任务类型——在纯文本任务中，差距缩小至20%–30%；而在图文混合任务中，由于MoT架构的优势，差距更显著。

从市场竞争格局看，词元经济已进入规模化实践阶段。截至2026年5月，多家厂商推出了付费词元服务。阿里云百炼Token Plan团队版的标准坐席为¥198/月，提供25,000 Credits（统一积分），兼容文本与图像生成模型；高级坐席¥698/月提供100,000 Credits。中国电信试商用Token套餐的个人轻享版为9.9元/月，含1000万Tokens，可调用星辰大模型及DeepSeek V3.2等环境模型。相比之下，商汤Token Plan免费期后的价格体系截至2026年5月尚未公布，这给需要长期稳定成本预算的团队带来不确定性。

特性维度	商汤Token Plan	阿里云百炼Token Plan团队版	中国电信Token计划
核心功能	连续图文创作、信息图生成、办公技能包	多模型切换（千问、DeepSeek等），统一Credits计量	星辰大模型+环境大模型，适配办公与编程
免费版限制	每模型1500次/5小时（DeepSeek V4 Flash为150次）	新用户部分模型100万Token/90天	无免费层（试商用套餐直接付费）
起步价	未公布	¥198/月（标准坐席）	9.9元/月（个人轻享版）

对于重度依赖连续图文生成的团队，U1的开源（Apache 2.0）提供了自部署的替代路径，但自建推理基础设施的GPU成本可能轻易抵消Token费用的节省——以单张A100 GPU约¥1.2万/月的租赁成本计算，日均处理500次图文任务即可能接近付费API的等价Token开支。需要精确数据可视化的商业场景中，U1的布局偏差意味着仍需人工校验或借助专门的图表工具；而日均调用量超过万次的企业用户，免费期后的方案若无明确的大客户定价，转向阿里云百炼或中国电信等已明确定价的服务可能更为稳妥。

参考资料

商汤SenseNova Token Plan官网 — 公测方案、模型清单与 API Key 申请入口
SenseNova 开发者文档 — 接口规范、调用示例与 Cowork-Skills 技能包说明
SenseNova-Skills 开源仓库（GitHub） — Hermes Agent 与 OpenClaw 接入指南及 Apache 2.0 协议说明
商汤科技港交所公告（0020.HK） — 17亿股 B 类股份配售及 SenseCore 算力扩容相关信息披露

商汤Token Plan

大模型孤岛困境：当单点能力吞噬协作效率

NEO-unify架构：连续图文创作如何拓展模型能力边界

SenseNova-Skills技能包与Agent环境：降低胶水成本的中间层

商汤Token Plan免费策略的边界：每5小时1500次调用够用吗

参考资料

常见问题（FAQ）