Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比
Quick Take
Token consumption is surging, prompting businesses to optimize AI costs for value generation.
Key Points
- Token throughput expected to grow tenfold by March 2026.
- AI cost efficiency is crucial for business value realization.
- Low precision and sparse architectures can help reduce costs.
Article Content
From source RSS / original summary想让大模型替自己卖命,一查Token账单,却有一种“重生之我为大模型公司打工”的错觉。 这样的案例,已经开始在不少企业内部上演。 尽管过去一年里,每百万Token的推理成本大约下降了75%,但成本下降的曲线远远比不过消耗量增长的斜率。 全球最大的大模型API聚合平台OpenRouter统计数据显示,截至2026年3月,其年化Token吞吐量呈现10倍增长。 与此同时,资本市场也用脚投票——Anthropic年化收入在短短三个月里突破300亿美元大关,增幅约为233%……面对Token消耗量至少翻了一个数量级的现实,“如何在高效使用Token的同时有效控制成本”的问题随之而来。 为此,雷峰网邀请3位来自产业链不同环节的一线大佬共同解读Token膨胀背后的效率账本:尚明栋:九章云极联合创始人兼COO ,原微软服务器高可用集群文件系统核心开发工程师,曾参与发布Windows 7和Windows 8,是SMB 3. 0的主要拟草人之一。 肖嵘:云天励飞副总裁、首席科学家、正高级工程师,历任微软研究院高级研究员、微软必应搜索资深软件工程师、平安产险人工智能部总经理等。
关涛:云器科技联合创始人、CTO,分布式系统和大数据平台领域专家,曾任职于微软云计算和企业事业部,历任阿里云计算平台事业部研究员、阿里巴巴通用计算平台MaxCompute和Dataworks负责人、阿里巴巴和蚂蚁集团技术委员会计算平台领域组长、阿里云架构组大数据组组长。 在这场圆桌讨论中,身处产业一线的大佬们达成共识:在Agent介入生产环节的元年,成本暂时不是企业账单的第一位,真正值得关注的是——花在AI上的每一分钱,是否换来了足够分量的业务价值? 顺着这个共识追问,一个更实际的问题浮出水面:如何提高Token使用的性价比,让花在AI上的钱更好变现为业务价值? 这正是本场讨论的核心所在。 (关于Token消耗与成本优化,作者持续追踪。 欢迎添加作者微信 Evelynn7778 交流你所在企业的Token账单故事。 )Token消耗杀手:路径错误、长上下文、模型超配如何把AI接入工作流,已是当前许多企业都在关心的问题,然而,这背后有许多陷阱。 首先,高消耗未必等于高价值。 当前的AI,并不能完全像人类一样基于环境的实时状态做出最快的选择。 得到结果看似与人工相同,但AI在不经意间消耗的Token量却可能令人咋舌。
尚明栋举例,同样面对“缺乏管理员权限”等常规运维场景,码农简单输入类似sudo(Linux/Mac系统中用于临时获取管理员权限的指令)的命令就可以马上进入下一步。 但大模型却易出现路径冗余、方案绕远的问题,例如采用重新编译源码的复杂方式绕过简单权限限制,造成大量无效Token消耗。 其次,即便让AI做同一件事,路径选择也至关重要。 关涛曾经遇到一位客户在对话窗口里,要求大模型直接浏览一份一万行的访问日志并进行数据统计。 他指出,这种做法不仅效率低,而且得到的结果极容易出错。 因为大模型的本质是概率预测,数学运算是其弱点。 面对这类计算任务,选择直接在对话窗口输入文本,相当于只让AI做文字阅读理解;只有通过上传文件的方式,才能调用Python等专业工具,实现真正有效的数据分析。 有时,为了彰显大模型的能力,客户会事无巨细地调用最高性能的大模型,但这是否有必要? 尚明栋的回答是否定的,因为简单的任务交由性能一般的模型也能完成。 肖嵘认为,可以将不同性能的大模型比作不同能力的学生。 复杂任务可让能力更强的大学生拆解后交由中小学生来完成。 后者如果在执行时遇到困难或经多次尝试后仍无法交差,大学生再介入指导和兜底。
为了任务分配能符合学情,关涛还按照性价比与稳定性两个维度,进一步将不同场景划分为四个象限:SQL代码迁移等低性价比、高稳定性的场景不适合大模型直接下场,应该利用大模型搭建专门的解决工具;AI Coding等高性价比、低稳定性场景,鼓励使用最好的模型,以效率换取价值;而“双低”场景不宜强行用AI替代;“双高”场景建议先用最好的模型把场景跑通,验证效果后再逐步切换至性价比更优的模型。 但关涛也坦言,当前每家大模型的迭代周期基本压缩至三个月,模型的能力和性价比因此变得难以预测。 对此,云器科技通过内部打造的可观测系统,追踪每个模型的调用成功率、Token消耗状态、Tool Calling能力等指标,帮助用户找最适合特定场景的那一款模型。 此外,对长上下文的追求,也是很多用户使用性能强大的模型的根本原因之一。 但尚明栋指出,一旦内容过度堆积,反而导致大模型在处理新任务时不断重复回忆此前的对话内容,造成Token的浪费。 关涛补充道,如果每次对话都携带大量历史,尤其上下文内容还被反复修改时,会导致缓存失效,对推理成本和响应性能来说都是巨大损耗。
对此,他给出了一个简单却有效的原则:确保上下文内容是围绕同一任务的,这样才更符合模型最初始的设定,且不仅能提升响应速度,还能增加命中缓存的概率——而服务商针对后者所收取的输入Token费用,一般会比标准单价低。 此外,尚明栋的团队实测数据显示,仅通过缓存机制这一项,就能避免至少10%的重复计算。 当前行业内也已经实现这种“外挂”,例如通义千问3. 5等新一代模型,已在架构层面自带KV Cache压缩机制。 降本的三个技术切口:低精度、稀疏架构、数据升维当用户能够保持高效的使用习惯,Token账单的压力,便传导到技术层面。 从算力供给方的角度,尚明栋回忆,去年上半年自家销售团队还在四处兜售算力,到了今年就已经开始抱怨“无算力可卖”。 供给的短缺和需求的大幅上升,倒逼算力供给方优化技术。 尚明栋分享了九章云极在算力云建设中的工程实践——基于随机算法推理等策略,实现PD分离、四层存储架构设计、将计算、存储与管理网络进行物理分离等目标。 具体到模型架构层面,方法之一,是尚明栋提到的MoE(混合专家)设计:当万亿参数规模的超大模型内置这种架构时,每次推理实际只需触发2至3个专家模型,这相当于只调用了二十分之一的参数规模即可完成任务。
此外,肖嵘还提到DeepSeek下一代旗舰模型V4可实现记忆剥离的核心架构之一Engram。 这一创新设计提供了一种扩展模型规模的全新思路,将大模型的参数拆分为传统大模型网络的参数(例如Transformer参数、嵌入层参数)和存储“知识”的参数。 前者参数规模的增大会显著增加计算的开销,后者则无影响。 来到硬件底层,肖嵘以英伟达Blackwell架构B300为例,指出了一个关键趋势:业界越来越倾向于使用低精度计算。 一个明显的指标对比是,FP4比FP8的算力吞吐量提高了约3倍。 但肖嵘也提醒,低精度计算并非“免费的午餐”——它会引入量化和反量化等一系列额外操作。 如果没有硬件层面的专门加速支持,实际收益会大打折扣。 另一方面,Agent技术的普及对大模型的推理延迟提出极高要求。 肖嵘指出,当前大模型推理很难做到极高TPS(Token每秒处理速度)的根本原因在于:推理过程中需要高频访问大规模模型参数以及 KV Cache,这对内存带宽造成巨大压力。
以Meta的LLaMA 70B为例,假设模型参数以FP16形式存储在HBM中,经粗略估算,在1000 TPS场景下,仅模型参数从HBM向计算核心供数所对应的带宽需求就可达到百TB/s量级,这一数量级已远超当前主流硬件的实际带宽能力。 正因如此,英伟达才在下一代Rubin架构中引入了基于 Groq LPU 的 LPX 推理加速系统,构建GPU与LPU协同的异构推理架构。 其中,GPU 主要负责高吞吐的预填充与注意力计算,而LPU则针对延迟敏感的解码路径进行加速。 此外,LPU还采用高带宽、低延迟的片上 SRAM 以及数据流执行架构,显著降低访存开销,提升单次推理响应速度,并提高单位时间内的Token生成密度。 (更多算力与算法层面的技术优化,欢迎添加作者微信 Evelynn7778 探讨)而对于不具备改造算法和算力能力的中小企业而言,数据是撬动AI能力最现实的支点。 关涛所在的云器科技坚持“数据——信息——知识”三级数据体系: 首先确保当前企业的数据能够被AI所用,再将企业的数据转化为可共享的知识库。 在这个过程中,同时搭建好反馈链路,引领企业AI化转型。
每人每月1000美元:Token经济学的第一笔账当Token利用率尽可能提高之后,从Token经济学的角度出发,企业应该如何看待员工的“账单”? 三位嘉宾对于在Token上的预算把握已有初步的判断。 肖嵘透露,一旦处理稍显复杂的项目,150美元可能瞬间见底。 因此,云天励飞给研发人员每人每月配备了一定额度的AI费用。 他认为这笔投入极其划算。 因为相比研发人员动辄三四十万甚至百万年薪,Token成本只是人力成本的零头。 关涛也印证了这一投入逻辑:当前云器科技没有设置Token消耗的上限,员工每月在AI辅助开发上的花销约500至1000美元,目前已有约20%的员工能做到高效利用。 作为算力供应商,九章云极自身的员工外部Token花费月均成本也已达到2000元。 在肖嵘看来,目前仍处于大模型使用的早期阶段,远未达到理想的效率峰值, 企业还没到“卷成本”的阶段,此刻应全面、大胆地拥抱大模型。 当然,这并不意味着对成本放任自流。 肖嵘建议,当大模型使用真正进入普及阶段后,在面对如何摊薄时间成本的问题时,企业可利用晚间等低负载时段错峰提交任务,或通过多Agent并行执行任务来提升效率。 此外,订阅制也是一种选择。
不过尚明栋提醒,有些时候订阅制只是看起来划算,因为一旦大模型服务负载不稳定,性价比反而可能不如按量付费。 他强调,企业一定要从业务价值反推Token消耗的性价比。 关涛指出,当前业界主流的消耗量是此前的10倍,若没有达到这个增长数字,企业需要反思在AI转型上是否已经落后;然而,如果超过了,就要认真审视成本结构。 他以一个极其微小的动作为例:大模型每次哪怕是对“Hello”这样简单的交互进行回复,背后都需要一次API调用。 而单次接入成本约5毛钱,当每个API都计费、用户高频调用时,这笔原本不起眼的花销瞬间被数量级放大。 基于此,就不难理解为什么当下“养龙虾”这件事能和“破产”挂钩。 关涛团队实测发现,按照标准OpenClaw的使用习惯,每人每月的API花费平均值高达400~500元。 这意味着,为了养一个数字分身,光调用API的开销就已占据每人月可支配收入的约10%。 除了API的调用频率,肖嵘指出,用户具体使用的大模型也在影响Token账单。
(使用侧还有哪些因素影响Token消耗,欢迎添加作者微信 Evelynn7778 交流)他解释道,参数规模越大,大模型处理复杂任务的能力越强,所能承载的上下文长度也随之增加,因此所消耗的Token数量就越多,对应的成本自然水涨船高。 此外,即便处理一样的Token数量,参数越大的模型背后涉及的计算量也越大,这也是中美大模型之间价格悬殊的根源。 肖嵘指出,中国模型倾向于采用极端的稀疏化和轻量化设计,在大多走免费路线的情况下,力求用尽量少的训练和推理成本实现较强的智能;而美国企业的模型在参数规模上则要激进得多,价格自然也高出一截。 出于长期成本、低延迟或数据安全的考量,肖嵘认为企业还可以采用本地部署。 他介绍,最新的模型量化压缩技术可以在精度无损的情况下,把模型参数和KV cache参数分别压缩至4比特和3. 5比特,从而支撑百亿规模的大模型在本地运行。 而具体到硬件选择,值得一提的是最近因OpenClaw卖爆的Mac mini。 它之所以备受青睐,正是因为其统一内存和高性能的M系列芯片,以及4000多块钱的亲民成本。
有了Token,单一程序员可掌控的代码体量跃升十倍,演讲者长达两周的资料准备时间被大幅压缩,十几岁的孩子可以超前学习竞赛知识、写程序优化游戏代理延迟……然而,Token账单的高低,本质是API调用频次、模型选型与技术路线共同作用的结果。 不过,比起省钱,现阶段更重要的,或许是建立一条将Token变现为业务价值的通路。 以下是此次圆桌讨论的精彩分享,雷峰网进行了不改原意的编辑整理:谈Token成本及消耗现状:用量激增10倍,账单烧不起雷峰网·胡敏:从去年开始研究怎么用AI,到今年用上小龙虾,我自己最大的感受是Token消耗真的有点“烧不起”。 想问问三位嘉宾,有没有感受到Token消耗量的变化? 以及让你们比较“肉疼”的案例? 尚明栋:因为我们既是算力提供者,也是消纳者,所以我从两个视角出发来谈。 从供需曲线看,去年行业还在探索算力需求的落地场景,今年高质量算力资源已成为驱动AI创新的核心战略资产,需求呈现爆发式增长。 从消纳端看,我认为第一个Killer APP可能就是AI Coding。 去年年底Claude 4. 5出来后,代码生成质量已经能支撑“一人公司”。
一个资深程序员原来能管理的代码上限大概2万~3万行,现在借助AI Coding可以轻松突破十几万行。 我们公司内部也大量使用,比如每晚做一次全代码审核,包括静态代码的扫描、端口的扫描、安全策略扫描,代码量几百万行,一次扫描消耗六七千万Token——但折算成钱,成本其实并不大。 但也有“坏例子”:比如用人工智能去做代码生成的时候,装Homebrew遇到权限警告,AI不懂用sudo绕过,反而建议你去下载开源代码重新编译,这一步可能消耗几百万甚至上千万Token,而实际上人工用一个简单命令就能跳过。 这说明需要人工必要介入,不能全部交给AI决策。 关涛:我给大家分享两个数字。 第一个是我们接主流模型时做的实验:测试API是否通畅,说一句“hello”,模型回一句“我能帮你做什么”——这一个API调用就要5毛钱。 第二,如果用标准版的OpenClaw(未经优化),每人每月的API消耗平均在400~500元。 对比一下,我国人均月可支配收入也就4000多人民币,养一个“龙虾”要花掉十分之一,这个账单确实夸张。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.

