Token消耗量翻10倍才算企业转型及格线？三位产业一线大佬教你用出性价比

4/22/2026

·~6 min·4/22/2026·zh·1

Quick Answer

Token consumption is projected to increase tenfold by 2026, with companies like Anthropic reporting a 233% revenue surge.

Quick Take

Token consumption is projected to increase tenfold by 2026, with companies like Anthropic reporting a 233% revenue surge. Experts emphasize the need for efficient token usage to ensure business value, as costs remain a concern despite a 75% drop in per-token expenses over the past year.

Key Points

OpenRouter predicts a tenfold increase in annual token throughput by March 2026.
Anthropic's revenue surpassed $30 billion in just three months, marking a 233% increase.
Token costs have dropped approximately 75% over the past year.
Experts warn that high token consumption doesn't always equate to high value.
Companies are advised to optimize token usage to enhance business outcomes.

Article Content

From source RSS / original summary

想让大模型替自己卖命，一查Token账单，却有一种“重生之我为大模型公司打工”的错觉。这样的案例，已经开始在不少企业内部上演。尽管过去一年里，每百万Token的推理成本大约下降了75%，但成本下降的曲线远远比不过消耗量增长的斜率。全球最大的大模型API聚合平台OpenRouter统计数据显示，截至2026年3月，其年化Token吞吐量呈现10倍增长。与此同时，资本市场也用脚投票——Anthropic年化收入在短短三个月里突破300亿美元大关，增幅约为233%……面对Token消耗量至少翻了一个数量级的现实，“如何在高效使用Token的同时有效控制成本”的问题随之而来。为此，雷峰网邀请3位来自产业链不同环节的一线大佬共同解读Token膨胀背后的效率账本：尚明栋：九章云极联合创始人兼COO ，原微软服务器高可用集群文件系统核心开发工程师，曾参与发布Windows 7和Windows 8，是SMB 3. 0的主要拟草人之一。肖嵘：云天励飞副总裁、首席科学家、正高级工程师，历任微软研究院高级研究员、微软必应搜索资深软件工程师、平安产险人工智能部总经理等。

关涛：云器科技联合创始人、CTO，分布式系统和大数据平台领域专家，曾任职于微软云计算和企业事业部，历任阿里云计算平台事业部研究员、阿里巴巴通用计算平台MaxCompute和Dataworks负责人、阿里巴巴和蚂蚁集团技术委员会计算平台领域组长、阿里云架构组大数据组组长。在这场圆桌讨论中，身处产业一线的大佬们达成共识：在Agent介入生产环节的元年，成本暂时不是企业账单的第一位，真正值得关注的是——花在AI上的每一分钱，是否换来了足够分量的业务价值？顺着这个共识追问，一个更实际的问题浮出水面：如何提高Token使用的性价比，让花在AI上的钱更好变现为业务价值？这正是本场讨论的核心所在。（关于Token消耗与成本优化，作者持续追踪。欢迎添加作者微信 Evelynn7778 交流你所在企业的Token账单故事。）Token消耗杀手：路径错误、长上下文、模型超配如何把AI接入工作流，已是当前许多企业都在关心的问题，然而，这背后有许多陷阱。首先，高消耗未必等于高价值。当前的AI，并不能完全像人类一样基于环境的实时状态做出最快的选择。得到结果看似与人工相同，但AI在不经意间消耗的Token量却可能令人咋舌。

尚明栋举例，同样面对“缺乏管理员权限”等常规运维场景，码农简单输入类似sudo（Linux/Mac系统中用于临时获取管理员权限的指令）的命令就可以马上进入下一步。但大模型却易出现路径冗余、方案绕远的问题，例如采用重新编译源码的复杂方式绕过简单权限限制，造成大量无效Token消耗。其次，即便让AI做同一件事，路径选择也至关重要。关涛曾经遇到一位客户在对话窗口里，要求大模型直接浏览一份一万行的访问日志并进行数据统计。他指出，这种做法不仅效率低，而且得到的结果极容易出错。因为大模型的本质是概率预测，数学运算是其弱点。面对这类计算任务，选择直接在对话窗口输入文本，相当于只让AI做文字阅读理解；只有通过上传文件的方式，才能调用Python等专业工具，实现真正有效的数据分析。有时，为了彰显大模型的能力，客户会事无巨细地调用最高性能的大模型，但这是否有必要？尚明栋的回答是否定的，因为简单的任务交由性能一般的模型也能完成。肖嵘认为，可以将不同性能的大模型比作不同能力的学生。复杂任务可让能力更强的大学生拆解后交由中小学生来完成。后者如果在执行时遇到困难或经多次尝试后仍无法交差，大学生再介入指导和兜底。

为了任务分配能符合学情，关涛还按照性价比与稳定性两个维度，进一步将不同场景划分为四个象限：SQL代码迁移等低性价比、高稳定性的场景不适合大模型直接下场，应该利用大模型搭建专门的解决工具；AI Coding等高性价比、低稳定性场景，鼓励使用最好的模型，以效率换取价值；而“双低”场景不宜强行用AI替代；“双高”场景建议先用最好的模型把场景跑通，验证效果后再逐步切换至性价比更优的模型。但关涛也坦言，当前每家大模型的迭代周期基本压缩至三个月，模型的能力和性价比因此变得难以预测。对此，云器科技通过内部打造的可观测系统，追踪每个模型的调用成功率、Token消耗状态、能力等指标，帮助用户找最适合特定场景的那一款模型。此外，对长上下文的追求，也是很多用户使用性能强大的模型的根本原因之一。但尚明栋指出，一旦内容过度堆积，反而导致大模型在处理新任务时不断重复回忆此前的对话内容，造成Token的浪费。关涛补充道，如果每次对话都携带大量历史，尤其上下文内容还被反复修改时，会导致缓存失效，对推理成本和响应性能来说都是巨大损耗。

对此，他给出了一个简单却有效的原则：确保上下文内容是围绕同一任务的，这样才更符合模型最初始的设定，且不仅能提升响应速度，还能增加命中缓存的概率——而服务商针对后者所收取的输入Token费用，一般会比标准单价低。此外，尚明栋的团队实测数据显示，仅通过缓存机制这一项，就能避免至少10%的重复计算。当前行业内也已经实现这种“外挂”，例如通义千问3. 5等新一代模型，已在架构层面自带KV Cache压缩机制。降本的三个技术切口：低精度、稀疏架构、数据升维当用户能够保持高效的使用习惯，Token账单的压力，便传导到技术层面。从算力供给方的角度，尚明栋回忆，去年上半年自家销售团队还在四处兜售算力，到了今年就已经开始抱怨“无算力可卖”。供给的短缺和需求的大幅上升，倒逼算力供给方优化技术。尚明栋分享了九章云极在算力云建设中的工程实践——基于随机算法推理等策略，实现PD分离、四层存储架构设计、将计算、存储与管理网络进行物理分离等目标。具体到模型架构层面，方法之一，是尚明栋提到的MoE（混合专家）设计：当万亿参数规模的超大模型内置这种架构时，每次推理实际只需触发2至3个专家模型，这相当于只调用了二十分之一的参数规模即可完成任务。

此外，肖嵘还提到DeepSeek下一代旗舰模型V4可实现记忆剥离的核心架构之一Engram。这一创新设计提供了一种扩展模型规模的全新思路，将大模型的参数拆分为传统大模型网络的参数（例如Transformer参数、嵌入层参数）和存储“知识”的参数。前者参数规模的增大会显著增加计算的开销，后者则无影响。来到硬件底层，肖嵘以英伟达Blackwell架构B300为例，指出了一个关键趋势：业界越来越倾向于使用低精度计算。一个明显的指标对比是，FP4比FP8的算力吞吐量提高了约3倍。但肖嵘也提醒，低精度计算并非“免费的午餐”——它会引入量化和反量化等一系列额外操作。如果没有硬件层面的专门加速支持，实际收益会大打折扣。另一方面，Agent技术的普及对大模型的推理延迟提出极高要求。肖嵘指出，当前大模型推理很难做到极高TPS（Token每秒处理速度）的根本原因在于：推理过程中需要高频访问大规模模型参数以及 KV Cache，这对内存带宽造成巨大压力。

以Meta的LLaMA 70B为例，假设模型参数以FP16形式存储在HBM中，经粗略估算，在1000 TPS场景下，仅模型参数从HBM向计算核心供数所对应的带宽需求就可达到百TB/s量级，这一数量级已远超当前主流硬件的实际带宽能力。正因如此，英伟达才在下一代Rubin架构中引入了基于 Groq LPU 的 LPX 推理加速系统，构建GPU与LPU协同的异构推理架构。其中，GPU 主要负责高吞吐的预填充与注意力计算，而LPU则针对延迟敏感的解码路径进行加速。此外，LPU还采用高带宽、低延迟的片上 SRAM 以及数据流执行架构，显著降低访存开销，提升单次推理响应速度，并提高单位时间内的Token生成密度。（更多算力与算法层面的技术优化，欢迎添加作者微信 Evelynn7778 探讨）而对于不具备改造算法和算力能力的中小企业而言，数据是撬动AI能力最现实的支点。关涛所在的云器科技坚持“数据——信息——知识”三级数据体系：首先确保当前企业的数据能够被AI所用，再将企业的数据转化为可共享的知识库。在这个过程中，同时搭建好反馈链路，引领企业AI化转型。

每人每月1000美元：Token经济学的第一笔账当Token利用率尽可能提高之后，从Token经济学的角度出发，企业应该如何看待员工的“账单”？三位嘉宾对于在Token上的预算把握已有初步的判断。肖嵘透露，一旦处理稍显复杂的项目，150美元可能瞬间见底。因此，云天励飞给研发人员每人每月配备了一定额度的AI费用。他认为这笔投入极其划算。因为相比研发人员动辄三四十万甚至百万年薪，Token成本只是人力成本的零头。关涛也印证了这一投入逻辑：当前云器科技没有设置Token消耗的上限，员工每月在AI辅助开发上的花销约500至1000美元，目前已有约20%的员工能做到高效利用。作为算力供应商，九章云极自身的员工外部Token花费月均成本也已达到2000元。在肖嵘看来，目前仍处于大模型使用的早期阶段，远未达到理想的效率峰值，企业还没到“卷成本”的阶段，此刻应全面、大胆地拥抱大模型。当然，这并不意味着对成本放任自流。肖嵘建议，当大模型使用真正进入普及阶段后，在面对如何摊薄时间成本的问题时，企业可利用晚间等低负载时段错峰提交任务，或通过多Agent并行执行任务来提升效率。此外，订阅制也是一种选择。

不过尚明栋提醒，有些时候订阅制只是看起来划算，因为一旦大模型服务负载不稳定，性价比反而可能不如按量付费。他强调，企业一定要从业务价值反推Token消耗的性价比。关涛指出，当前业界主流的消耗量是此前的10倍，若没有达到这个增长数字，企业需要反思在AI转型上是否已经落后；然而，如果超过了，就要认真审视成本结构。他以一个极其微小的动作为例：大模型每次哪怕是对“Hello”这样简单的交互进行回复，背后都需要一次API调用。而单次接入成本约5毛钱，当每个API都计费、用户高频调用时，这笔原本不起眼的花销瞬间被数量级放大。基于此，就不难理解为什么当下“养龙虾”这件事能和“破产”挂钩。关涛团队实测发现，按照标准OpenClaw的使用习惯，每人每月的API花费平均值高达400～500元。这意味着，为了养一个数字分身，光调用API的开销就已占据每人月可支配收入的约10%。除了API的调用频率，肖嵘指出，用户具体使用的大模型也在影响Token账单。

（使用侧还有哪些因素影响Token消耗，欢迎添加作者微信 Evelynn7778 交流）他解释道，参数规模越大，大模型处理复杂任务的能力越强，所能承载的上下文长度也随之增加，因此所消耗的Token数量就越多，对应的成本自然水涨船高。此外，即便处理一样的Token数量，参数越大的模型背后涉及的计算量也越大，这也是中美大模型之间价格悬殊的根源。肖嵘指出，中国模型倾向于采用极端的稀疏化和轻量化设计，在大多走免费路线的情况下，力求用尽量少的训练和推理成本实现较强的智能；而美国企业的模型在参数规模上则要激进得多，价格自然也高出一截。出于长期成本、低延迟或数据安全的考量，肖嵘认为企业还可以采用本地部署。他介绍，最新的模型量化压缩技术可以在精度无损的情况下，把模型参数和KV cache参数分别压缩至4比特和3. 5比特，从而支撑百亿规模的大模型在本地运行。而具体到硬件选择，值得一提的是最近因OpenClaw卖爆的Mac mini。它之所以备受青睐，正是因为其统一内存和高性能的M系列芯片，以及4000多块钱的亲民成本。

有了Token，单一程序员可掌控的代码体量跃升十倍，演讲者长达两周的资料准备时间被大幅压缩，十几岁的孩子可以超前学习竞赛知识、写程序优化游戏代理延迟……然而，Token账单的高低，本质是API调用频次、模型选型与技术路线共同作用的结果。不过，比起省钱，现阶段更重要的，或许是建立一条将Token变现为业务价值的通路。以下是此次圆桌讨论的精彩分享，雷峰网进行了不改原意的编辑整理：谈Token成本及消耗现状：用量激增10倍，账单烧不起雷峰网·胡敏：从去年开始研究怎么用AI，到今年用上小龙虾，我自己最大的感受是Token消耗真的有点“烧不起”。想问问三位嘉宾，有没有感受到Token消耗量的变化？以及让你们比较“肉疼”的案例？尚明栋：因为我们既是算力提供者，也是消纳者，所以我从两个视角出发来谈。从供需曲线看，去年行业还在探索算力需求的落地场景，今年高质量算力资源已成为驱动AI创新的核心战略资产，需求呈现爆发式增长。从消纳端看，我认为第一个Killer APP可能就是AI Coding。去年年底Claude 4. 5出来后，代码生成质量已经能支撑“一人公司”。

一个资深程序员原来能管理的代码上限大概2万～3万行，现在借助AI Coding可以轻松突破十几万行。我们公司内部也大量使用，比如每晚做一次全代码审核，包括静态代码的扫描、端口的扫描、安全策略扫描，代码量几百万行，一次扫描消耗六七千万Token——但折算成钱，成本其实并不大。但也有“坏例子”：比如用人工智能去做代码生成的时候，装Homebrew遇到权限警告，AI不懂用sudo绕过，反而建议你去下载开源代码重新编译，这一步可能消耗几百万甚至上千万Token，而实际上人工用一个简单命令就能跳过。这说明需要人工必要介入，不能全部交给AI决策。关涛：我给大家分享两个数字。第一个是我们接主流模型时做的实验：测试API是否通畅，说一句“hello”，模型回一句“我能帮你做什么”——这一个API调用就要5毛钱。第二，如果用标准版的OpenClaw（未经优化），每人每月的API消耗平均在400～500元。对比一下，我国人均月可支配收入也就4000多人民币，养一个“龙虾”要花掉十分之一，这个账单确实夸张。

Read on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网芯片

See more →

雷峰网芯片

1d ago

FeaturedOriginal

Token账单迷雾：当每百万Token多少钱变成「比价陷阱」

AI Summary

The rise of Token billing in AI has transformed costs into operational expenses, with prices varying significantly due to factors like model efficiency, energy costs, and contract terms. As companies shift from GPU hours to Token-based billing, understanding the hidden complexities behind Token pricing becomes crucial for effective budgeting.

#LLM #AI Coding #GPU #Policy