文章作者、来源:0x9999in1,ME News
一个字。一个词。一段代码。一次呼吸。
Token是大语言模型处理信息的最小颗粒。你跟AI说一句话,它把你的话切成Token,理解,推理,再把回答切成Token,吐回来。
就这么简单。
但就这么一个简单的东西,在2026年的此刻,成了整个AI产业最核心的经济单位。
为什么?
因为所有的AI产出——文字、代码、图像、视频、决策、行动——最终都要折算成Token。Token是AI世界的GDP。你生产了多少Token,你消耗了多少Token,你单位Token的成本和售价是多少——这决定了一家公司是印钞机还是烧钱炉。
Google在2026年Q1财报中披露:Gemini API每分钟处理超过160亿Token,较上季度的100亿增长60%。
NVIDIA全年数据中心收入1937亿美元。这些收入,本质上是卖给别人"生产Token的能力"。
Salesforce CEO Marc Benioff上周在All-In播客上说了一个数字:2026年全年,Salesforce预计花3亿美元购买Anthropic的Token。仅用于编程。
3亿美元。一家公司。一年。只是写代码。
这就是Token经济的规模。
2026年3月,GTC大会。黄仁勋穿着他的黑色皮衣,做了两个多小时的主题演讲。
他不再举着一块芯片了。
"计算的单位不再是芯片,"他说,"是机架。"
然后他掀开了Vera Rubin NVL72——一整个液冷机架,72颗Rubin GPU,36颗Vera CPU,130万个组件。峰值输出:每秒7亿Token。
上一代?同等功耗下,一个1GW数据中心每秒2200万Token。
两年时间。350倍。
但硬件只是故事的一半。黄仁勋在GTC期间更重要的表态是一个经济学判断——他把数据中心重新定义为"Token工厂"。
什么意思?
传统数据中心储存数据、处理数据。AI时代的数据中心生产Token。就像电厂生产电一样。
NVIDIA官方博客在4月发了一篇文章,标题直接叫《为什么每Token成本是唯一重要的指标》。文中写道:"传统数据中心只是存储和处理数据。在生成式和Agentic AI时代,这些设施已经演变为AI Token工厂。推理是它们的主要工作负载,Token是它们的主要产出。"
顺着这个逻辑往下推。
电力有峰谷差价。凌晨三点的电便宜,下午五点的电贵。为什么?因为供需关系在一天之内是动态变化的。
Token也一样。
一个简单的聊天请求,和一个需要调用五个工具、跑八轮推理的Agent任务,它们消耗的Token量、对算力的压力、需要的响应速度,完全不同。
所以黄仁勋的判断是:Token不会像大宗商品一样统一定价。它会像电力一样——分时段、分层级、分优先级,动态定价。
低延迟、高复杂度的推理任务?贵。后台批处理、对延迟不敏感的任务?便宜。高峰时段抢算力?加价。空闲时段填充产能?打折。
这不是猜测。现实已经在往这个方向走了。
OpenAI的最新定价体系已经把输入Token和输出Token分开计费,把不同模型的定价拉开了几十倍的差距——GPT-4o的输出是每百万Token 10美元,而GPT-4.1 Mini只要1.6美元。阿里Qwen 3.5 Flash更极端:每百万输入Token只要0.1美元。
但真正的动态定价——随时间、随负载、随优先级浮动——还没有全面铺开。
黄仁勋赌的是:这一天很快就会来。
而当这一天到来的时候,掌握了"Token工厂"基础设施的人——也就是NVIDIA——就是AI时代的电网运营商。
GTC 2026的会前视频开篇第一帧就定了调:"Token是现代AI的基本单位。"
黄仁勋在一次播客中甚至提出:未来工程师的薪酬包里应该包含Token预算。一个50万美元年薪的工程师,也许该配25万美元的Token额度来驱动AI Agent帮他干活。
Token不是成本。Token是生产力的燃料。
这是黄仁勋的逻辑。
如果说黄仁勋站在供给侧——"怎么更高效地生产Token"——那无招站在调用侧,关心的是另一个问题:"怎么更聪明地使用Token"。
什么叫"效法自然"?
看看现实中正在发生什么。
2026年4月,Meta内部爆出一件荒唐事。一个叫"Claudeonomics"的内部排行榜被曝光——8.5万名员工竞相炫耀自己的AI Token消耗量,30天内烧掉60万亿Token。按Anthropic公开定价估算,价值约9亿美元。排行榜上线48小时后被紧急关闭。
这不是个案。"Tokenmaxxing"——刻意最大化Token消耗以彰显AI使用率——已经成为硅谷一种亚文化。有人并行跑多个Agent纯粹为了刷数据。有人让AI做无意义的重复工作只为冲排行。
亚马逊也被曝出类似情况:为了在内部AI使用指标上好看,员工让AI"做无意义的忙碌工作"来注水Token消耗量。
这就是无招所批判的反面。
无招的逻辑很朴素:Token是能量。能量在自然界中从来不浪费。一棵树光合作用不会多消耗一个光子。一只猎豹追猎不会多跑一步冤枉路。
"子弹要打准,不能乱射。"
翻译成技术语言:一个好的AI应用,不是看它消耗了多少Token,而是看它用最少的Token完成了最精准的任务。
GitHub在2026年5月的工程博客中描述了自己的"Token优化工程":通过系统化的工具调用精简和上下文压缩,把Agentic Workflow的Token消耗大幅降低,同时保持甚至提升输出质量。
开源社区也在响应。一个叫Caveman的Claude Code插件,通过让AI"像山顶洞人一样言简意赅"来压缩输出,宣称节省87%的Token——3天内GitHub拿下4100颗星。
Agent Browser的设计哲学更极致:传统方式抓取一个网页的可交互元素需要8000到50000个Token,它只用500到800个。减少93%。
这些不是边角料创新。这是一种正在成型的范式——Token效率。
无招的观点代表了一个重要的认知转向:在AI产业的早期,大家关注的是"能不能跑起来"。Token消耗是次要的,先把效果做出来再说。但当AI进入规模化部署阶段,Token就是真金白银。浪费Token不是技术问题,是商业问题。
Ramp的《2026春季企业支出报告》显示:5万家企业客户的月均Token支出从2025年1月到2026年3月增长了13倍。有些企业一个季度内Token支出暴涨50%以上。
企业AI月均支出已跑出六位数。
当账单涨到这个量级,"子弹打准"就不再是哲学命题,而是生死问题。
2026年5月13日。北京。Baidu Create 2026开发者大会。
李彦宏上台。演讲主题叫"自我进化"。
他抛出了一个新概念——DAA。Daily Active Agents。日活智能体数。
他说:移动互联网时代,我们用DAU(日活跃用户数)衡量一个平台的繁荣。AI时代,对应的指标应该是DAA——每天有多少智能体在为人类完成真实任务。
为什么不能继续用Token消耗量来衡量?
"Token代表的是成本,而非价值。"——这是李彦宏的原话。
Token衡量的是投入,不是产出。就像你不能用一家公司烧了多少电来判断它有多成功一样,你也不能用它消耗了多少Token来判断AI产业有多繁荣。
60万亿Token听起来很震撼?如果大部分是注水的"Tokenmaxxing"呢?
160亿Token每分钟听起来很牛?如果其中有大量无效调用呢?
DAA的逻辑是:你造了多少Agent不重要,跑了多少Token不重要,关键是——每天有多少Agent真的在干活?干成了多少事?
这是一个从"输入"到"输出"的视角翻转。
李彦宏的判断带有很强的产业节点感。AI行业正从"模型竞赛"进入"应用竞赛"。模型再强,不转化成实际的Agent服务、不完成真实任务,就是空中楼阁。
在同一场大会上,百度发布了通用智能体DuMate、编程Agent"秒达"的应用版和企业版、升级的数字人平台百度一境、以及自我进化的Famou Agent 2.0。
所有这些产品发布,都在呼应一个核心主张:别再比谁消耗的Token多了。比谁的Agent真正在为用户干活。
百度股价在大会后大涨超7%,创三个月新高。
资本市场用脚投票。
把三个人的判断并排看——
黄仁勋:Token是产品。数据中心是生产Token的工厂。关键指标是"每瓦特产出多少Token"、"每美元生产多少Token"。Token定价将走向电力式的动态市场。
无招:Token是能量。好的系统应该让Token像自然界的能量一样高效流转——最少的消耗,最精确的命中。浪费Token是系统设计的失败。
李彦宏:Token是原材料,不是终产品。衡量AI产业的健康度,不能看消耗了多少原材料,要看交付了多少成品——也就是真正运行的Agent和它们完成的任务。
他们在争论什么?
表面上看,是"Token重不重要"这个问题。
深层看,是AI产业价值链上不同位置的人,各自在为自己的利益正名。
黄仁勋卖GPU。GPU产Token。Token越多越好。所以他强调Token是核心商品,数据中心是Token工厂,并提出Token应该像电力一样形成成熟的市场定价机制。Token消耗增长 = NVIDIA营收增长。
无招做平台和应用。平台买Token给用户用。Token浪费 = 成本失控。所以他强调效率,强调"自然流动",强调精准投放。
李彦宏做生态。生态靠Agent落地。如果行业只盯着Token消耗量,那百度这种"Agent落地"故事就讲不响。所以他要换一套度量衡——DAA——让焦点转向"谁的Agent真的在干活"。
三个人都对。三个人都有私心。这就是商业。
但他们的共识远大于分歧——
Token经济时代已经到来。这不是概念,是事实。
让我们看一组数字,感受一下2026年5月的Token世界是什么量级:
供给侧:
需求侧:
定价侧:
成本塌缩。需求爆炸。价格分层。
这三股力量正在同时作用。
Meta的60万亿Token事件不是笑话。它揭示了一个系统性困境——
当一个公司用"Token消耗量"作为衡量员工AI使用率的指标时,古德哈特定律立刻生效:当一个度量变成目标,它就不再是好的度量。
员工开始为了冲数据而使用AI。不是因为需要,而是因为被看见"在用AI"本身成了绩效信号。
CNBC在4月的一篇分析文章中写道:"Token正在成为一个被扭曲的指标。激励最大化Token使用只能衡量一个工程师在AI上花了多少钱,而不是他用AI产出了什么。"
这恰恰印证了李彦宏的判断。也呼应了无招的告诫。
Token消耗本身不是目的。它是手段。当手段被错认为目的,系统就会变形。
上海电信刚刚在5月18日推出了Token资费套餐——1元对应25万额度点,用手机账单直接付费。这意味着Token已经在电信运营商层面被当作"水电煤"一样的基础设施来卖了。
黄仁勋的"Token即电力"比喻,正在成为现实。
但电力有一个Token目前还没有的东西——成熟的监管框架和定价公式。
谁来定Token的峰谷价?谁来决定优先级?谁来监管"Token工厂"的排放和浪费?
这些问题,现在还没有答案。
三个人的观点不是互斥的。它们是Token经济的三个层面:
三者缺一不可。
只有供给没有效率,就是Meta那样的60万亿Token注水。只有效率没有价值衡量,就是精打细算但不知道打到哪里。只有价值衡量没有基础设施支撑,DAA再高也跑不动。
2026年的AI产业正站在一个拐点上。Token经济正在从"原始混沌"走向"结构化"。定价机制在形成,效率标准在确立,价值度量在探索。
Goldman Sachs说2030年Token消耗量增长24倍。如果这个数字成真,那今天围绕Token的一切争论——定价、效率、度量——都会在未来四年内得到回答。
不是理论上的回答。是用几万亿美元的真金白银砸出来的回答。
到那时再回看2026年5月,黄仁勋、无招、李彦宏三个人说的话——大概会觉得:他们都说对了一部分。
但没有人看到全部。
就像1995年的人讨论"互联网的带宽应该怎么定价"一样——方向是对的,尺度是错的。最终的答案比所有人想象的都大。
Token的故事,才刚开始。


