最近,AI圈子里最热闹的事,莫过于国产大模型接连“自砍一刀”。先是DeepSeek宣布永久降价,紧接着小米的MiMo系列也跟进,最高降幅甚至喊出了“99%”的口号。这波操作,让不少等着看Token涨价的开发者直呼“打脸”。但冷静下来想想,这真的是一场单纯的“价格战”吗?还是说,背后藏着更深的算盘?
降价是表象,场景才是靶心
很多人盯着那个“99%”的降幅,觉得这是厂商赔本赚吆喝。但仔细看条款就会发现,这个极低价格有个硬前提:请求必须大量命中缓存。就像你点外卖,如果每次都点同样的套餐,商家备餐快,自然愿意给你打折;但如果点的是稀奇古怪的定制菜,那价格就得按原价来算。
这个逻辑其实非常清晰。大模型从“聊天玩具”变成“生产力工具”,最吃算力的场景早已不是一问一答,而是Agent(智能体)。我上周看到一位程序员朋友在调试一个代码助手,一个简单的“帮我重构这个模块”指令,背后模型要读取整个项目的依赖文件、历史版本、API文档,来回推理好几轮。这种场景下,上下文长度动辄十几万Token,如果每次都要从头算一遍,成本确实吓人。
所以,DeepSeek和小米这波降价,本质上是把“高频、重复、长上下文”场景的成本打了下来。他们瞄准的不是偶尔玩一下的散客,而是那些需要模型“长期驻场”的开发者。这就像游乐园推出年卡,而不是按次卖票——为的是让游客多来、常来,而不是一次玩个够。

工程暴力:把“不可能”变成“可能”
价格能降下来,光靠喊口号可不行,背后是硬桥硬马的工程能力。小米MiMo团队这次的技术方案里,提到了一个关键点:通过Sliding Window Attention(滑动窗口注意力)和多级存储(GPU显存、CPU内存、SSD)的混合调度,把KV Cache的搬运量降到了原来的七分之一,可缓存的Token数量却提升了近五倍。
这里其实有一个行业共识:推理成本的下限,取决于硬件利用率的上限。一位做模型部署的朋友给我看过一组数据:在未经优化的模型服务里,GPU的算力利用率可能连30%都不到,大部分时间浪费在等待数据从内存搬运到显存上。而小米和DeepSeek这波操作,本质上是把这条“搬运路”拓宽了、修直了,让GPU能一直“满负荷”干活。
这种工程层面的优化,和当年互联网公司搞“削峰填谷”异曲同工。它不是靠买更多显卡堆出来的,而是靠把每一张显卡的潜力榨干。这也解释了为什么罗福莉(小米大模型负责人)一个月前还公开反对价格战,现在却跟进降价——因为她反对的不是低价本身,而是“没有工程支撑、不可持续的低价”。当技术能把成本真正压下来,低价就不再是补贴,而是竞争力。

生态绑定:用Token换用户,用数据换未来
如果只算单次调用的账,这波降价短期来看肯定是亏的。但厂商们算的是另一笔账:低价Token + 免费额度 = 海量真实调用 = 高质量反馈数据。就像拼多多早期烧钱补贴,不是为了卖货赚钱,而是为了通过海量订单积累用户行为数据和商家运营经验。
“真实调用会带来复杂任务、失败样本、用户反馈、Agent工作流、代码场景和长上下文数据,这些都会反过来帮助模型和推理系统迭代。”
这正是“养虾党”现象背后的逻辑。那些想尽办法消耗免费额度的用户,看似在薅羊毛,实则在帮平台“测试极限”。他们制造的压力、暴露的bug、积累的调用模式,都是优化模型和推理系统最宝贵的素材。开发者一旦习惯了某个平台的低价和稳定服务,再迁移到别的平台,成本就很高了。这种生态锁定,远比短期API收入更有价值。
参考一下国外的情况,OpenAI的API定价虽然不便宜,但它的开发者生态和插件体系已经形成了很强的黏性。而国内厂商这波降价,实际上是在用“成本优势”换取“生态入场券”。当开发者把代码助手、办公自动化、智能客服都跑在小米或DeepSeek的模型上时,这些厂商就拿到了AI应用层最核心的“流量入口”。

谁的危机?谁的转机?
这波价格跳水,最难受的肯定是那些“只有模型能力、没有工程厚度”的中小公司。它们既没有小米那样的硬件和业务生态来输血,也没有DeepSeek那样的底层优化技术来压成本。当头部厂商把缓存命中价焊死在0.025元/百万Token时,这些玩家要么被迫跟进、亏本运营,要么只能退守到更垂直、更细分的场景里。
但话说回来,价格战的终点,从来不是看谁的价格更低,而是看谁能在低价下还能提供更好的服务。当Token成本趋近于物理成本,单纯降价的意义就越来越小。下一阶段,比拼的将是:
模型质量:能不能准确理解复杂指令?
Agent适配:能不能和现有的开发工具、办公软件无缝对接?
服务稳定性:会不会因为调用量暴增而频繁报错?
企业交付能力:能不能满足数据安全、私有化部署等要求?
这就像手机行业,当年功能机时代拼价格,但到了智能机时代,拼的是系统体验、应用生态和硬件整合。大模型行业正在经历类似的拐点。
说到底,这波降价只是AI普及化进程中的一个路标。当Token真的便宜到“可以忽略不计”时,开发者就不再需要纠结“这个功能该不该用AI”,而是会思考“这个场景怎么能用AI做得更好”。到那个时候,属于AI应用的大爆发,才算真正开始。
用户评论
分享你的观点,与其他读者交流想法