5月22日,DeepSeek宣布V4-Pro API永久降价,五天后小米MiMo跟进,最高降幅99%,Pro版三项核心价格与DeepSeek完全一致。
国产大模型API价格战,正式杀入成本线。
一个月三连降
DeepSeek V4系列4月25日上线,V4-Pro首发定价为:输入缓存命中0.1元/百万tokens,输入缓存未命中12元/百万tokens,输出24元/百万tokens。
第二天就动了。4月26日20:15,DeepSeek宣布全系API输入缓存命中价降至首发价的1/10,V4-Pro同时叠加2.5折限时优惠,缓存命中价直接压到0.025元/百万tokens。

限时优惠原定5月5日结束,后来延至5月31日。5月22日晚间,DeepSeek正式宣布:2.5折优惠不再限时,永久生效。5月31日活动结束后,V4-Pro定价调整为原价的1/4。

降价的底气来自技术迭代。
V4-Pro总参数1.6万亿,是全球最大的开源MoE(混合专家)模型。百万级调用场景下,单次推理算力消耗降至前代的27%,缓存显存占用仅为原来的1/10。
DeepSeek去年公开的推理成本,Token都以DeepSeek-R1的价格计费,利润率高达545%。
另一重底气来自资本。
降价公告同一天,彭博社等媒体报道DeepSeek正推进约700亿元人民币融资,潜在投前估值约450亿美元。创始人梁文锋向投资者强调的仍是开源模型和AGI(通用人工智能)目标,而非短期商业化。
他个人还将出资约200亿元参与本轮融资。V4-Pro永久降价更像长期生态策略,不是阶段性促销。
五天后小米对齐
5月27日零时,小米MiMo官方公告:MiMo-V2.5系列API永久降价,最高降幅99%,不再区分上下文窗口长度。

雷军在微博转发了这条消息,强调最高降幅达到99%,不再区分上下文窗口。

99%的降幅足够醒目。降价后的三个数字,与五天前DeepSeek确定的V4-Pro长期价格完全一致。
小米还取消了上下文长度分档。此前MiMo-V2系列按256K以内和256K至1M分档计价,长窗口成本明显更高。V2.5系列降价后不再区分,等于直接降低了长上下文任务的使用门槛。
Token Plan计费体系同步调整,同等价格下用量提升至5至8倍,所有仍在有效期内的用户额度全量重置。100T Token创作者激励计划已于5月26日提前发放完毕,永久降价和额度重置,是在免费Token红利结束后继续承接开发者生态。

技术层面,小米称基于SGLang HiCache完整支持SWA,将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降至优化前的近1/7,可缓存token数量提升至近5倍,并通过专家并行、输入长度分桶提升集群吞吐。
正是这些后台工程优化,决定了厂商是否有能力长期维持低价。
谁更便宜已经不够了
对于代码助手、企业知识库、客服系统、Agent(智能体)工作流来说,大量调用包含重复上下文:系统提示词、工具说明、历史轨迹、代码仓库背景,会在多轮任务中反复出现。过去长上下文和多步Agent难以大规模部署,持续调用成本过高是主因。
缓存命中价压到0.025元/百万tokens,真正被重估的是复杂任务连续运行的成本。
放到全球价格体系中,差距更加明显。OpenAI的GPT-5.5 Pro API定价为输入30美元/百万tokens、输出180美元/百万tokens。
DeepSeek V4-Pro和MiMo-V2.5-Pro调价后,仅以缓存未命中输入3元、输出6元计算,价格已低出不止一个数量级。
行业走势也在分化。
5月初,字节旗下豆包App推出三档订阅,标准版每月68元、加强版200元、专业版500元。
智谱今年已三次上调API价格,4月8日发布GLM-5.1时再涨10%。
阿里云5月15日起上调百炼平台模型服务价格,腾讯云同月宣布AI算力相关产品涨价5%。
一周之内,大模型行业走出了三种方向:豆包开始收费,云厂商集体涨价,DeepSeek永久降价,小米对齐跟进。
大模型API价格战已经不只是模型参数和榜单能力的竞争,而是延伸到推理框架、缓存系统和集群资源调度能力的竞争。
能否在高并发、长上下文和多轮调用下持续压低单token服务成本,正在成为厂商基础设施能力的一部分。
DeepSeek先把限时优惠变成长期价格,小米MiMo随后将Pro档价格直接对齐。
两家公司共同释放的信号是:国产大模型API正在从能力溢价阶段,进入成本约束阶段。后续压力将传导给更多模型厂商。
同等能力区间的模型已经可以把缓存命中输入压到0.025元/百万tokens,价格更高的模型需要向开发者回答,贵出来的部分,究竟来自更强能力、更高稳定性、还是仅仅来自过去的定价惯性。
END
点击图片立即报名👇️




