小米狂撒Token！最高降幅99%，全面对标DeepSeek

专注AIGC技术的专业社区，关注大语言模型（LLM）的发展和应用落地，聚焦LLM及AI技术的市场研究和开发者生态，欢迎关注！

5月22日，DeepSeek宣布V4-Pro API永久降价，五天后小米MiMo跟进，最高降幅99%，Pro版三项核心价格与DeepSeek完全一致。

国产大模型API价格战，正式杀入成本线。

一个月三连降

DeepSeek V4系列4月25日上线，V4-Pro首发定价为：输入缓存命中0.1元/百万tokens，输入缓存未命中12元/百万tokens，输出24元/百万tokens。

第二天就动了。4月26日20:15，DeepSeek宣布全系API输入缓存命中价降至首发价的1/10，V4-Pro同时叠加2.5折限时优惠，缓存命中价直接压到0.025元/百万tokens。

限时优惠原定5月5日结束，后来延至5月31日。5月22日晚间，DeepSeek正式宣布：2.5折优惠不再限时，永久生效。5月31日活动结束后，V4-Pro定价调整为原价的1/4。

降价的底气来自技术迭代。

V4-Pro总参数1.6万亿，是全球最大的开源MoE（混合专家）模型。百万级调用场景下，单次推理算力消耗降至前代的27%，缓存显存占用仅为原来的1/10。

DeepSeek去年公开的推理成本，Token都以DeepSeek-R1的价格计费，利润率高达545%。

另一重底气来自资本。

降价公告同一天，彭博社等媒体报道DeepSeek正推进约700亿元人民币融资，潜在投前估值约450亿美元。创始人梁文锋向投资者强调的仍是开源模型和AGI（通用人工智能）目标，而非短期商业化。

他个人还将出资约200亿元参与本轮融资。V4-Pro永久降价更像长期生态策略，不是阶段性促销。

五天后小米对齐

5月27日零时，小米MiMo官方公告：MiMo-V2.5系列API永久降价，最高降幅99%，不再区分上下文窗口长度。

雷军在微博转发了这条消息，强调最高降幅达到99%，不再区分上下文窗口。

99%的降幅足够醒目。降价后的三个数字，与五天前DeepSeek确定的V4-Pro长期价格完全一致。

小米还取消了上下文长度分档。此前MiMo-V2系列按256K以内和256K至1M分档计价，长窗口成本明显更高。V2.5系列降价后不再区分，等于直接降低了长上下文任务的使用门槛。

Token Plan计费体系同步调整，同等价格下用量提升至5至8倍，所有仍在有效期内的用户额度全量重置。100T Token创作者激励计划已于5月26日提前发放完毕，永久降价和额度重置，是在免费Token红利结束后继续承接开发者生态。

技术层面，小米称基于SGLang HiCache完整支持SWA，将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降至优化前的近1/7，可缓存token数量提升至近5倍，并通过专家并行、输入长度分桶提升集群吞吐。

正是这些后台工程优化，决定了厂商是否有能力长期维持低价。

谁更便宜已经不够了

对于代码助手、企业知识库、客服系统、Agent（智能体）工作流来说，大量调用包含重复上下文：系统提示词、工具说明、历史轨迹、代码仓库背景，会在多轮任务中反复出现。过去长上下文和多步Agent难以大规模部署，持续调用成本过高是主因。

缓存命中价压到0.025元/百万tokens，真正被重估的是复杂任务连续运行的成本。

放到全球价格体系中，差距更加明显。OpenAI的GPT-5.5 Pro API定价为输入30美元/百万tokens、输出180美元/百万tokens。

DeepSeek V4-Pro和MiMo-V2.5-Pro调价后，仅以缓存未命中输入3元、输出6元计算，价格已低出不止一个数量级。

行业走势也在分化。

5月初，字节旗下豆包App推出三档订阅，标准版每月68元、加强版200元、专业版500元。

智谱今年已三次上调API价格，4月8日发布GLM-5.1时再涨10%。

阿里云5月15日起上调百炼平台模型服务价格，腾讯云同月宣布AI算力相关产品涨价5%。

一周之内，大模型行业走出了三种方向：豆包开始收费，云厂商集体涨价，DeepSeek永久降价，小米对齐跟进。

大模型API价格战已经不只是模型参数和榜单能力的竞争，而是延伸到推理框架、缓存系统和集群资源调度能力的竞争。

能否在高并发、长上下文和多轮调用下持续压低单token服务成本，正在成为厂商基础设施能力的一部分。

DeepSeek先把限时优惠变成长期价格，小米MiMo随后将Pro档价格直接对齐。

两家公司共同释放的信号是：国产大模型API正在从能力溢价阶段，进入成本约束阶段。后续压力将传导给更多模型厂商。

同等能力区间的模型已经可以把缓存命中输入压到0.025元/百万tokens，价格更高的模型需要向开发者回答，贵出来的部分，究竟来自更强能力、更高稳定性、还是仅仅来自过去的定价惯性。

END

点击图片立即报名👇️

菜单

分享

小米狂撒Token！最高降幅99%，全面对标DeepSeek

一个月三连降

五天后小米对齐

谁更便宜已经不够了

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

ICLR 2026 | BioMD：从结构快照到连续轨迹，蛋白-配体全原子动力学生成模型

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！