
DeepSeek-V4成为最强开源模型,紧追闭源第一梯队。
文|飞向TAI空
作者|胡珈萌

三大技术突破:
混合注意力架构、mHC与Muon
解耦注意力,从“逐字背诵”到“记重点+跳读”
流形约束,防止深层网络的“信息传丢”
全新优化器与超大规模数据,拓宽能力边界
进击的Agent能力

国产算力适配,价格战2.0的前夜

写在最后



DeepSeek-V4成为最强开源模型,紧追闭源第一梯队。
文|飞向TAI空
作者|胡珈萌

三大技术突破:
进击的Agent能力

国产算力适配,价格战2.0的前夜

写在最后

