lch
发布于 2026-05-18 / 0 阅读
0

中国eMRAM芯片流片成功,美国的算力墙碎了

来源:云海观星社   作者:仗剑观星


2024年初,硅谷发生了一件震撼业界的事儿。

一家名叫Groq的初创公司,突然公布了一个大模型测试网址。

你输入一段提示词,按下回车,屏幕上的字不是像ChatGPT那样一个词一个词地往外蹦,而是像瀑布一样唰地一下,就把屏幕给铺满了。

经过测试,Groq的输出速度,达到了每秒500个Token

这是啥概念?哪怕OpenAI采购了英伟达最强的NVL72超级算力集群,输出速度不过每秒50个Token左右啊!

英伟达团队努力了一年多,始终无法达到Groq的恐怖推理速度,最后无奈做了个决定:

打不过,就加入吧。

2025年年底,英伟达花了200亿美元,收购了Groq的技术,几个月后,英伟达正式推出Groq 3 LPU,推理速度比H100芯片快6倍。

而此时,中国连能完全匹敌H100的芯片,都还没造出来,哪怕最好的昇腾950也不行。

那怎么办?中国只能在AI竞赛中被美国越落越远了吗?

并不会。

2026年5月7日,一家名叫寒序科技的中国芯片创业公司,宣布了一个重要消息:他们成功流片了亚洲首个8纳米eMRAM AI芯片。

中国的Groq,终于诞生了。

那么,这个eMRAM AI芯片到底是啥?它的诞生,又会怎样改变中美竞争格局呢?

一群中国人,

拿下了AI芯片的终极圣杯

要了解这个问题,我们需要简单科普一个概念:内存墙。

我们现在用的所有电脑、手机、AI服务器,其实底层架构,和冯·诺依曼时代没有太大的不同。

这个架构有一个特点:计算和存储是分开的。

打个比方:

你的计算芯片,就像是一个做菜的大厨。

你的内存,就像一个大型食材仓库。

大厨要炒个土豆丝,必须等卡车(数据总线)去郊区仓库把土豆拉过来。

过去几十年,摩尔定律让大厨的手速翻了成千上万倍,但是卡车的搬运速度,提升却非常缓慢。

于是,一个魔幻的现实诞生了,这个拥有闪电手速的大厨,90%的时间都是端着刀在厨房里发呆,等那个货车司机把土豆送过来。

这种数据速度赶不上计算速度的bug,就叫内存墙。

如果在以前,我们可能还可以无视内存墙,继续凑合用。

但到了AI时代,就不能无视了。

在之前的公众号文章中,我们介绍过AI芯片的两个用途:

一是训练,二是推理,二者对芯片的要求,是不一样的。

训练AI,是让它学知识,可以慢慢熬,速度没关系。

但推理,是让它回答问题,必须具备超高的推理速度,毕竟没有人能忍受大模型一个字一个字地往外蹦。

那么这个时候,内存墙的问题就很大了,AI芯片的计算能力可能很强,但大部分的时间,都浪费在了把参数从内存搬运到计算芯片的路上。

要想解决这个bug,只有一个办法:把仓库直接建在厨房旁边,不用卡车就能让大厨拿到土豆。

这在技术上,叫做存算一体,CIM。

说起来,存算一体的思路并不复杂,那么为什么不早一点这么干呢?

因为找不到合适的“放土豆的冰箱”(载体)。

在过去,载体只有两种选择,一种叫静态随机存储器SRAM,这玩意儿速度快,可以放在大厨手边,随做随用。

但问题在于,SRAM不仅体积庞大(要占芯片体积的60%),而且一断电,里面的数据就全丢了。

另一种叫闪存Flash,这玩意儿断电不丢数据,容量大,但是速度慢。

而我们需要的是一个超级冰箱,它要像SRAM一样极速,能紧紧嵌入计算核心,同时,它还得像Flash一样,断电后数据永远不丢。

那这玩意儿存在吗?

存在,这就是嵌入式磁阻随机存取存储器eMRAM,写入速度比NAND闪存快约1000倍,读写速度接近SRAM,而且体积很小,位单元仅需1个晶体管(SRAM需6个)。

eMRAM的技术核心,是那个字母“M”,磁。

传统的存储器,是用“装没装电子”来代表0和1。

eMRAM则巧妙利用了量子力学的属性,电子自旋,利用磁场的方向来代表0和1。

磁铁大家都玩过吧?你把磁铁掰到一个方向,只要你不动它,它一万年都指着那个方向,根本不需要通电来维持!

当你需要改变它的时候,只需用极其微弱的电流,瞬间就能改变它的方向,速度快到飞起。

极速、省电、断电不丢数据、体积小还能和计算电路完美融合。

当这四种属性集于一身,eMRAM就成了AI芯片存算一体的终极圣杯。

既然eMRAM这么牛X,那全世界的芯片巨头肯定都在研究吧?

没错。台积电、三星很早就在布局了,但在很长一段时间里,他们只能把eMRAM做到22纳米或者28纳米。

为啥?因为eMRAM太难了!

你想想,把几亿个极小的磁铁紧紧挨在一起,会发生什么?它们会互相干扰!当你试图把A磁铁翻转成1时,旁边的B磁铁可能就会跟着变成0。

而且,制程越小,电子会因为量子效应穿过绝缘层,导致严重的漏电和数据错误。

更难的是制造,eMRAM里面最核心的“磁隧道结”,需要堆叠几十层不同材质的薄膜,每一层只有几个原子的厚度。稍有不慎,整个结构就崩溃了。

所以哪怕强如三星和台积电,也搞不定。

但是呢?微电子专家搞不定的事情,不代表物理学家搞不定。

寒序科技很多人都没听过,但北京大学很多人就耳熟能详了。

而寒序科技,恰恰就脱胎于北京大学物理学院应用磁学中心,最擅长的就是自旋电子学与磁逻辑计算,没有人比他们更适合搞eMRAM了!

寒序科技的联合创始人兼首席科学家,是北大物理学院80后博导罗昭初,而另一位联合创始人兼CEO,名叫朱欣岳。

创业时,他还是北大物理学院的一名在校硕士生。

寒序科技团队只有20多个人,但个个都是研发骨干,从最底层的凝聚态物理、磁性材料配方,到微纳器件工艺,再到最上层的芯片架构设计和AI大模型算法,他们都能干!

他们凑在一起,就是想干一件伟大的事,用物理学,去改变传统的芯片设计架构,造出世界上算力最强、功耗最低的磁性存算一体芯片!

上来就冲击最高峰,风险太大了。无数人劝他们,先用28纳米的老工艺流个片试试水吧,路子走通了再提高制程。

但他们算了一笔账:要做能跑动AI大模型推理的端侧芯片,28纳米的晶体管密度根本不够。

要干,就干票大的!

于是,他们用600多个日日夜夜,用自研的新型材料配方,稳住了电子自旋,还重构了读写电路的架构,在极小的空间里平衡了磁场的排斥力。

在公司创立2年之后,他们终于完成了8纳米eMRAM设计。

但问题在于,这个设计是不是对的?没人知道,只能花几千万搞流片测试,点亮了是神话,没点亮就是笑话。

这就是一场豪赌。

而事实证明,他们赌赢了,寒序科技成功在三星8nm工艺窗口完成了亚洲首个eMRAM AI芯片流片

中国人,终于驯服了原子的脾气,彻底打通了AI算力的任督二脉。

一个小芯片,

彻底改变整个AI产业

毫无疑问,eMRAM的诞生,将彻底改变整个AI应用行业的格局。

请大家注意一个问题,当今AI产业,其实面临着一个困局:

绝大部分AI,都运行在云端。

你问豆包一个问题,语音被转换成数据,跨越上千公里的基站、光纤,钻进某个偏远山区的数据中心,那里成千上万张GPU正在疯狂运转,推理出结果,再传回你的手机。

这种云端模式,你如果拿它写诗、画画、做PPT,可能问题不大。

但如果你想把AI应用在产业上,那就不行了。

比如延迟,如果你开着一辆自动驾驶汽车,前面突然窜出一条狗。汽车把画面传给云端,云端AI思考了一下说“刹车”,再传回来。

对不起,狗已经飞升了。

再比如断网,一旦走进没有信号的地方,那AI就彻底瘫痪。

还有隐私,谁没有一点小癖好呢?谁没问过AI一些隐私问题呢?那么这些信息和内容,你愿意都让它上传到云端吗?

怎么办?

没别的办法,只能搞“去云端化”,把大模型部署到本地,也就是业内常说的端侧AI。

具体到产业上,我们必须把大模型塞进汽车、塞进手机、塞进AR眼镜、塞进机器人的脑子里!

但如果还用过去那种传统GPU作为大模型的载体,这要花多少钱?

也许端侧AI能硬塞进20万的汽车,但它能塞进几千块钱的手机和AR眼镜吗?

想想中国男人为了5090显卡在老婆面前多卑微,就知道这条路根本走不通,谁能接受一个塞了5090芯片,卖价好几万的手机?

这个时候,eMRAM,就是从天而降的解药。

仍然以自动驾驶为例,有了eMRAM芯片,端侧大模型就可以内嵌入芯片大模型参数根本不需要通过数据总线这辆“食材卡车”就能完成运算,它的推理速度,可以被压缩到传统架构的十分之一,甚至百分之一!

当摄像头捕捉到危险画面的那一瞬间,磁极翻转启动,几百亿次计算瞬间完成,瞬间做出刹车决策。

有了eMRAM,我们相信,L4级别的自动驾驶很快就会到来。

而且,谁说eMRAM只能用在汽车上呢?可穿戴设备也可以用啊。

我们都记得,当年扎克伯格和库克为了搞元宇宙,砸了上千亿美元,但为什么现在的AR眼镜还是没法像智能手机一样普及?

因为很多人戴AR眼镜时间久了,会晕。

为什么会晕?业内有个词叫动显延迟MTP。

AR原理是,当你的头转动时,眼镜的摄像头捕捉新画面,然后AI芯片开始推理,生成虚拟物体贴合在现实物体上。

如果这个推理过程超过了20毫秒,你的眼睛和前庭神经就会产生割裂感,大脑就会报警:你中毒了,快吐!

要解决这20毫秒的延迟,传统芯片架构已经力不从心,而eMRAM恰恰可以完美解决这个问题。

超快的推理能力,使得AR眼镜可以在极短的时间内完成虚拟渲染,你看向外文路牌,眼前实时翻译。你搭乐高,它能直接指示你下一步怎么搭。你看老婆,它也能从看到的微表情中判断老婆会不会打你。

物理世界与数字世界的重合,从此严丝合缝,再无卡顿。

还有机器人,eMRAM也补上了机器人行业最后一块短板

现在的人形机器人,很多动作都迟缓而僵硬。为什么?

因为机器人要保持平衡、要抓取物体,全身几十个关节的传感器每秒钟要向大脑发送海量的数据。

大脑需要用大模型进行实时的多模态推理,然后再下发指令给电机。

内存墙卡死了大脑的运转速度,机器人的动作自然就慢。

但如果你把eMRAM芯片装进机器人的脑子里呢?

存算一体带来的超快推理速度,可以让视觉大模型以每秒几百帧甚至上千帧的速度进行推理,别说让它炒菜做饭了,你让它学李小龙用双节棍打乒乓球,它也能办得到!

当每一个机器人的大脑都装入一个李小龙式的灵魂,人形机器人才能真正代替人类,走进高速运转的工厂流水线,走进充满突发状况的抢险救灾现场。

除此之外,eMRAM芯片还有一个意外收获:太空AI

5月6日,马斯克宣布,自己的xAI将不再作为独立公司存在,将并入SpaceX AI。

这被人认为是马斯克太空AI计划的开端。

马斯克一直认为,地球上电力、土地和冷却都会越来越受限成本越来越高,而太空里有持续且不要钱太阳能,也有近乎无限的地盘,未来只要把AI服务器发射进入太空,就能用低廉的token成本压死所有竞争对手。

面对马斯克的压力,谷歌公布“捕日者计划”,计划2030年建成吉瓦级太空数据中心。同时,亚马逊的Project Kuiper也瞄准了太空算力。

在这个新赛道上,中国也并不落后,2025年11月,北京市科委、中关村科学城管理委员会发布规划,提出在700~800公里晨昏轨道上,建设超千兆瓦功率的集中式大型数据中心系统。

可是,太空AI看起来很美,却有一个致命的bug:传统芯片不适应太空啊!

太空中,布满了高能宇宙射线,质子、重离子、电子打在靠电子来确定0和1的传统芯片上,要么会发生数据随机翻转,0变1、1变0,要么出现单粒子锁存,电路短路、芯片卡死,要么总电离剂量长期累积,慢慢漏电、性能下降。

所以,芯片在太空的错误率,是地面的10–100倍。

太空AI的确成本低,但如果它算出的都是一堆错误数据,有啥用?

这个时候你会发现,eMRAM,简直就是为太空AI量身定制的。

别忘了,它是靠“磁场方向”来记忆的。宇宙射线可以打飞电荷,但根本无法改变一块磁铁的磁极!

这意味着,eMRAM天然具备极强的抗辐射能力,未来千亿美元的太空AI市场大门,正在为eMRAM打开。

所以,这块小小的eMRAM,绝不仅是一块芯片那么简单,它将彻底改变整个芯片产业的格局,eMRAM+,将带来无限可能。

“农村包围城市”,

把美国AI之神拉下神坛

如果我们以更大的视角来看eMRAM就会发现,它的诞生,不亚于又一次“DeepSeek时刻”。

说实话,到了2026年,AI圈子里的玩家其实只剩了两个,中国和美国。

总是点错科技树的日本早就下桌了,而欧洲人正努力自救,但也注定徒劳。

他们的未来只有一个,看中美谁赢了,就跟谁走,接受AI附庸的命运。

但是,美国人的作风,是绝不能容忍中国赢得这场决定人类文明下一个百年走向的AI竞赛的。

所以,美国从上到下,从硬件到软件,从教育到产业,对中国筑起了一道高耸的算力墙。

你想要最聪明的AI?那你就必须训练超大参数的模型。

想要训练大模型?那你就必须拥有万卡规模的算力集群。

想要算力集群?那你就必须有顶级的GPU,要么买,要么造。

你想买?对不起,不卖给你。

你想造?对不起,台积电的3纳米产线不给你用,ASML也不给你EUV光刻机。

这就是美国人的算盘,只要限制EUV光刻机,禁售高端GPU,就能把中国的算力锁死在7纳米以上,永远无法突破高端GPU,任凭你有再多天才的算法工程师,也只能被美国人越落越远。

但美国人似乎忘了一件事:中国人,是这个星球上最擅长弯道超车的民族。

十年前,西方国家在汽车三大件技术上严防死守,想永远让中国变成他们倾销的市场,但中国一招电动汽车的神来之笔,全世界汽车产业格局就彻底改写。

一年前,OpenAI砸下上百亿美元,用十几万张顶级显卡去训练大模型,借此维持对中国的模型优势。但DeepSeek用MoE架构,只用了美国十分之一的算力成本,就训练出了性能超越GPT-4的顶级大模型。

今年,美国限制出口高端芯片,中国搞出了昇腾384超节点,把384颗昇腾NPU和192颗鲲鹏CPU连接在一起,使其训练性能达到了英伟达NVL72的1.7倍,网络带宽提升了107%!

而这次eMRAM的诞生,只不过又是一次弯道超车罢了,我们用8纳米工艺制程,一把抹平了美国的绝对算力封堵!

如今的AI产业格局啊,其实已经变了。

大模型的竞赛虽然激烈,但AI竞争的真正下半场,根本不在训练端,而在推理端,也就是

AI走进物理世界,去驱动汽车、去控制机器人、去让AR眼镜看懂世界。

但问题在于,云端AI有延迟,本地AI算力又不够,毕竟你不可能给机器狗塞进几百块显卡吧?

这个时候,端侧推理能力就至关重要了,谁能快速、低成本、低能耗地完成推理,谁就能赢。

而这恰恰是eMRAM的长处。

在传统架构下,你要达到100TOPS的推理速度,并且把功耗压在极低的水平,你可能必须要用3纳米甚至2纳米的工艺。

但现在,寒序科技在不需要EUV光刻机突破的情况下,利用8纳米制程,就硬生生地跑出了远超美国3纳米芯片的推理速度和能效比

时代变了!

所以,不要低估eMRAM带来的产业变革,它可能直接帮中国在AI竞争中开辟一条与美国截然不同的新路

说实话,如今的AI产业,已经越来越巨头化了。

巨头们用几万亿美元堆出来数据中心,然后把世界上所有的知识、所有的数据都放进去训练,试图制造一个全知全能的神,然后你向神上贡(付费),神给你指点迷津(token)。

只要你想用AI,就只能找他们,忍受他们的盘剥,如果他们看你不顺眼,直接就可以封掉你的账号,你毫无办法。

这就是继军事霸权、石油霸权之后的AI霸权。

5月1日,美国国防部发表声明,称已与SpaceX、OpenAI、谷歌、英伟达、Reflection AI、微软以及亚马逊7家AI公司达成合作协议,企图组建美国的AI国家队。

显然,制造并维持AI霸权,已经成了美国在下一个百年继续称霸世界的战略布局。

但是,eMRAM的量产,却通过把AI下放给万事万物,打破了美国的AI霸权。

我们有着全世界最庞大的新能源汽车产业、最完备的无人机制造体系、最多的工业机器人,这些终端,唯独缺一颗可以本地运行的大脑。

eMRAM,就是那颗低功耗、高效率、低成本的大脑,它赋予了每一台汽车、每一个机械臂、每一副AR眼镜独立思考、极速反应的能力。

未来的机器人,每一个大脑都装有一个运行大模型的eMRAM,不依赖云算力,光靠眼睛看、耳朵听,就能干活。

未来的龙虾,每一个都拥有本地化部署的大模型,不用再担心一觉醒来龙虾把你的token用破产了。

甚至每一个AI伴侣,都能零延迟、私人化地回答你的所有问题,而不用担心巨头们知道你的小情趣。

这就是AI平权,更是AI的去中心化。

AI的最终用户,其实还是一个个具体的人。

只有让每个人都平等地用上AI,才是AI应该走向的未来。

根据约翰·霍兰德提出的涌现理论,当系统复杂到一定程度,微观上的低效,通过宏观的涌现,就能变成极其恐怖的高效。

当这几百亿个拥有端侧AI的中国设备,在物理世界中协同运转、相互交互时,它们所涌现出的集体智能和生产力大爆炸,将彻底淹没云端巨头的光环。

这,就是AI时代的“农村包围城市”。

当中国人用庞大的终端将美国造出来的AI之神拉下神坛,攻守之势,就彻底不同了。

AI马奇诺防线,

轻轻松松被绕过去了

在人类战争史上,有一个笑话,叫“马奇诺防线”

二战前,法国人为了防备德国,花了整整12年,在法德边境修筑了一道坚不可摧的防线。

法国人觉得,只要守住这道防线,法国就能固若金汤。

结果呢?1940年,德军理都没理这道防线,直接开着坦克穿过阿登森林,就绕到防线背后,把法国给灭了。

历史最大的教训就是,人类从不吸取教训。

美国人以为他们的算力防线可以阻挡中国人的脚步,但中国人只开了一个脑洞,就轻松绕过去了。

历史啊,就是一幕舞台剧,而我们都身处其中。

我常常在想,面对美国一个接一个的制裁法案,面对硅谷每天发布的花里胡哨的大模型,那些中国的AI工程师,心里到底在想什么?

他们肯定有过迷茫,有过疲惫。

别看我这篇文章写得轻松,但在搞eMRAM芯片的时候,绝对没那么容易,每一个磁信号的干扰,每一个磁隧道结的良率提升,都需要用无数个不眠之夜和头发去填补。

但我更相信,在他们的潜意识里,有一种刻在中华民族基因里的韧性。

那是一种什么样的韧性呢?

是天破了,我们不祈祷,我们炼几块石头硬把它补上。

是洪水来了,我们不造船逃跑,我们疏通河道把它治服。

是太阳太毒,我们不跪拜,我们用弓箭把它射下来。

是哪怕是大山挡了路,我们也不搬家,我们子子孙孙挖土也要把它平掉。

是没有计算机,我们用几百把算盘,也要把原子弹的爆轰参数算出来。

说白了,中国人骨子里,都有一种对所谓绝对力量的天然不服从。我们不需要祈求施舍,更不需要等待救世主。因为我们自己,就是自己的救世主。

如今,先辈的接力棒传到了我们这一代人手中。

这些从北大实验室走出来的90后,虽然硬件条件比当年好了很多,但那股子不服输的劲,和几千年前在黄河边治水、几十年前在戈壁滩上搞核爆的前辈们,同频共振,一脉相承。

历史一再证明,这世界上从来没有什么注定的绝境。

eMRAM,就是这群现代愚公,在AI壁垒上,砸出的第一道缺口。

流片成功的那一刻,仪器屏幕上跳动的电信号,就是这片传承五千年土地上,最浪漫的回声。

*封面配图来源于摄图网