

过去半个世纪,每10-15年,算力架构会经历一次范式级的重构。
第一次是CPU统治的时代——冯·诺依曼架构奠定了现代计算的底层逻辑,单核性能的军备竞赛持续了将近半个世纪。第二次是GPU的崛起——英伟达用CUDA重新定义了并行计算,深度学习在算力的浇灌下爆发出来,我们今天用的每一个大模型,背后都有成千上万块GPU在不间断运转。
现在,第三次跃迁的苗头已经出现。
QPU——量子处理单元——这个词在过去两年里出现频率越来越高,不再只出现在物理学期刊上,而是开始频繁出现在英特尔、谷歌、IBM、微软的财报电话会议、开发者大会和战略规划文件里。更值得关注的是,这些公司不是在单独谈QPU,而是在谈CPU+GPU+QPU的协同架构——一种混合算力的新范式。
这背后究竟发生了什么?
为什么单靠CPU和GPU已经不够了
长久以来,冯·诺依曼架构下的CPU一直是计算领域的绝对主宰。CPU像是一个极具统帅能力的“通才”,负责复杂的逻辑控制和串行任务调度。然而,随着深度学习和大数据时代的爆发,CPU在处理海量并行矩阵运算时显得捉襟见肘。
于是,GPU迎来了它的黄金时代。GPU凭借其成百上千个精简的流处理器,成为了处理图形渲染和AI训练的“专才”,直接缔造了今天NVIDIA万亿美元的市值神话。
但是,算力的天花板依然存在。当人类面对分子模拟、新药研发、复杂金融风险定价、全局物流优化等涉及庞大状态空间和组合优化的问题时,即使是当今最顶配的GPU集群,算力也可能需要耗费宇宙年龄级别的时间。这种呈指数级爆炸的计算需求,经典物理法则下的硅基芯片已经无能为力。
破局者,只能是QPU(量子处理单元)。
通过量子叠加(态空间指数级增长)和量子纠缠(比特间的非经典关联),QPU展现出了解决特定极难问题的潜力。
但需要注意的是,行业共识已经发生重大变化:QPU绝对不是用来替代CPU或GPU的。未来的高性能计算(HPC)中心,其底层架构必然是“CPU-GPU-QPU”三位一体的深度融合。
CPU负责全局调度与逻辑控制,GPU承担重度AI训练与降维打击的粗粒度数据处理,而QPU则作为最顶级的“协处理器”,专门攻克经典计算束手无策的指数级难题。
这场算力底座的重构,已经成为全球科技巨头们不惜重金跑马圈地的核心战场。
英伟达的“暗度陈仓”
当我们谈论量子计算时,很多人会忽略英伟达(NVIDIA)。这家目前在AI领域如日中天的芯片巨头,至今没有研发哪怕一个真实的物理量子比特,但这绝不意味着NVIDIA在量子时代缺席。
恰恰相反,黄仁勋的野心极大,他试图用软件和混合计算架构,扼住量子时代的咽喉。
NVIDIA的破局利器是CUDA-Q。CUDA-Q的底层逻辑,就是为“CPU+GPU+QPU”提供一个统一的编程模型。目前的量子计算硬件路线百花齐放(超导、离子阱、中性原子等),对于普通开发者而言,学习不同硬件的底层汇编语言简直是噩梦。

来源:英伟达
CUDA-Q允许开发者使用C++或Python,在同一个代码库中无缝调度CPU、GPU和模拟或真实的QPU。NVIDIA更是联合了Quantum Machines发布了DGX Quantum,这是全球首个结合了GPU和量子硬件的系统。通过PCIe总线,GPU能够与量子控制设备实现亚微秒级的低延迟通信。
不难看出,NVIDIA的动作透露出一个商业现实——在量子计算机实现百万级物理比特的“完全容错”之前,行业将长期处于NISQ(含噪声中等规模量子)时代。
在这个阶段,量子比特极其脆弱,需要大量的经典计算(GPU)来进行量子电路的模拟、误差缓解计算以及量子态的实时纠错。NVIDIA不造QPU,但它想让所有造QPU的公司,都必须插在它的GPU主板上,用它的CUDA-Q平台驱动。这是典型的“淘金热中卖铲子”的最高阶玩法。
IBM的“量子中心超级计算机”
与NVIDIA的软件生态包围战不同,IBM是真正的硬件死磕派。作为超导量子的领头羊,IBM在经历了过去几年“刷量子比特数量”的公关战后,其战略在近两年发生了非常务实的转变。
IBM提出了一个全新概念——以量子为中心的超级计算(Quantum-Centric Supercomputing),该架构结合了中央处理器(CPU)、图形处理单元(GPU)和量子处理单元(QPU)。在IBM最新的产品路线图中,他们不再孤立地强调某一个QPU的算力,而是强调QPU与经典HPC服务器的模块化横向扩展。

来源:IBM
IBM推出的System Two架构就是这一理念的终极体现。在这个巨大的低温系统中,不仅有目前达到133量子比特但错误率极低的新一代Heron处理器,更关键的是它的中间件层。IBM升级了其量子供应链和Qiskit软件堆栈,使得云端的任务可以像流水线一样被切割。
此外,代表案例包括与克利夫兰诊所和理化学研究所的联合研究。IBM与他们合作,运行了多达12635个原子的蛋白质复合物模拟。这是使用量子硬件的案例中规模最大的,随着针对生物学意义分子的研究,量子计算正扩展到生命科学和化学的现实研究问题中。
IBM的这一套动作,标志着量子计算从实验室玩具向数据中心实用化组件的转变。IBM首席量子硬件架构师一再强调“Quantum Utility(量子效用)”时代的到来,即量子计算机在某些特定问题上,已经能够输出让经典计算机难以企及的、有价值的计算结果。CPU-GPU-QPU的融合,是IBM实现量子商业变现的关键解。
微软与云巨头们的“降维打击”
在“CPU-GPU-QPU”的产业链条中,云服务商(CSP)扮演着资源池和最终交付者的角色。微软Azure、亚马逊AWS(Braket)和谷歌(Google Cloud Quantum)在这方面的布局虽各有侧重,但殊途同归。
我们重点来看一下微软和谷歌。
微软在硬件底层一直在死磕极其困难的“拓扑量子比特”,这曾让它在进度上落后于IBM和谷歌。但在2024年初,微软联合量子计算企业Quantinuum扔出了一枚重磅炸弹。
他们通过结合Quantinuum高保真度的物理QPU(H2处理器)与微软Azure庞大的经典计算算力(CPU/GPU集群)及先进的量子纠错算法,展示了迄今为止最可靠的“逻辑量子比特”。他们在仅消耗数十个物理比特的情况下,实现了无错误运行数万次实验。

来源:Quantinuum
这项突破背后,正是CPU-GPU-QPU的高效协同。实时量子纠错(QEC)对经典算力的要求极高。测量量子比特状态、解码综合征、并在一微秒内反馈控制信号给QPU,这需要极低延迟的非冯·诺依曼架构通信。微软Azure的经典算力在这里起到了中枢神经的作用。
反观谷歌,自从2019年用Sycamore处理器宣告“量子霸权”后,其步伐变得更加沉稳。
Google Quantum AI意识到,要实现百万比特的容错量子计算,必须解决控制电子学的瓶颈。用常温下的CPU/GPU去控制零下273度的QPU,中间的海量同轴电缆是无法扩展的。因此,谷歌不仅在推动量子算法与经典深度学习(GPU)的融合,还在研发能够工作在极低温环境下的经典控制芯片。
无论是微软借力打力实现纠错突破,还是谷歌深耕底层硬件控制,都在传递一个信息,那就是,量子计算的下一个里程碑不仅取决于QPU的材质与设计,更取决于这层包裹在QPU周围的经典算力(CPU或GPU)。没有强大的实时经典控制纠错系统,物理量子比特就是一盘散沙。
量子企业的搅局
科技巨头之外,专注量子计算的创业公司同样在CPU-GPU-QPU协同这个方向上有所布局。
IonQ是这条路上的激进派。
他们的离子阱量子计算机不仅在常温真空环境下运行,其最新的Forte和Tempo企业级机架系统,在设计之初就完全遵循了经典数据中心的标准(19英寸标准机架)。同时,面向企业客户开放云端访问,并与亚马逊AWS Braket和微软Azure Quantum完成了深度集成,使其QPU资源可以通过已有的云计算基础设施调用。

来源:IonQ
同时,我们看到混合经典-量子算法(如VQE、QAOA)正在催生对GPU和QPU联合迭代的强烈需求。
Rigetti等企业已经在其云平台上深度集成了高速经典处理器。在量子近似优化算法(QAOA)中,QPU进行一次参数采样评估,随后大量数据迅速回传给经典CPU或GPU使用梯度下降法更新参数,然后再喂给QPU。这种成千上万次的循环交互,如果通信延迟过高,算法就会失效。
这就解释了为什么现在所有的QPU制造商都在投资Co-location技术。把QPU放在离经典HPC网关最近的地方,实现光纤级别或者PCIe级别的直连。
这就好比百米赛跑,QPU能一秒钟跑完100米,但如果每次起跑都要等GPU半分钟的数据传输,整个系统的速度反而会被拉垮。初创企业在这方面的工程化落地,往往比巨头由于具备更少包袱而跑得更快。
混合计算的架构雏形
综合以上各家企业的动作,一个混合算力架构的轮廓正在逐渐清晰。
在这个架构中,CPU依然是系统的总调度员,负责程序逻辑、任务分发、I/O管理;GPU承担大规模矩阵运算和AI推理,处理可以高度并行化的经典计算任务;QPU作为高度专业化的协处理器,被调用处理那些对量子加速最敏感的子任务——组合优化、量子化学模拟、随机采样等。
这种协同并非无缝,目前面临几个主要的工程挑战:
延迟问题:当前阶段,从经典系统向QPU发送任务、等待结果返回,延迟在毫秒到秒级,对实时计算场景几乎不可用。如何降低量子-经典通信延迟,是当前工程研究的热点。
编程接口不统一:目前谷歌用Cirq,IBM用Qiskit,亚马逊Braket有自己的框架,不同量子硬件之间没有类似CUDA那样主导性的统一编程规范。这个碎片化状态类似GPU生态在CUDA出现之前的混乱局面。
低温与经典系统的集成:超导量子比特需要工作在接近绝对零度(约15毫开尔文)的环境中,而经典CPU/GPU在室温下工作。如何在物理层面实现这两类截然不同的计算单元的高效连接,是散热和封装工程的严峻挑战。
英特尔的Horse Ridge控制芯片、IBM的低温CMOS技术都在尝试解决这个问题,但距离规模化工业应用仍有相当距离。
全球量超融合进入平台化竞速期

来源:光子盒研究院
日本的推进相对最成熟。它依托理化学研究所、东京大学等机构,通过JHPC-quantum等国家级项目,把自身强大的超算基础和量子资源结合起来,重点不只是做科研验证,而是朝着平台化、服务化方向推进。
欧洲的特点是多国协同。依托EuroHPC JU,欧洲正在把不同技术路线的量子计算机逐步纳入泛欧超算网络,形成联邦化、公共化的融合基础设施。它更强调体系化建设。
美国主要依托能源部下属国家实验室推进,并且头部企业作用非常明显。尤其是近两年,英伟达、IBM等公司开始在硬件接口、控制系统和软件栈层面持续加码,推动量超融合进入更深的系统集成阶段。
中国则呈现地方平台先行、本地化部署、多路线协同推进的特征。依托先进计算中心、国家超算中心和算力网络体系,量超融合正在从“试点接入”走向“平台搭建”。
如果概括当前格局,可以说是,日本相对领跑,欧洲并跑,美国和中国加速追赶。
结语
CPU到GPU的跃迁用了大约二十年——从上世纪90年代GPU出现,到2012年深度学习的爆发,再到今天英伟达的市值突破5.5万亿美元,这条路走得并不短。
GPU到QPU的跃迁,很可能同样需要漫长的时间。目前的技术成熟度,硬件能力已经初具规模,但软件生态、应用场景和商业模式还远未成熟。
但有一件事是确定的,科技巨头们已经开始卡位了,而且卡位的方式不是押注QPU会替代一切,而是构建CPU-GPU-QPU的协同体系。这个判断本身,就是对当前技术现实最务实的回应。
我们现在要做的就是,保持专业的关注和理性的判断,比随波逐流地热炒概念更有价值。
[1]https://biz.chosun.com/en/en-it/2026/05/19/NYURTFTXTZCRBAFQCJZVAMEVGA/
[2]https://developer.nvidia.com/cuda-q
[3]https://newsroom.ibm.com/2026-03-12-ibm-releases-a-new-blueprint-for-quantum-centric-supercomputing
[4]https://blogs.microsoft.com/blog/2024/04/03/advancing-science-microsoft-and-quantinuum-demonstrate-the-most-reliable-logical-qubits-on-record-with-an-error-rate-800x-better-than-physical-qubits/
[5]https://research.google/blog/suppressing-quantum-errors-by-scaling-a-surface-code-logical-qubit/
免责声明:本文版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容!本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。


为您发布产品,请点击“阅读原文”