在摩尔定律放缓、先进制程收益递减的大背景下,移动终端SoC正面临“性能还要提升、但面积和功耗都不能扩张”的核心矛盾。
首颗使用“逻辑折叠(LogicFolding)”的芯片是麒麟2026,华为麒麟与巴龙首席架构师黄勇在ISCAS 2026上,针对韬τ定律的逻辑折叠的进一步落地,做了详细的报告:“逻辑折叠”。
黄勇在演讲中详细分析了逻辑折叠带来的工艺、时序、散热和功耗方面的挑战,分享了华为从芯片级晶体管密度、性能和能效、关键应用案例以及良率/成本的角度通过逻辑折叠实现的实际优势。
笔者从其演讲报告中挑出一些关键信息分享给读者。

1.传统 3D 堆叠为何不适合移动 SoC ?

随着制程推进节奏从“两年一代”放缓至“三年一代”,带来的不仅是节奏变化,更是边际收益下降。
关键问题在于:逻辑密度仍在提升,但SRAM/模拟提升有限、SoC整体密度增长被显著拉低、成本却在持续上升,叠加移动终端的空间刚性约束(电池/摄像头/散热),意味着:传统靠制程换性能的模式,在手机SoC上已经“失灵”。
当前业界成熟 3D 堆叠方案包括 HBM、CIS、Cache Stacking 等,虽在各自场景取得成功,但互连密度较低、分区粒度较粗,设计灵活性与逻辑分割能力有限,无法满足移动终端 SoC 对细粒度灵活分割、高带宽、低延迟、低功耗互连的需求,在性能、功耗、面积(PPA)与大规模量产方面难以给移动 SoC 带来理想收益。
逻辑折叠正是为弥补这一缺口而提出的新型技术方向。这是逻辑折叠出现的根本原因。

2.核心突破:逻辑折叠本质是“把SoC搬进三维空间”

逻辑折叠基于 τ 定律,采用晶圆对晶圆面对面混合键合(W2W Hybrid Bonding)与背面 TSV 技术,通过超高密度垂直互连,在不扩大芯片封装尺寸的前提下大幅提升有效晶体管密度。
该架构支持细粒度逻辑分割,有效缩短互连线长度、降低 RC 寄生参数,实现更高性能与更低功耗。
上图右侧展示了逻辑折叠后的SoC架构。上下 Die 共同构成统一不可分割的完整 SoC,可均衡分配电路资源,充分利用两层芯片面积,在控制成本的同时实现面积最优利用。

3.逻辑折叠的工艺难点

逻辑折叠为移动终端SoC在后摩尔时代持续提升晶体管密度、性能和能效提供了一条重要途径。然而,从概念到实际芯片产品,它仍然面临着一系列系统性挑战。
逻辑折叠对工艺提出极高要求:需实现数千万个混合键合互连点的高良率键合,要求纳米级晶圆平整度与超高精度对准;需制备小尺寸、高深宽比背面 TSV,并配套超平坦、无损伤的超薄晶圆减薄工艺;TSV 会引入应力、禁入区(KOZ),影响器件性能与有效面积利用率;高温堆叠、热处理还会影响晶体管特性,必须通过工艺与设计协同优化逐一解决。

4.逻辑折叠目前仍是“专家型设计”,而非“工具驱动设计”

不仅是制造工艺的复杂性,设计方法成熟度和EDA工具的几乎空白——构建一套完整且可用的工具链可能需要数年时间。目前的工作必须在非常不成熟的工具条件下完成。
行业尚未建立成熟的3D SoC设计方法论。这意味着不只是做芯片,而是在“重新发明一套设计体系”。
传统的芯片设计流程通常假设设计对象主要位于单个平面芯片上,工具优化目标也主要集中在单芯片面积、时序、功耗和布线拥塞等方面。
但在逻辑折叠设计中,设计对象变为多个垂直堆叠的芯片。除了芯片内部互连、多芯片分区、混合键合和TSV互连之外,还必须考虑跨芯片时序路径、跨芯片电源网络和跨芯片热耦合等问题。由于逻辑折叠不再仅仅是将两个芯片拼合在一起,因此需要一种真正具有三维感知能力的设计流程。
设计流程新增细粒度分区关键步骤,分区结果直接决定垂直互连数量、时序路径、功率分布、热点分布与最终 PPA 收益。
全流程需围绕面积、时序、功耗、散热、电源完整性、良率等多目标迭代优化,跨芯片互连、时钟、电源网络高度耦合,缺乏成熟自动化工具,高度依赖人工经验与多轮闭环收敛。

5.传统 2D STA 流程不足以支撑跨 Die 时序分析

跨芯片时序收敛也是最具挑战性的问题之一,主要体现在两个方面。
一方面,静态时序分析(STA)的转角条件数量急剧增加。传统的二维设计已经存在数百个PVT条件,而采用不同芯片的逻辑折叠设计理论上可以任意组合转角条件,数量可达数万个。另一方面,跨芯片时序路径收敛较为困难。跨芯片路径同时分布在不同的芯片上。在不同的PVT角条件下,路径的延迟各不相同,导致时钟路径和数据路径的延迟差异较大,使得时序窗口变窄,收敛难度增加。
如右上角时序路径图所示,如果上芯片采用 FF 工艺,下芯片采用 SS 工艺,由于部分路径位于上芯片,部分路径位于下芯片,因此整个时序路径的计算需要考虑交叉角组合。
华为提出两种时钟优化方案:一种是自顶向下的时钟源方案,其中所有时钟源均位于上层芯片,下层芯片上没有时钟缓冲器;另一种是局部最小化的时钟树方案,其中主时钟树位于上层芯片,下层芯片上仅有少量时钟缓冲器。高密度垂直互连为实现这两种时钟方案提供了基础,有效提高了芯片间时钟的一致性。

6. 热问题本质升级:从“散热”变成“热分布工程”

逻辑折叠提升晶体管密度的同时提高了功率密度,晶圆减薄削弱底层芯片横向导热,散热压力显著上升。
解决方案包括:在分区、布局、摆放阶段采用热感知设计,降低峰值功率密度、避免热点重叠;在系统层面优化封装散热结构与散热路径。实测结果表明,经优化的逻辑折叠方案,持续性能可优于传统二维设计。

7. 电源系统被重写:3D SoC不再是“简单PDN问题”

电力输送和电力完整性电源传输和电源完整性是另一项关键挑战,包含三个方面。首先是顶层金属资源分配。在传统的二维设计中,顶层金属主要用于电源网络和长距离信号传输。逻辑折叠后,顶层金属还需要承载大量的跨芯片信号布线资源,使其资源更加紧张。数千万个混合键合互连需要在信号布线、电源传输和长距离互连之间进行协同分配。
其次是下层芯片为上层芯片供电的问题。在逻辑折叠设计中,下层芯片必须同时为上下两层供电。如果上层芯片的电源投射面积与下层芯片的电源投射面积不一致,则会进一步增加电源网络设计的复杂性。
第三,需要建立三维电源完整性流程。与传统的二维电源网络设计相比,逻辑折叠架构引入了TSV和混合键合电源连接。由于数量庞大,电源完整性分析的复杂性显著增加。因此,需要为逻辑折叠架构建立完整的电源完整性流程。
在逻辑折叠的情况下,传统电源连接的数量级将增加几个数量级。因此,我们需要建立完整的TSV、混合键合以及上下层die的电源路径模型,以支持大规模的跨芯片连接分析。

8. 密度突破路径:逻辑折叠正在“对冲摩尔放缓”

通过团队的紧密合作,在克服了一系列挑战之后,逻辑折叠技术终于从概念变为现实。黄勇从芯片级晶体管密度、性能和能效、关键应用案例以及良率/成本的角度解释逻辑折叠的实际优势。
以2025年的晶体管密度为基准,后三年的晶体管密度提升比例会达到
2026:+60%
2027:+70%
2029:+80%
与摩尔定律相比,从 2020 年的 5 纳米制程到 2029 年的 1.4 纳米制程,SoC 级晶体管密度提升幅度也达到了约 80%。
这意味着:不依赖节点升级,也能获得接近一代工艺跃迁的密度收益,换句话说:逻辑折叠 = “结构性摩尔延续”,这是它真正的战略意义。

9.逻辑折叠带来的性能与能效全面提升

逻辑折叠带来的晶体管密度提升为微架构优化和并行化提供了更大的空间。随着晶体管数量的增加,华为解决了大部分性能和能效问题。得益于更短的互连线和更低的RC延迟,系统性能和能效也得到了显著提升。
以2025年作为比较基准:2026年CPU单核/多核性能分别提升15%/24%,到2027年扩大至44%/56%;GPU性能由2026年的38%提升至2027年的87%;NPU提升最为显著,2026年达140%,2027年进一步提升至213%,绝对性能约为2025年的3.1倍。
能效方面(同功耗下性能),提升趋势同样明确:2026/2027年CPU能效分别提升12%/34%,GPU为40%/78%,NPU为81%/118%。
值得注意的是,CPU单核性能通常高度依赖制程演进且提升难度最大,而在不改变工艺节点的前提下,逻辑折叠依然实现了显著性能与能效提升,体现出其通过缩短互连、优化结构路径所带来的系统级优势。

10. DSP 实测案例:逻辑折叠 PPA 收益验证

在基带核心 DSP 设计中,逻辑折叠显著缩短 SRAM 访问距离与关键逻辑路径长度,时钟树规模、线长、缓冲器数量、时钟偏移全面优化。
DSP案例揭示一个关键事实:性能提升的根源不是“多了晶体管”,而是“连得更近”,具体体现:
SRAM访问距离大幅缩短
关键路径物理收敛
时钟树规模下降
最终实现:Die 面积减少 40%,工作频率提升 37%,总功耗降低 24%,时钟树面积减少 19%,互连线长度减少 25%,以真实工程案例验证逻辑折叠在性能、功耗、面积上的显著优势。

11. 良率与成本双验证:逻辑折叠跨过商业化最后一道门槛

良率问题本是最大质疑点,“由于逻辑折叠采用晶圆堆叠的方式,因此无法像芯片到晶圆的堆叠方案那样通过已知良品芯片 (KGD) 来提高良率。理论上,堆叠两片晶圆后的总良率等于单片晶圆的良率乘以堆叠工艺的良率。如果单片晶圆的良率较低,堆叠后会更低。这个问题也困扰着我们。然而,经过深入思考,我们发现良率不会下降;相反,反而有机会获得良率和成本优势。”黄勇分享道。
主要原因有三:首先,逻辑折叠后,上下两层的芯片尺寸显著减小,提高了单芯片良率,从而提高了整体良率,使其与二维解决方案相当。其次,高良率、高效率的折叠工艺虽然会带来良率损失,但华为已将其降至几乎可以忽略不计的程度。第三,结合对二维友好的设计,并充分利用上下两层的工艺优势,可以获得相对于二维解决方案的良率和成本优势。实际产品表明,与 2D 解决方案相比,逻辑折叠可以实现良好的成本效益。这意味着:逻辑折叠不是“实验室技术”,而是可商业化路径。
小结
