lch
发布于 2026-05-26 / 0 阅读
0

韬 (τ) 定律,激起产业革命!

来源:华为。
多层电子系统的时间缩放理论
作者:何庭波 | 华为摘要
六十年来,摩尔定律的几何尺寸缩放驱动了半导体行业进步。这一行业共识已不再成立:单纯缩小尺寸的收益趋于平缓,先进工艺芯片设计成本超 10 亿美元,最先进节点的单晶体管成本不再下降。本文提出新一代缩放原理 ——τ 缩放,以时间而非晶体管面积作为核心进步指标,用统一特征时间常数 τ,横跨 12 个数量级(从晶体管开关到数据中心任务)作为全栈优化目标。
本文给出两项量产级验证:在手机 SoC 上,逻辑折叠(Logic Folding) 将数字、模拟、存储电路垂直堆叠分区,在固定工艺节点实现晶体管密度提升 55%、能效提升 41%。
在 AI 系统中,由内存语义统一总线、近封装 Hi‑ONE 光 I/O、边缘到表面 3D 折叠组成的协同设计栈,预计到 2035 年硬件集成度提升超 100 倍。
更深层的意义在于方法论:τ 缩放是自 Dennard 缩放以来,首个让全计算栈拥有统一优化目标的缩放原理。
01

引言
自 20 世纪 60 年代中期以来,半导体行业一直以纳米衡量进步。每 18 个月,晶体管缩小、频率提升、单位逻辑门成本下降。摩尔定律既是经验规律,也成为支撑整个计算栈的行业共识。如今这一共识已失效。7nm 以下,几何缩放不再带来历史级收益。光刻逼近物理极限,EUV 折旧主导晶圆成本,单晶体管价格曲线趋平甚至反转。对于先进光刻受限的企业,这一约束更早显现且影响更严重。
行业核心问题已转变:不再是 “晶体管还能缩多小”,而是 “该缩放什么、以什么为目标?”
过去六年,华为半导体团队在手机 SoC、AI 加速器、系统互联与封装领域开展硅验证研究。结论是:答案不在于新工艺节点或新晶体管结构,而在于核心优化目标的改变。未来十年电子系统演进应遵循时间缩放,而非几何缩放 —— 在从皮秒级晶体管到秒级数据中心任务的每一层,系统性降低统一特征时间常数 τ。
本文基于 2020 年 5 月至 2026 年 5 月间 381 款量产芯片的经验,将 τ 缩放作为科学方法与产业路线图展开论述。
02

几何时代的终结
半导体行业历史上的核心任务:把晶体管做小。1965 年 Gordon Moore 提出晶体管密度约每两年翻倍;十年后 Robert Dennard 提出缩放理论,电压与尺寸等比例缩小可维持恒定电场。几何缩放 + Dennard 缩放在近五十年里带来指数级的性能 / 功耗、性能 / 成本提升。
这一体系分两步瓦解:2005 年前后,Dennard 缩放率先失效:电压不再随尺寸等比例缩放,暗硅时代开始。
7nm 之后,纯尺寸缩放收益趋平:速度饱和使本征延迟对沟道长度的依赖从二次变为线性;局部互连寄生电阻电容主导标准单元延迟;掩模成本、EUV 折旧、设计规则复杂度使 2nm 节点单芯片设计成本超 10 亿美元。
经济后果同样明确:先进节点单晶体管成本趋平,前沿节点成本上升。支撑行业半个世纪的 “每代更多晶体管、更低成本” 共识已失效。
对华为而言,这一转型叠加额外约束:先进光刻工具受限。依赖下一代节点已不可行。六年前,几何路线图触顶,迫使行业直面根本性问题。
03

时间而非空间:摩尔时代的真正价值
从终端用户本质效果看,摩尔定律从来不是关于几何尺寸。更小晶体管提升性能是因为开关更快;更密互连提升性能是因为信号路径更短;更高集成度提升性能是因为数据跨边界更少。每一代进步本质都是时间压缩:器件层皮秒→纳秒,芯片层纳秒→微秒,系统层微秒→秒。空间缩放只是压缩时间的手段。
由此可清晰重构:时间本身应成为核心指标。在晶体管、电路、芯片、系统每一层定义特征时间常数 τ,以 τ 降低为统一优化目标。几何缩放成为降低 τ 的手段之一,而非唯一手段。
这一原理称为τ 缩放,作为几何摩尔缩放的继任者。形式上,τ 是分层结构:τ = f (τ 晶体管,τ 电路,τ 芯片,τ 系统)
每层 τ 由下层 τ 与本层组织、通信开销构成。τ 的工作区间横跨约12 个数量级(皮秒→秒),空间跨度从纳米到公里。
每层都有专属降 τ 机制:
  • 晶体管:本征开关延迟,通过迁移率增强、应变工程、高 κ/ 金属栅、GAA 结构,以及日益重要的局部互连寄生 RC 降低。
  • 电路:信号路径 RC 传播延迟,通过低阻导体、低 κ 介质,以及垂直集成缩短连线。
  • 芯片:计算与访存延迟,通过架构选择、流水线深度、存储层次、片上网络优化。
  • 系统:端到端消息与同步时间,通过互联拓扑、协议栈、网络设计优化。
由此得出世代规则:τₙ₊₁ = τₙ / α
缩放因子 α 随应用而定:功耗受限移动设备:α≈1.3 倍 / 年;安全关键自动驾驶:≈1.5 倍 / 年;AI 负载:最高 10 倍 / 年
τ 成为全栈统一指标,频率、延迟、带宽、吞吐量都由各层 τ 决定。工艺、电路、系统工程师可使用同一单位讨论同一指标。τ 成为端到端全栈协同优化的语言,各层独立优化、时序作为副产品的时代已结束。
04

逻辑折叠:手机 SoC 验证点
τ 缩放的首个量产验证在手机领域。手机 SoC 是单芯片构成完整系统的特例,无多槽并行,数千节点网络无法掩盖慢速链路。所有性能来自单颗芯片,几瓦功耗,受手持形态热限制。
2020 年后先进工艺受限,核心问题变为:固定节点下,如何持续代际提升?
答案:逻辑折叠(LogicFolding)。
定义:逻辑折叠是遵循时间缩放原理,将数字、模拟、存储电路垂直堆叠分区,协同优化性能、功耗、面积的设计方法。
数字电路分为组合逻辑(寄存器间布尔网络)与时序逻辑(保持状态的触发器)。系统性能上限由相邻触发器间关键路径延迟决定,而关键路径延迟主要由互连 RC 与门数量决定。传统优化将门放在平面,连线在上方金属层;连线越长,寄生 RC 越大,关键路径越慢。
逻辑折叠放弃平面假设:关键路径门分布到两层(未来更多层)垂直堆叠有源层,通过超细间距混合键合连接。从电路设计看,两层如同单一连续 fabric,单元跨晶圆边界分布,如同新增一层金属。信号连线大幅缩短,寄生 RC 急剧下降,时钟偏斜收紧,同节点芯片可运行在更高频率。
要实现收益,混合键合节距与顶层金属节距的传动比需较低(实践中 < 3,越低越好)。当前顶层金属节距约 720nm,对应混合键合节距 < 2μm,理想传动比≈1,键合接口布线开销基本消失。实现该节距、套刻精度(<0.5μm)、TSV 缩放(CD/KOZ<1.5μm,节距 < 6μm)与良率(智能冗余≈100%),需要产业链多年工艺开发。
麒麟 2026 实测结果:
晶体管密度单位从155→238 MTr/mm²(相当于过去三年几何缩放收益)
SoC 性能核能效 +41%,最高频率+ 近 13%
高速全局 NoC 数据路径跨双层,面积 -55%,供电稳定性提升
硅后时钟偏斜调整额外贡献 >5% 性能
SRAM 频率 +40%+,单位比特能耗降低
典型处理核:时钟缓冲器 -50%,时钟偏斜-25%,连线长度-30%
所有提升均在固定工艺节点实现,不靠新光刻,而靠三维逻辑空间拓扑重构。
麒麟 2026 的逻辑折叠仍偏保守:混合键合节距 1.5μm;TSA 仅 landing 在顶层金属下一级;折叠仅用于关键路径而非全设计。即便如此,CPU 性能核频率回升至3.1GHz。
未来十年,逻辑折叠将从局部关键路径折叠演进到全片多层折叠(3 层、4 层及以上),依托低温混合键合与 TSA landing 下移至 M6 层,释放 30%+ 高层布线资源。2026–2035 年,晶体管密度有望迈向400 MTr/mm² 以上,CPU 核频率向 4GHz+ 迈进,路线图可行且经济划算。
05

从皮秒到微秒:AI 数据中心的 τ 缩放
手机毫瓦级 τ 原理能否迁移到 AI 训练 / 推理吉瓦级?答案是肯定的 —— 只要将 τ 作为系统级目标贯穿全链,而非局限在单加速器。
AI 侧 τ 立论基于两个事实:
AI 系统持续扩容:单芯片→数十→数百→数万芯片。
现代 AI 系统的能耗与材料成本由数据主导而非计算:大型 AI 集群 > 80% 能耗用于数据移动,>70% 系统成本用于存储。
直接推论:减少数据传输时间(芯片间、机架间、封装内)与减少计算时间同等重要。
τ 缩放在 AI 规模通过三层协同落地:
系统互联:统一总线(Unified Bus)
近封装光引擎:Hi‑ONE
封装拓扑重构:3D 折叠
4.1 统一总线:以 τ 为优先的系统互联
传统多节点、多加速器架构通过多层协议搬数据:PCIe、NVLink、以太网 / InfiniBand、软件远程内存访问。每层都有协议转换、序列化、DMA 缓冲、握手,增加延迟、降低可靠性、提高成本。
统一总线(UB) 用单一协议替代全栈,机箱内 / 跨机箱均为纯对等网络,在全系统原生暴露内存语义。数据移动简化为无转换、对等的内存语义层传输,以硬件管理一致性替代软件栈消息传递。
实测收益约两个数量级:端到端远程访问延迟从 TCP/IP 栈典型数十微秒降至 ≈100ns,系统 τ 沿主流通信轴降低约500 倍。机架级近似单台片上系统(System‑as‑One‑Chip)。
4.2 Hi‑ONE:封装级光 I/O
通信延迟降低后,瓶颈转移。单机架芯片密度提升使功耗密度、可靠性、电 SerDes 逼近极限。400Gb/s/ 芯片时铜缆可靠可用;多 Tb/s/ 芯片时铜缆物理不可行:SerDes 距离缩短、线缆笨重、安装困难、热与供电余量耗尽。
华为方案:高密度光互联节点引擎(Hi‑ONE),近封装光引擎单模块8Tb/s,与 AI 芯片 UB 带宽匹配。将 SerDes 距离从≈100cm 降至≈5cm,取消笨重线缆,传输距离从 < 1 米扩展到100 米,让吉瓦级高密度数据中心互联物理可行。
Hi‑ONE 设计哲学本身就是 τ 缩放:不用重型 DSP 保信号保真,采用线性方案(模拟均衡增强驱动器 + 跨阻放大器),允许 UB 协议容忍宽松误码率。这种协议层与物理层的跨层权衡降低功耗、成本与集成复杂度,体现 τ 优先方法论的价值。
4.3 N² vs N 困境:3D 折叠不可避免
AI 加速器不会停留在 2.5D 扇出的深层原因是几何性的,决定 2030 年后路线图。
传统 2.5D AI 芯片:逻辑芯在中央,HBM 与 SerDes 在边缘,稳压芯片在封装外围。所有存储信号、互联信号、供电电流都必须通过边缘到达内部计算资源。
若芯片边长为 N:
计算能力 ∝ N²(面积)
存储带宽、互联、供电 ∝ N(周长)
二次与线性曲线的差距构成扇出困境,无论逻辑工艺多激进,2.5D 缩放都会停滞。晶体管级改进无法弥补拓扑缺陷。
3D 折叠将边缘资源迁移到表面:背面供电与集成稳压、高速存储(混合键合到逻辑)、光 I/O(Hi‑ONE)从边缘迁移到垂直表面, scaling 变为N²,与计算同步增长。封装不再是逻辑芯被存储与 SerDes 包围,而是存储、互联、供电、逻辑协同缩放的垂直集成栈。
路线图明确:
2030 年前:昇腾 SuperPoD 系列(910C 2025、950 2026、990 后续)采用成熟技术:芯粒、2.5D 扇出、微凸块与标准节距混合键合 3D 堆叠。
2030 年左右:昇腾 990 将逻辑折叠引入 AI 加速器,此后 3D 折叠成为 α 主要载体至 2035 年。
2026→2035:硬件集成度提升 > 100 倍,τ 降低分布在全栈各层,而非集中在器件层。
06

逻辑与存储:从解耦到再融合
τ 缩放的一个影响值得单独讨论,因为它兼具产业与技术意义。
8086 时代,行业通过标准存储总线刻意解耦处理器与存储。解耦让两大产业独立缩放:处理器沿摩尔曲线快速进步,存储厂商形成庞大独立市场。
AI 时代正在逆转这一解耦。计算密度持续扩张,将存储带宽、延迟、功耗、封装推向极限。HBM、混合键合、3D 堆叠 SRAM 都指向同一事实:对现代 AI 负载,数据移动与计算同等重要,逻辑与存储再次走向紧密物理集成。融合使供应链影响力向存储与封装厂商倾斜。
技术方向明确,但经济格局未定。AI 硬件时代的长期成功属于能在技术上融合逻辑与存储,并建立长期共赢经济伙伴关系的参与者。这不仅是研发问题,更是未来十年行业结构性问题。τ 缩放让每一次解耦的跨层成本清晰可见,问题无法回避。
07

开放挑战
τ 缩放并非完整体系,仍有若干关键问题开放,旨在展示进展并邀请合作:
工具链与方法学:现有 EDA 面向面积、时序、功耗独立优化,τ 作为副产品。全规模逻辑折叠要求工具链将多层堆叠裸片视为单一连续设计实体,以单元级而非模块级划分逻辑,在统一成本函数下全空间布局,并跨裸片路径时序收敛。传统 2D 工具无法处理垂直互连寄生、KOZ、晶圆间工艺变异。初步内部工具已可用,方法学细节将陆续发表。τ 原生工具链(开放、多物理、3D 原生)是未来十年最重要的支撑投资。
晶圆间工艺变异:逻辑折叠键合不同批次 / 不同节点晶圆。Vth、驱动电流、互连 RC 的晶圆间变异远大于片内变异,对时钟分配与保持时间裕量影响显著。需要智能冗余、自适应补偿、τ 感知签核流程。
垂直互连开销:每个混合键合与 TSV 都有寄生 RC,TSV KOZ 会挤占标准单元。
逻辑折叠必须满足:τ 收益(有效硅面积 + 连线缩短) > τ penalty(垂直互连 RC)移动关键路径与存储已突破该阈值,阈值随应用而定,随键合节距缩小而移动。
能耗:τ 是时间定律而非能量定律。节点快 10 倍但功耗高 10 倍不违反缩放原理,但会超出电网容量。τ 缩放需要能耗配套:内存语义网络消除栈开销、近 / 共封装光学大幅降低每比特皮焦、背面供电、存内 / 近存计算,以及将 τ 裕量转化为功耗裕量的严谨实践(数据中心级 DVFS,与手机省电机制相同)。τ 裕量本身可转化为能耗裕量。
基准测试:现有基准(Linpack、MLPerf、SPEC)面向单标量负载。τ 缩放行业需要τ 剖面基准—— 暴露系统每层主导 τ 与剩余裕量的向量。主导 τ 层即为下一个投资方向。
08

六年实践,十年展望
2020 年 5 月至 2026 年 5 月,华为半导体设计并量产381 款芯片,覆盖手机、AI、汽车、工业、基础设施。全产品线验证 τ 缩放成立:
器件 / 电路层:2031 年晶体管密度从 155 迈向400+ MTr/mm²
芯片层:逻辑折叠在先进手机 SoC 证明固定节点可继续提升关键路径频率、能效、密度
系统层:统一总线 + Hi‑ONE 将数百微秒通信 τ 压缩至数百纳秒,多机架 AI 集群可如单一一致性机器运行
未来:2029 年 CPU 性能核频率迈向4GHz+;麒麟 SoC 典型使用能效3–5 年翻倍以上;2035 年 AI 硬件集成度提升 > 100 倍
超越产品的深层意义是方法论:τ 缩放是自德纳尔德以来首个让全栈拥有统一优化目标的缩放原理。它告诉工艺、电路、架构、系统、软件团队:所有人都在优化同一指标、同一单位;任何一层的改进必须传导到系统 τ 才算有效。它也告诉产业战略与资本方:下一笔投资应投向τ而非节点;竞争力不再依赖持续领先光刻;封装、存储带宽、网络设计拥有昔日仅先进逻辑节点才有的战略权重。
对被教育将 “摩尔定律” 等同于 “进步” 的一代工程师,这是艰难转型。几何时代确实已结束,否认不是可行策略。通过微型化加速的时代正在让位于通过多层电子系统 τ 优化加速的时代。未来 6–10 年采用 τ 作为核心目标的企业、研究机构与生态,将定义此后十年的计算格局。
未来十年工作已明确,仍有许多开放问题,非单一组织能独自解决 —— 工具链、标准、基准、器件物理、经济模型都需要外部合作。本文既是实地报告,也是合作邀请。
前路充满挑战,但方向明确。
作者:何庭波领导华为半导体业务。其团队 2020–2026 年设计量产 381 款芯片,覆盖手机、AI、汽车、基础设施,是 τ 缩放方法学与逻辑折叠、统一总线、Hi‑ONE 技术的提出者。致谢
本文基于华为半导体与产业链(晶圆、设备、EDA、系统伙伴)数千工程师六年工作成果。感谢客户的耐心支持。
τ:tau,特征时间常数(韬定律核心指标)
SoC:System on Chip,片上系统(手机主芯片)
RC:Resistance-Capacitance,电阻电容(延迟、寄生效应)
GAA:Gate-All-Around,环绕栅极晶体管
EUV:Extreme Ultraviolet,极紫外光刻
CMOS:Complementary Metal-Oxide-Semiconductor,互补金属氧化物半导体
TSV:Through-Silicon Via,硅通孔(3D 堆叠垂直互连)
KOZ:Keep-Out Zone,禁布区(TSV 周围不能放器件的区域)
CD:Critical Dimension,关键尺寸
DVFS:Dynamic Voltage and Frequency Scaling,动态电压频率调节
获取原文内容,可阅读原文链接或私信后台回复:韬定律
END

往期推荐


REVIEW





长鑫科技,供应链及客户全景概况!


储存市场,夯爆了!长江存储,启动 IPO 辅导!


你必须知道的先进封装中最核心的五项技术!


ASML 等呼吁:重振欧洲科技!



↓设置星标,精彩不错过↓

图片


扫一扫,总一款适合你


本文仅作行业信息分享、技术交流,不涉及任何涉密内容

欢迎关注本公众号,获取更多半导体设备、工艺、产业动态

如有疏漏、内容建议,欢迎留言交流
点分享
点收藏
点在看
点点赞