韬 (τ) 定律，激起产业革命！

来源：华为。

多层电子系统的时间缩放理论

作者：何庭波 | 华为摘要

六十年来，摩尔定律的几何尺寸缩放驱动了半导体行业进步。这一行业共识已不再成立：单纯缩小尺寸的收益趋于平缓，先进工艺芯片设计成本超 10 亿美元，最先进节点的单晶体管成本不再下降。本文提出新一代缩放原理 ——τ 缩放，以时间而非晶体管面积作为核心进步指标，用统一特征时间常数 τ，横跨 12 个数量级（从晶体管开关到数据中心任务）作为全栈优化目标。

本文给出两项量产级验证：在手机 SoC 上，逻辑折叠（Logic Folding）将数字、模拟、存储电路垂直堆叠分区，在固定工艺节点实现晶体管密度提升 55%、能效提升 41%。

在 AI 系统中，由内存语义统一总线、近封装 Hi‑ONE 光 I/O、边缘到表面 3D 折叠组成的协同设计栈，预计到 2035 年硬件集成度提升超 100 倍。

更深层的意义在于方法论：τ 缩放是自 Dennard 缩放以来，首个让全计算栈拥有统一优化目标的缩放原理。

引言

自 20 世纪 60 年代中期以来，半导体行业一直以纳米衡量进步。每 18 个月，晶体管缩小、频率提升、单位逻辑门成本下降。摩尔定律既是经验规律，也成为支撑整个计算栈的行业共识。如今这一共识已失效。7nm 以下，几何缩放不再带来历史级收益。光刻逼近物理极限，EUV 折旧主导晶圆成本，单晶体管价格曲线趋平甚至反转。对于先进光刻受限的企业，这一约束更早显现且影响更严重。

行业核心问题已转变：不再是 “晶体管还能缩多小”，而是 “该缩放什么、以什么为目标？”

过去六年，华为半导体团队在手机 SoC、AI 加速器、系统互联与封装领域开展硅验证研究。结论是：答案不在于新工艺节点或新晶体管结构，而在于核心优化目标的改变。未来十年电子系统演进应遵循时间缩放，而非几何缩放 —— 在从皮秒级晶体管到秒级数据中心任务的每一层，系统性降低统一特征时间常数 τ。

本文基于 2020 年 5 月至 2026 年 5 月间 381 款量产芯片的经验，将 τ 缩放作为科学方法与产业路线图展开论述。

几何时代的终结

半导体行业历史上的核心任务：把晶体管做小。1965 年 Gordon Moore 提出晶体管密度约每两年翻倍；十年后 Robert Dennard 提出缩放理论，电压与尺寸等比例缩小可维持恒定电场。几何缩放 + Dennard 缩放在近五十年里带来指数级的性能 / 功耗、性能 / 成本提升。

这一体系分两步瓦解：2005 年前后，Dennard 缩放率先失效：电压不再随尺寸等比例缩放，暗硅时代开始。

7nm 之后，纯尺寸缩放收益趋平：速度饱和使本征延迟对沟道长度的依赖从二次变为线性；局部互连寄生电阻电容主导标准单元延迟；掩模成本、EUV 折旧、设计规则复杂度使 2nm 节点单芯片设计成本超 10 亿美元。

经济后果同样明确：先进节点单晶体管成本趋平，前沿节点成本上升。支撑行业半个世纪的 “每代更多晶体管、更低成本” 共识已失效。

对华为而言，这一转型叠加额外约束：先进光刻工具受限。依赖下一代节点已不可行。六年前，几何路线图触顶，迫使行业直面根本性问题。

时间而非空间：摩尔时代的真正价值

从终端用户本质效果看，摩尔定律从来不是关于几何尺寸。更小晶体管提升性能是因为开关更快；更密互连提升性能是因为信号路径更短；更高集成度提升性能是因为数据跨边界更少。每一代进步本质都是时间压缩：器件层皮秒→纳秒，芯片层纳秒→微秒，系统层微秒→秒。空间缩放只是压缩时间的手段。

由此可清晰重构：时间本身应成为核心指标。在晶体管、电路、芯片、系统每一层定义特征时间常数 τ，以 τ 降低为统一优化目标。几何缩放成为降低 τ 的手段之一，而非唯一手段。

这一原理称为τ 缩放，作为几何摩尔缩放的继任者。形式上，τ 是分层结构：τ = f (τ 晶体管，τ 电路，τ 芯片，τ 系统)

每层 τ 由下层 τ 与本层组织、通信开销构成。τ 的工作区间横跨约12 个数量级（皮秒→秒），空间跨度从纳米到公里。

每层都有专属降 τ 机制：

晶体管：本征开关延迟，通过迁移率增强、应变工程、高 κ/ 金属栅、GAA 结构，以及日益重要的局部互连寄生 RC 降低。
电路：信号路径 RC 传播延迟，通过低阻导体、低 κ 介质，以及垂直集成缩短连线。
芯片：计算与访存延迟，通过架构选择、流水线深度、存储层次、片上网络优化。
系统：端到端消息与同步时间，通过互联拓扑、协议栈、网络设计优化。

由此得出世代规则：τₙ₊₁ = τₙ / α

缩放因子 α 随应用而定：功耗受限移动设备：α≈1.3 倍 / 年；安全关键自动驾驶：≈1.5 倍 / 年；AI 负载：最高 10 倍 / 年

τ 成为全栈统一指标，频率、延迟、带宽、吞吐量都由各层 τ 决定。工艺、电路、系统工程师可使用同一单位讨论同一指标。τ 成为端到端全栈协同优化的语言，各层独立优化、时序作为副产品的时代已结束。

逻辑折叠：手机 SoC 验证点

τ 缩放的首个量产验证在手机领域。手机 SoC 是单芯片构成完整系统的特例，无多槽并行，数千节点网络无法掩盖慢速链路。所有性能来自单颗芯片，几瓦功耗，受手持形态热限制。

2020 年后先进工艺受限，核心问题变为：固定节点下，如何持续代际提升？

答案：逻辑折叠（LogicFolding）。

定义：逻辑折叠是遵循时间缩放原理，将数字、模拟、存储电路垂直堆叠分区，协同优化性能、功耗、面积的设计方法。

数字电路分为组合逻辑（寄存器间布尔网络）与时序逻辑（保持状态的触发器）。系统性能上限由相邻触发器间关键路径延迟决定，而关键路径延迟主要由互连 RC 与门数量决定。传统优化将门放在平面，连线在上方金属层；连线越长，寄生 RC 越大，关键路径越慢。

逻辑折叠放弃平面假设：关键路径门分布到两层（未来更多层）垂直堆叠有源层，通过超细间距混合键合连接。从电路设计看，两层如同单一连续 fabric，单元跨晶圆边界分布，如同新增一层金属。信号连线大幅缩短，寄生 RC 急剧下降，时钟偏斜收紧，同节点芯片可运行在更高频率。

要实现收益，混合键合节距与顶层金属节距的传动比需较低（实践中 < 3，越低越好）。当前顶层金属节距约 720nm，对应混合键合节距 < 2μm，理想传动比≈1，键合接口布线开销基本消失。实现该节距、套刻精度（<0.5μm）、TSV 缩放（CD/KOZ<1.5μm，节距 < 6μm）与良率（智能冗余≈100%），需要产业链多年工艺开发。

麒麟 2026 实测结果：

晶体管密度单位从155→238 MTr/mm²（相当于过去三年几何缩放收益）

SoC 性能核能效 +41%，最高频率+ 近 13%

高速全局 NoC 数据路径跨双层，面积 -55%，供电稳定性提升

硅后时钟偏斜调整额外贡献 >5% 性能

SRAM 频率 +40%+，单位比特能耗降低

典型处理核：时钟缓冲器 -50%，时钟偏斜-25%，连线长度-30%

所有提升均在固定工艺节点实现，不靠新光刻，而靠三维逻辑空间拓扑重构。

麒麟 2026 的逻辑折叠仍偏保守：混合键合节距 1.5μm；TSA 仅 landing 在顶层金属下一级；折叠仅用于关键路径而非全设计。即便如此，CPU 性能核频率回升至3.1GHz。

未来十年，逻辑折叠将从局部关键路径折叠演进到全片多层折叠（3 层、4 层及以上），依托低温混合键合与 TSA landing 下移至 M6 层，释放 30%+ 高层布线资源。2026–2035 年，晶体管密度有望迈向400 MTr/mm² 以上，CPU 核频率向 4GHz+ 迈进，路线图可行且经济划算。

从皮秒到微秒：AI 数据中心的 τ 缩放

手机毫瓦级 τ 原理能否迁移到 AI 训练 / 推理吉瓦级？答案是肯定的 —— 只要将 τ 作为系统级目标贯穿全链，而非局限在单加速器。

AI 侧 τ 立论基于两个事实：

AI 系统持续扩容：单芯片→数十→数百→数万芯片。

现代 AI 系统的能耗与材料成本由数据主导而非计算：大型 AI 集群 > 80% 能耗用于数据移动，>70% 系统成本用于存储。

直接推论：减少数据传输时间（芯片间、机架间、封装内）与减少计算时间同等重要。

τ 缩放在 AI 规模通过三层协同落地：

系统互联：统一总线（Unified Bus）

近封装光引擎：Hi‑ONE

封装拓扑重构：3D 折叠

4.1 统一总线：以 τ 为优先的系统互联

传统多节点、多加速器架构通过多层协议搬数据：PCIe、NVLink、以太网 / InfiniBand、软件远程内存访问。每层都有协议转换、序列化、DMA 缓冲、握手，增加延迟、降低可靠性、提高成本。

统一总线（UB）用单一协议替代全栈，机箱内 / 跨机箱均为纯对等网络，在全系统原生暴露内存语义。数据移动简化为无转换、对等的内存语义层传输，以硬件管理一致性替代软件栈消息传递。

实测收益约两个数量级：端到端远程访问延迟从 TCP/IP 栈典型数十微秒降至 ≈100ns，系统 τ 沿主流通信轴降低约500 倍。机架级近似单台片上系统（System‑as‑One‑Chip）。

4.2 Hi‑ONE：封装级光 I/O

通信延迟降低后，瓶颈转移。单机架芯片密度提升使功耗密度、可靠性、电 SerDes 逼近极限。400Gb/s/ 芯片时铜缆可靠可用；多 Tb/s/ 芯片时铜缆物理不可行：SerDes 距离缩短、线缆笨重、安装困难、热与供电余量耗尽。

华为方案：高密度光互联节点引擎（Hi‑ONE），近封装光引擎单模块8Tb/s，与 AI 芯片 UB 带宽匹配。将 SerDes 距离从≈100cm 降至≈5cm，取消笨重线缆，传输距离从 < 1 米扩展到100 米，让吉瓦级高密度数据中心互联物理可行。

Hi‑ONE 设计哲学本身就是 τ 缩放：不用重型 DSP 保信号保真，采用线性方案（模拟均衡增强驱动器 + 跨阻放大器），允许 UB 协议容忍宽松误码率。这种协议层与物理层的跨层权衡降低功耗、成本与集成复杂度，体现 τ 优先方法论的价值。

4.3 N² vs N 困境：3D 折叠不可避免

AI 加速器不会停留在 2.5D 扇出的深层原因是几何性的，决定 2030 年后路线图。

传统 2.5D AI 芯片：逻辑芯在中央，HBM 与 SerDes 在边缘，稳压芯片在封装外围。所有存储信号、互联信号、供电电流都必须通过边缘到达内部计算资源。

若芯片边长为 N：

计算能力 ∝ N²（面积）

存储带宽、互联、供电 ∝ N（周长）

二次与线性曲线的差距构成扇出困境，无论逻辑工艺多激进，2.5D 缩放都会停滞。晶体管级改进无法弥补拓扑缺陷。

3D 折叠将边缘资源迁移到表面：背面供电与集成稳压、高速存储（混合键合到逻辑）、光 I/O（Hi‑ONE）从边缘迁移到垂直表面， scaling 变为N²，与计算同步增长。封装不再是逻辑芯被存储与 SerDes 包围，而是存储、互联、供电、逻辑协同缩放的垂直集成栈。

路线图明确：

2030 年前：昇腾 SuperPoD 系列（910C 2025、950 2026、990 后续）采用成熟技术：芯粒、2.5D 扇出、微凸块与标准节距混合键合 3D 堆叠。

2030 年左右：昇腾 990 将逻辑折叠引入 AI 加速器，此后 3D 折叠成为 α 主要载体至 2035 年。

2026→2035：硬件集成度提升 > 100 倍，τ 降低分布在全栈各层，而非集中在器件层。

逻辑与存储：从解耦到再融合

τ 缩放的一个影响值得单独讨论，因为它兼具产业与技术意义。

8086 时代，行业通过标准存储总线刻意解耦处理器与存储。解耦让两大产业独立缩放：处理器沿摩尔曲线快速进步，存储厂商形成庞大独立市场。

AI 时代正在逆转这一解耦。计算密度持续扩张，将存储带宽、延迟、功耗、封装推向极限。HBM、混合键合、3D 堆叠 SRAM 都指向同一事实：对现代 AI 负载，数据移动与计算同等重要，逻辑与存储再次走向紧密物理集成。融合使供应链影响力向存储与封装厂商倾斜。

技术方向明确，但经济格局未定。AI 硬件时代的长期成功属于能在技术上融合逻辑与存储，并建立长期共赢经济伙伴关系的参与者。这不仅是研发问题，更是未来十年行业结构性问题。τ 缩放让每一次解耦的跨层成本清晰可见，问题无法回避。

开放挑战

τ 缩放并非完整体系，仍有若干关键问题开放，旨在展示进展并邀请合作：

工具链与方法学：现有 EDA 面向面积、时序、功耗独立优化，τ 作为副产品。全规模逻辑折叠要求工具链将多层堆叠裸片视为单一连续设计实体，以单元级而非模块级划分逻辑，在统一成本函数下全空间布局，并跨裸片路径时序收敛。传统 2D 工具无法处理垂直互连寄生、KOZ、晶圆间工艺变异。初步内部工具已可用，方法学细节将陆续发表。τ 原生工具链（开放、多物理、3D 原生）是未来十年最重要的支撑投资。

晶圆间工艺变异：逻辑折叠键合不同批次 / 不同节点晶圆。Vth、驱动电流、互连 RC 的晶圆间变异远大于片内变异，对时钟分配与保持时间裕量影响显著。需要智能冗余、自适应补偿、τ 感知签核流程。

垂直互连开销：每个混合键合与 TSV 都有寄生 RC，TSV KOZ 会挤占标准单元。

逻辑折叠必须满足：τ 收益（有效硅面积 + 连线缩短） > τ penalty（垂直互连 RC）移动关键路径与存储已突破该阈值，阈值随应用而定，随键合节距缩小而移动。

能耗：τ 是时间定律而非能量定律。节点快 10 倍但功耗高 10 倍不违反缩放原理，但会超出电网容量。τ 缩放需要能耗配套：内存语义网络消除栈开销、近 / 共封装光学大幅降低每比特皮焦、背面供电、存内 / 近存计算，以及将 τ 裕量转化为功耗裕量的严谨实践（数据中心级 DVFS，与手机省电机制相同）。τ 裕量本身可转化为能耗裕量。

基准测试：现有基准（Linpack、MLPerf、SPEC）面向单标量负载。τ 缩放行业需要τ 剖面基准—— 暴露系统每层主导 τ 与剩余裕量的向量。主导 τ 层即为下一个投资方向。

六年实践，十年展望

2020 年 5 月至 2026 年 5 月，华为半导体设计并量产381 款芯片，覆盖手机、AI、汽车、工业、基础设施。全产品线验证 τ 缩放成立：

器件 / 电路层：2031 年晶体管密度从 155 迈向400+ MTr/mm²

芯片层：逻辑折叠在先进手机 SoC 证明固定节点可继续提升关键路径频率、能效、密度

系统层：统一总线 + Hi‑ONE 将数百微秒通信 τ 压缩至数百纳秒，多机架 AI 集群可如单一一致性机器运行

未来：2029 年 CPU 性能核频率迈向4GHz+；麒麟 SoC 典型使用能效3–5 年翻倍以上；2035 年 AI 硬件集成度提升 > 100 倍

超越产品的深层意义是方法论：τ 缩放是自德纳尔德以来首个让全栈拥有统一优化目标的缩放原理。它告诉工艺、电路、架构、系统、软件团队：所有人都在优化同一指标、同一单位；任何一层的改进必须传导到系统 τ 才算有效。它也告诉产业战略与资本方：下一笔投资应投向τ而非节点；竞争力不再依赖持续领先光刻；封装、存储带宽、网络设计拥有昔日仅先进逻辑节点才有的战略权重。

对被教育将 “摩尔定律” 等同于 “进步” 的一代工程师，这是艰难转型。几何时代确实已结束，否认不是可行策略。通过微型化加速的时代正在让位于通过多层电子系统 τ 优化加速的时代。未来 6–10 年采用 τ 作为核心目标的企业、研究机构与生态，将定义此后十年的计算格局。

未来十年工作已明确，仍有许多开放问题，非单一组织能独自解决 —— 工具链、标准、基准、器件物理、经济模型都需要外部合作。本文既是实地报告，也是合作邀请。

前路充满挑战，但方向明确。

作者：何庭波领导华为半导体业务。其团队 2020–2026 年设计量产 381 款芯片，覆盖手机、AI、汽车、基础设施，是 τ 缩放方法学与逻辑折叠、统一总线、Hi‑ONE 技术的提出者。致谢

本文基于华为半导体与产业链（晶圆、设备、EDA、系统伙伴）数千工程师六年工作成果。感谢客户的耐心支持。

τ：tau，特征时间常数（韬定律核心指标）

SoC：System on Chip，片上系统（手机主芯片）

RC：Resistance-Capacitance，电阻电容（延迟、寄生效应）

GAA：Gate-All-Around，环绕栅极晶体管

EUV：Extreme Ultraviolet，极紫外光刻

CMOS：Complementary Metal-Oxide-Semiconductor，互补金属氧化物半导体

TSV：Through-Silicon Via，硅通孔（3D 堆叠垂直互连）