lch
发布于 2026-04-21 / 0 阅读
0

曦智科技探讨AI数据中心三大扩展策略

导语

在OFC 2026期间,曦智科技接受了Semiconductor Engineering的专访,探讨了 AI 数据 中心 三大扩展策略——纵向扩展(Scale-up)、横向扩展(Scale-out)和跨数据中心扩展(Scale- ac ros s)。

以下内容编译自Semiconductor Engineering,点击“阅读原文”查看完整文章内容。

随着当今数据中心工作负载,尤其是 AI 和 HPC 工作负载,持续突破单机架或单个数据中心在物理空间、供电能力和架构上的限制,数据中心的扩展方式正日益受到重视。

纵向扩展(Scale-up)通常指单机架内的扩展;横向扩展(Scale-out)则是指同一数据中心内的跨机架扩展;当单个数据中心内可调度的资源仍不足时,才进一步走向跨数据中心扩展(Scale-across) 。

纵向扩展主要追求更低延迟,横向扩展则更关注抖动等网络传输波动。在跨数据中心扩展中,其面临的问题总体上更接近横向扩展,但由于长距离传输场景下对抖动和拥塞的处理方式会有所不同,因此通常被单独作为一类来讨论。

纵向扩展(Scale-up):

GPU 集群对外表现得更像一个大型 处理器

纵向扩展的核心思路是将计算资源(主要是GPU)汇聚在一起,让它们整体上像一个大型处理器那样工作,而不是一堆小型处理器的简单堆叠。

关键特征

首要优化指标是延迟;

采用内存语义——所有处理器看到统一的内存空间;

资源配置通常是静态的,在启动时完成;

在纵向扩展的短距离场景下,铜缆仍是可行选择;但当互连距离进一步拉长时,光互连将成为实现高速互连和大规模扩展的必要手段。

横向扩展(Scale-out):

从其他机架调动资源

关键特征

首要优化指标是报文传输抖动(packet jit te r);

采用R DMA (远程直接内存访问)语义,而非内存语义;

资源会在计算过程中按需动态分配和释放;

在更长距离互连场景下,光互连正变得越来越关键。

在横向扩展场景中, 以太网 目前占据主导地位。NVIDIA也推出了面向AI分布式计算负载的以太网方案,以适配那些已经大规模部署了以太网基础设施的用户。

纵向扩展跨出单机架:

不同国家下的连接需求差异

作为一家全球化公司,曦智科技在不同国家观察到了各不相同的数据中心架构需求。公司高级产品战略副总裁Maurice Steinman在采访中分享了他的见解。

在中国,由于单节点 GPU 性能受限,为获得同等集群算力,Scale-up域可能需要扩展到两到三个机架。这意味着跨机架 通信 往往不再保持一跳(one-hop),而可能需要经过两级交换,但这是实现目标算力的必要折中。

在日本,情况类似,但原因不同:单机架可获得的功率预算提升较慢,机架供电能力受限。为了达到目标集群性能,往往需要部署更多机架。文章同时援引Peter Judge在Uptime Intel ligence的信息称,日本正推进面向数据中心的新能效法规,预计将于 2026年4月起实施。

跨数据中心扩展(Scale-across):

当单个数据中心已无法满足目标规模需求

当单个数据中心在资源、功率或容量上已无法承载目标规模工作负载时,就需要把不同地理位置的数据中心连接起来,以支撑同一个工作负载跨数据中心运行。

跨数据中心扩展在机制上与横向扩展较为接近,但由于距离进一步拉长,拥塞处理所采用的 算法 和方法会发生变化。可以把它理解为更长距离下的横向扩展。

c582ef32-3a22-11f1-90a1-92fbcf53809c.png

不同数据中心,不同实现方式

每个 AI 数据中心都会采用这些扩展策略,但具体实现方式往往并不相同。

需要注意的是,这些描述针对的是当下的网络与数据中心实践,并不意味着这些定义是固定不变的。

受不同国家约束条件影响,纵向扩展与横向扩展之间的边界已经开始出现模糊;随着数据中心的持续演进,纵向扩展、横向扩展与跨数据中心扩展之间的边界也可能进一步模糊。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    数据中心
    +关注

    关注

    18

    文章

    5774

    浏览量

    75210
  • AI
    AI
    +关注

    关注

    91

    文章

    41172

    浏览量

    302626
  • 曦智科技
    曦智科技
    +关注

    关注

    0

    文章

    41

    浏览量

    8093

原文标题:你的AI集群该往哪扩?Scale-up、Scale-out还是Scale-across?

文章出处:【微信号:曦智科技,微信公众号:曦智科技】欢迎添加关注!文章转载请注明出处。