Keysight AI 数据中心构建器

Keysight AI 数据中心构建器

加速 AI 网络基础设施的设计与部署

已拥有此产品? 访问技术支持页面

亮点

Keysight AI 数据中心构建器可以:

  • 无需大型 GPU 集群即可模拟 AI 工作负载,通过利用高密度流量负载设备或软件端点,有效降低测试和验证成本。
  • 访问 KAI 工作负载资料库,这是一套与领先 AI 运营商和学术机构合作构建的完整 AI 工作负载执行追踪数据集。
  • 利用高密度 AI 主机仿真,支持 800GE / 400GE 功能,准确反映 AI 集群行为。
  • 通过 KAI Collective Benchmarks 应用程序优化基准测试,验证 AI 网络架构性能,从而提升使用效率。
  • 自动化 AI 网络架构测试,以评估网络对任务完成时间、性能隔离、负载均衡和拥堵控制的影响,从而优化 AI 训练性能。

引领 AI 网络未来:是德科技如何赋能 Juniper推动 AI

 

 

  • 是德科技通过仿真来自大规模 AI 加速器的集体通信工作负载,协助 Juniper 验证下一代网络架构。
  • 提供全面的测试场景,展示无损网络架构在负载均衡和拥塞缓解方面的效率和性能。

解决 AI 网络挑战

解决 AI 网络挑战

AI / ML 行业的关键行业趋势和挑战包括:

  • 预计到 2026 年,AI 集群的节点数量将突破 10 万个。
  • 有多达50%的时间闲置,等待数据交换。在数据交换等待期间,空闲时间可高达 50%。
  • ​AI 网络创新需要新的测量和基准工具。
  • ​是德科技提供了一个具有无损结构验证记录的800GE / 400GE测试解决方案。与基于 GPU 的系统基准测试相比,它部署更快速,提供更深入的洞察,同时实现可验证的 AI 流量仿真准确性。

加速 AI 网络设计

定义AI / ML基础设施的未来。 解锁可能,塑造未来格局。

基准测试 AI 集合通信的任务完成时间

驾驭 AI 工作负载的复杂性。

实现网络性能测量的精确性​

根据更深入的 AI 通信洞察做出设计决策。

灵活的假设场景

通过测试  AI 流量模式优化结构配置,从而提升 AI 集体性能。

高性价比的高密度 AI 网络测试平台​

使用  AresONE-M 800GE 和 AresONE-S 400GE  的 AI 流量仿真扩展实验规模。

加速 AI 网络设计

将真实的 AI 工作负载带入实验室

KAI 工作负载仿真使 AI 基础设施团队无需部署大型 GPU 集群即可重现真实的 AI 训练行为,在保持真实性的同时降低成本。

工作负载仿真的主要优势

  • 使用 400GE / 800G AresONE 流量发生或商用现成服务器 (COTS)  仿真 AI 工作负载
  • 在真实环境下验证并行策略、模型分区和数据交换模式
  • 在全面部署前,确保基础设施与 AI 工作负载需求保持一致。
  • 降低对高成本 AI 集群在基准测试与性能测试上的依赖。

重新定义 AI 基础设施的基准测试方式

Workload Emulation
Keysight 通过精确和快速的方式帮助改变 AI 基础设施基准测试:
  • 通过仿真大规模 AI 工作负载,优化 AI / ML 系统设计。
  • 深入洞察集体通信性能,助力系统优化与设计决策。
  • 通过以应用程序交付的预打包方法,简化基准测试与验证流程。
  • 使用高密度 AresONE 流量负载设备,通过数百个 400GE 或 800GE 端口,模拟基于融合以太网 v2(RoCEv2)的远程直接内存访问(RDMA)端点。

通过集体基准测试简化 AI 基础设施验证

Keysight 通过提供精确、可扩展性,以及有助于优化设计与部署的深度洞察,加速 AI 基础架构验证。KAI 数据中心构建器结合 KAI Collective Benchmarks 应用程序、测试工具包和高保真测试仪器,简化性能评估流程,使 AI 运维人员能够优化基础设施设计与网络性能。

主要功能包括:

  • 通过测量任务完成时间、算法和总线带宽,以及与理论最大性能的偏差,评估集合通信效率。
  • 使用 AresONE 流量负载设备模拟 RoCEv2 端点,通过深入分析功能评估队列对(AI 数据流)的性能表现。
  • 通过将AresONE硬件测试结果与真实 AI 系统的指标进行对比,来验证RoCEv2 仿真的真实性。
  • 通过集成 AI 集合基准测试,KAI 数据中心构建器帮助 AI运营商和基础架构供应商深入洞察数据传输效率、网络拥塞情况及整体系统性能。
集合基准测试

RoCEv2 端点仿真和状态验证

超越仿真,精准定义 RoCEv2 验证新标准

IxNetwork 和 AresONE-S 全面支持 RoCEv2 协议

IxNetwork / AresONE-S 支持 RoCEv2 传输协议,并具备数据中心量化拥塞通知(DCQCN)拥塞控制与优先级流控(PFC)功能。它为验证 AI 集群中的数据平面流量管理提供了可扩展且高性价比的解决方案,优化网络结构性能。

速度与规模

AresONE-S 每台设备提供高达 16 个 400GE 端口,并可组合为多设备配置,在单一集群中实现超过 256 个端口的扩展能力 每个端口可模拟一个 RoCEv2 端点,并支持数千个队列对(Queue Pair),实现线速流量传输。 这种规模对于重现真实 AI 集群的网络拓扑至关重要。

流量灵活性

为了贴近 AI 工作负载模式的真实性,并在较小规模环境中重现潜在问题,AresONE 提供涵盖多种流量模式的 RoCEv2 功能,包括汇聚 (in-cast)、部分网状(partial mesh)以及全域 all-to-all 集体通信。

在传输层,它支持可配置数据大小、突发速率和间隔的 RDMA 动作序列,并结合了 DCQCN 和 PFC 的速率控制机制。

队列对 (Queue Pair ) 级别的 DCQCN 流控机制

每个队列对的 DCQCN 支持精确的网络拥塞控制,结合显式拥塞通知(ECN)与速率控制等功能,优化数据流与网络结构的响应能力。

前往 GitHub 项目庫 以获取 AI / ML 测试方法。

如何测试 AI 数据中心 网络

高效的网络设计对于加速数据传输和减少延迟至关重要。AI Fabric 测试方法旨在提供一致的测试流程和可量化的指标,以优化数据中心基础设施对 AI 工作负载的支持。遵循此测试方法,对任务完成时间、性能隔离、负载均衡与拥塞控制进行基准测试。

使用真实工作负载对 AI / ML 集群进行基准测试,通常需要在配备 GPU 和 RDMA 网络接口卡(NIC)的计算系统上投入高昂成本。正确的基准测试需配置参数,例如集群设置、拥塞控制、工作负载算法、任务数据规模、流量特征以及网卡性能等参数。

AI 测试硬件

Keysight的数据中心负载模块提供高密度和高性能的以太网 IP 测试解决方案,支持业界首个涵盖 1G、10G、25G、40G、50G、100G、400G 和 800G 速率的產品。

网络负载测试和协议测试工具

您已经拥有其中某个产品? 访问技术支持

推荐资源

需要帮助或有疑问吗?