如何测试人工智能数据中心网络

人工智能数据中心测试平台
+ 800GE 流量仿真器

再现人工智能工作负载的真实网络行为

对人工智能/机器学习(AI/ML)集群架构进行基准测试时,通常需要投入配备GPU和远程直接内存访问(RDMA)网络接口控制器(NIC)的计算系统,其构建和运营成本高昂且耗时。为实现AI网络的全面优化,必须在实验室环境中部署并运行这些系统,以支持太比特级别的验证与实验。 要对AI网络进行恰当的基准测试与验证,需配置集群架构、拥塞控制、工作负载算法、任务数据规模、流量特征及网卡性能等参数。

生成用于网络基准测试的逼真、大规模AI工作负载流量,需要配备预置方法论的RDMA/融合以太网RDMA(RoCEv2)端点仿真器 软件,这些方法论支持集体通信模式——包括全对全、全聚合、全收集等多种模式。 该软件提供专为AI网络设计的数据负载,可测量关键参数(如任务完成时间、算法及总线带宽),并深入解析网络架构性能。

人工智能数据中心网络测试解决方案

测试人工智能数据中心网络需要网络流量仿真器,以及支持人工智能工作负载的预打包方法论软件。该人工智能数据中心网络测试解决方案包含是德科技AresONE RoCEv2端点仿真器,搭配Keysight AI 中心构建器软件。该方案可重复创建不同数据规模的场景,这些场景源自人工智能集群中的集体通信。AresONE 每个端口AresONE 和RDMA网卡。其流量仿真功能涵盖:模拟队列对(QP)连接与数据流、生成拥塞通知、执行基于数据中心量化拥塞通知(DCQCN)的动态速率控制,并支持灵活测试吞吐量、缓冲区管理及等成本多路径(ECMP)哈希算法。 借助该方案,工程师可在实验室或预发布环境中设计优化方案、进行基准测试,并将结果应用于生产环境,无需在实验室配备专用AI计算节点和网卡。

查看我们的人工智能数据中心测试解决方案演示

探索我们网络测试解决方案中的产品

相关使用场景

联系我们 标识

请联系我们的专家之一

需要帮助找到适合您的解决方案吗?