优化人工智能网络性能与效率

加速人工智能数据中心的部署,验证智能网卡性能,并对网络组件进行压力测试。 使用真实仿真器 一系列行业标准AI指标——例如任务完成时间和集体通信带宽。通过AI优化网络测试工具(包括AI工作仿真器、分布式网络流量生成器和网络仿真器)对AI网络性能进行基准测试,检测瓶颈并优化AI工作负载分布。

验证高达1.6T速率的无损以太网

通过确保人工智能/机器学习和高性能计算网络中可靠的数据传输,领先于不断加速的性能需求。

对AI网络设备进行压力测试,以模拟AI工作负载

通过采用高密度流量生成器模拟AI工作负载行为,优化性能与效率,从而减少对昂贵GPU实验室配置的需求。

了解AI专用网络参数如何影响性能

从多种流量模型和工作负载配置文件中进行选择,以简化基准测试,并在组件和系统层面测试网络性能。

高管视角:Keysight AI

请聆听是德科技网络应用与安全业务副总裁兼总经理拉姆·佩里亚卡鲁潘的分享,他将探讨人工智能数据中心面临的关键挑战、如何优化人工智能性能与效率,以及是德科技如何通过Keysight AI 就绪数据中心解决方案Keysight AI 助力客户实现目标。

常见问题解答:人工智能网络

在传统网络中,工作负载类型和规模各异,流量分布于不同连接,随用户数量呈比例增长,且延迟或丢失的数据包通常不会引发重大问题。而在人工智能网络中,所有GPU都在处理同一问题——构建大型语言模型(LLM)。 构建LLM的工作负载需要在GPU间共享海量数据,且必须避免数据包丢失或遭遇拥塞。由于所有GPU都在处理相同问题,任务完成时间取决于最后一台GPU的处理进度。向单个GPU传输数据的任何延迟,都将导致整个工作负载延迟。

优化人工智能网络与优化传统数据中心网络存在差异。人工智能网络需在接近满负荷状态下运行,并保持无损传输以实现GPU利用率最大化。各类拥塞机制可通过不同配置参数进行调控。在实验室环境中运用基准测试工具运行人工智能工作负载,可为寻找最优配置方案提供路径,这些方案随后可应用于生产环境。

在人工智能网络中,多个GPU协同处理同一问题——只有当最后一个GPU接收到所需数据并完成处理后,任务才算完成。人工智能网络性能的关键指标之一是尾部延迟——即耗时最长的数据流。该指标称为P95,指网络中最慢的5%数据流所需的完成时间。

RDMA是远程直接内存访问(Remote Direct Memory Access)的缩写。该技术使GPU能在人工智能数据中心内相互传输数据,同时最大限度减少CPU和网络协议栈的参与。这使得人工智能数据中心能够实现低延迟、高吞吐量的通信。服务器中的RDMA网络接口卡连接至支持RDMA的交换机,从而实现GPU之间的高速通信。

超高速以太网(UE)为以太网增添了新功能,旨在为人工智能和高性能计算需求提供快速、高度可扩展且低延迟的网络。数据包喷洒技术允许流量通过多条路径到达目的地,从而改善整个网络的负载均衡。灵活排序机制使数据包能够以非顺序方式抵达目的地。 基于接收端的拥塞控制机制在现有发送端控制基础上升级,有效改善全对全等AI集体操作中出现的内播拥塞问题。增强型遥测技术可缩短控制平面信号传输时间,提升拥塞事件响应效率。UE兼容现有数据中心以太网交换机,但搭配基于UEC的交换机和网卡运行时,将实现更高网络利用率与更低尾部延迟,显著提升运行效能。

GPU间数据的移动称为集体操作。根据数据的初始位置、最终位置以及操作过程中是否需要对数据进行数学运算,集体操作可分为多种类型。常用类型包括广播与聚合、ReduceScatter、AllGather、AllReduce以及AlltoAll。 操作名称中包含"reduce"关键词表明该操作会对数据执行计算。集体操作可通过多种算法实现。全局归约的知名算法包括单向环形算法、双向环形算法、双二叉树算法和减半-倍增算法。这些算法的性能表现因GPU数量及互联方式而异。

需要帮助或有疑问吗?