人工智能网络
最大化人工智能数据中心的性能。
优化人工智能网络性能与效率
加速人工智能数据中心的部署,验证智能网卡性能,并对网络组件进行压力测试。 使用真实仿真器 一系列行业标准AI指标——例如任务完成时间和集体通信带宽。通过AI优化网络测试工具(包括AI工作仿真器、分布式网络流量生成器和网络仿真器)对AI网络性能进行基准测试,检测瓶颈并优化AI工作负载分布。
关于人工智能网络的全面指南
Juniper携手是德科技打造新一代人工智能网络
探索瞻博网络如何携手是德科技,为人工智能网络构建网络基础设施。了解是德科技的网络仿真工具如何助力瞻博网络针对人工智能数据中心的实际需求,对其产品进行测试与验证。
优化和扩展人工智能数据中心的五大策略
人工智能正在改变各行各业,推动创新发展。然而,独特的流量模式、动态工作负载以及持续的性能压力,可能使最微小的故障演变为关键问题。
阅读这本电子书,探索五种实用方案,以优化现代应用程序的人工智能数据中心性能。
提升人工智能数据中心集群的可扩展性
您的网络基础设施能否扩展以应对复杂、高流量的AI训练工作负载?本白皮书深入探讨了AI数据中心集群的扩展问题,指出了关键的网络挑战,并阐述了如何为组织实现AI目标构建可扩展且可靠的网络。
人工智能网络训练营
加入是德科技工程师的行列,深入探索人工智能网络测试与人工智能数据中心部署验证的世界。完成本课程后,您将掌握驾驭这一快速变化、创新性网络范式所需的洞察力与信心。
基准化集体行动
测量或基准测试人工智能集群的网络性能,可帮助组织在不增加硬件成本的情况下,识别优化机会并提升整体吞吐量。本白皮书阐释了人工智能集群的运作机制,定义了相关术语,并梳理了与人工智能网络基准测试相关的最常用指标。
验证高达1.6T速率的无损以太网
通过确保人工智能/机器学习和高性能计算网络中可靠的数据传输,领先于不断加速的性能需求。
对AI网络设备进行压力测试,以模拟AI工作负载
通过采用高密度流量生成器模拟AI工作负载行为,优化性能与效率,从而减少对昂贵GPU实验室配置的需求。
了解AI专用网络参数如何影响性能
从多种流量模型和工作负载配置文件中进行选择,以简化基准测试,并在组件和系统层面测试网络性能。
探索人工智能网络解决方案
使用KAI数据中心构建器优化人工智能基础设施
以无与伦比的精度基准测试AI数据中心性能。KAI数据中心构建器模拟构建大型学习模型(LLM)所采用的集体通信与算法组合,通过全系统测试轻松验证网络基础设施和AI架构。
最大化1.6T以太网的可靠性和性能
测试用于人工智能互连和数据中心网络的前沿以太网产品。是德科技互连与网络性能测试仪1600GE支持物理层(L1)和协议层(L2-3)测试,为光互连、有源电缆互连、网络交换机及人工智能网络提供无与伦比的测试覆盖能力。
使用CyPerf验证智能网卡和LLM基础设施
对高性能网络设备进行压力测试,模拟计算密集型、原生AI流量及测试场景。是德CyPerf 通过基准测试、真实流量仿真和高规模测试CyPerf 评估系统性能、可扩展性和稳定性。
使用BreakingPoint保护大型语言模型免受进阶
防范针对人工智能网络最常见的网络攻击类型——提示注入攻击,保障大型语言模型安全。作为一款进阶 安全与应用测试工具,是德BreakingPoint 验证人工智能网络及其支撑网络设备的安全性、稳定性和性能。
高管视角:Keysight AI
请聆听是德科技网络应用与安全业务副总裁兼总经理拉姆·佩里亚卡鲁潘的分享,他将探讨人工智能数据中心面临的关键挑战、如何优化人工智能性能与效率,以及是德科技如何通过Keysight AI 就绪数据中心解决方案Keysight AI 助力客户实现目标。
了解更多 人工智能网络
常见问题解答:人工智能网络
在传统网络中,工作负载类型和规模各异,流量分布于不同连接,随用户数量呈比例增长,且延迟或丢失的数据包通常不会引发重大问题。而在人工智能网络中,所有GPU都在处理同一问题——构建大型语言模型(LLM)。 构建LLM的工作负载需要在GPU间共享海量数据,且必须避免数据包丢失或遭遇拥塞。由于所有GPU都在处理相同问题,任务完成时间取决于最后一台GPU的处理进度。向单个GPU传输数据的任何延迟,都将导致整个工作负载延迟。
优化人工智能网络与优化传统数据中心网络存在差异。人工智能网络需在接近满负荷状态下运行,并保持无损传输以实现GPU利用率最大化。各类拥塞机制可通过不同配置参数进行调控。在实验室环境中运用基准测试工具运行人工智能工作负载,可为寻找最优配置方案提供路径,这些方案随后可应用于生产环境。
在人工智能网络中,多个GPU协同处理同一问题——只有当最后一个GPU接收到所需数据并完成处理后,任务才算完成。人工智能网络性能的关键指标之一是尾部延迟——即耗时最长的数据流。该指标称为P95,指网络中最慢的5%数据流所需的完成时间。
RDMA是远程直接内存访问(Remote Direct Memory Access)的缩写。该技术使GPU能在人工智能数据中心内相互传输数据,同时最大限度减少CPU和网络协议栈的参与。这使得人工智能数据中心能够实现低延迟、高吞吐量的通信。服务器中的RDMA网络接口卡连接至支持RDMA的交换机,从而实现GPU之间的高速通信。
超高速以太网(UE)为以太网增添了新功能,旨在为人工智能和高性能计算需求提供快速、高度可扩展且低延迟的网络。数据包喷洒技术允许流量通过多条路径到达目的地,从而改善整个网络的负载均衡。灵活排序机制使数据包能够以非顺序方式抵达目的地。 基于接收端的拥塞控制机制在现有发送端控制基础上升级,有效改善全对全等AI集体操作中出现的内播拥塞问题。增强型遥测技术可缩短控制平面信号传输时间,提升拥塞事件响应效率。UE兼容现有数据中心以太网交换机,但搭配基于UEC的交换机和网卡运行时,将实现更高网络利用率与更低尾部延迟,显著提升运行效能。
GPU间数据的移动称为集体操作。根据数据的初始位置、最终位置以及操作过程中是否需要对数据进行数学运算,集体操作可分为多种类型。常用类型包括广播与聚合、ReduceScatter、AllGather、AllReduce以及AlltoAll。 操作名称中包含"reduce"关键词表明该操作会对数据执行计算。集体操作可通过多种算法实现。全局归约的知名算法包括单向环形算法、双向环形算法、双二叉树算法和减半-倍增算法。这些算法的性能表现因GPU数量及互联方式而异。
需要帮助或有疑问吗?