多年来,人工智能基础设施战略一直以训练为核心。如今,业界正将关注点转向人工智能模型如何响应用户的提示和查询。这一过程被称为推理,并正成为行业焦点。
Keysight AI KAI)推理构建器专为这个新时代而打造。作为一款支持推理功能的仿真与分析解决方案,KAI 推理构建器能够模拟 AI 客户端和响应行为,从而在真实的工作负载条件下对 AI 基础设施进行测试和优化。凭借基于工作负载的全栈验证,您无需再满足于通用基准测试或负载测试。
推断决定了用户体验,因此要确保一致性,需要进行接近实际生产环境的验证,而非基于实验室的基准测试。
不同的应用程序对计算能力、内存和延迟的要求各不相同。如果没有基于实际工作负载的验证,就很难找出瓶颈所在。
推理涉及安全、网络、检索和计算。最薄弱的环节决定了整体性能。
防护措施和策略控制会影响大规模环境下的系统稳定性。运营商需要在真实的网络负载条件下验证系统的安全性和性能。
使用真实的提示、并发和令牌流,验证完整的请求-响应路径。KAI Inference Builder 可帮助团队在生产环境中出现问题之前,发现负载均衡、网络和计算方面的瓶颈。
识别 GPU 计算、内存、KV 缓存、存储、PCIe、RDMA 以及编排层中的瓶颈。在单臂模式下,KAI 推理构建器充当大规模推理客户端,将提示词格式的工作负载直接导入推理堆栈,从而使网络团队能够更快地定位问题,并精准地优化性能。
将真实的提示语模式注入堆栈,并分析生成的遥测数据,从而了解系统所需:无论是更多内存、更优的调度、更强大的检索路径,还是更高的 GPU 利用率。通过测量端到端的推理工作流,KAI Inference Builder 将复杂的系统行为转化为清晰且可操作的洞察。
并非所有推理工作负载的行为都相同。正因如此,KAI Inference Builder 针对各行业的提示词结构和模型响应进行了建模。该工具支持法律、金融及其他行业,可帮助团队生成针对特定工作负载的验证结果、比较架构,并在模型和提示词模式演进的过程中及时发现退化问题。
AI 基础设施的部署时间表往往受限于硬件的可用性。正因如此,KAI Inference Builder 提供了与 NVIDIA DSX Air 数字孪生环境的即插即用集成方案。KAI Inference Builder 能在建模的数据中心环境中模拟真实的推理请求与响应,使网络团队能够在物理基础设施完全就绪之前,就开始对部署方案进行验证和优化。