KAI 推理构建器套装,含 2 个代理,每秒最多支持 100 个提示词

KAI推理构建器套装包含两个代理,每秒最多支持100次提示(1年订阅,全球浮动配额)。该套装符合《贸易协议法》(TAA)要求。

产品图片
  • 外观因素

    软件

  • 许可证类型

    订阅

  • 性能水平

    每秒100条提示,1000个模拟用户

准备报价

了解包含内容,探索是德科技提供的可用升级选项。

关键性能

  • 通过大规模模拟真实的AI客户端行为,对整个AI推理基础设施和技术栈进行验证。
  • 选择不同的 AI 角色提示,以针对 AI 推理管道各阶段的关键点进行驱动。
  • 通过完全虚拟化或基于硬件的推理客户端仿真,验证部署在公有云或私有云上的 AI 推理基础设施。
  • 支持模拟数百万用户,并可精细控制每秒生成的提示词负载,从而实现无与伦比的AI推理规模测试。
  • 获取详细的推理统计数据,从而针对 AI 推理管道中各个组件的潜在瓶颈、限制和低效之处,获得可付诸实践的洞察:
    • GPU计算
    • HBM / VRAM 内存系统
    • KV缓存和存储层
    • PCIe 和 RDMA 互连
    • 模型引擎和编排器
  • 在单一的时间同步视图中,将客户端指标与推理引擎级遥测数据(例如 VLLM 统计数据)以及系统级 GPU 遥测数据(例如 DCGM 数据)相关联:
    • 提示词:ser second
    • 并发用户
    • 首次代币发行时间(TTFT)——最大值及百分位数(例如,P50、P90、P99)
    • Time to Last Token (TTLT) — 最大值和百分位数(例如,P50、P90、P99)
    • 每秒代币数(输入/输出)
    • 缓存使用情况
    • 预填充和解码时间
    • 张量核心的使用
    • 调度器状态
    • GPU功耗