当前位置：首页 > 经典案例 > 在 Amazon SageMaker JumpStart 上基准测试和优化端点部署机器学习博客

在 Amazon SageMaker JumpStart 上基准测试和优化端点部署机器学习博客

2026-01-27 13:29:02

17次

优化Amazon SageMaker JumpStart的端点部署

作者：Kyle Ulrich Joao Moura Ashish Khetan 和 Vivek Madan 于2024年1月29日发表在高级 (300)，亚马逊机器学习，亚马逊SageMaker JumpStart，技术指南

永久链接评论分享

关键要点

在部署大型语言模型LLM时，机器学习ML从业者关注模型服务性能的两个重要指标：延迟生成单个标记所需的时间和吞吐量每秒生成的标记数量。通过对Amazon SageMaker JumpStart中可用的LLM进行全面基准测试，本文探讨了这些指标之间的关系，并提供了针对延迟、吞吐量、成本和实例类型限制的实际优化建议。

super加速器官网入口

部署端点基准测试

本文展示了不同模型配置下的最低延迟左和最高吞吐量右值。每种模型部署均使用SageMaker JumpStart提供的默认配置。这些延迟和吞吐量值是基于256个输入标记和256个输出标记的负载。

模型类型延迟 (ms/token)吞吐量 (tokens/sec)mlg52xlarge3330mlg512xlarge1759mlp4d24xlarge2049

增加并发请求可以单调增加吞吐量，但对于大规模并发请求，增益会递减。本文还指出，使用的实例类型及其硬件配置对模型性能有显著影响。

获取最低延迟和最高吞吐量配置

通过绘制延迟与吞吐量的关系图，我们能够确定最佳设置。例如，Llama 2 7B端点在mlg512xlarge实例上，随着并发请求的增加，吞吐量和延迟均呈单调增加趋势。在达到某个特定点后，额外的并发请求可能会导致延迟增加，因此需要根据具体应用找到理想配置。

在 Amazon SageMaker JumpStart 上基准测试和优化端点部署机器学习博客

理解加速器规格

选择合适的硬件进行LLM推理通常依赖于特定的用例、用户体验目标和所选LLM。加速器的规格会极大影响延迟和吞吐量的表现，我们需要通过实际基准测试来验证理论。

KV缓存和设备内存

大多数现代ML服务器将注意力键和值缓存到设备内存中DRAM以避免重复计算。通常情况下，当KV矩阵的内存耗尽时，后续的请求会被排队。通过了解KV缓存的大小和批处理大小，我们可以推测出相关的延迟和吞吐量曲线的“拐点”。

通过水平扩展提升吞吐量

如果单个端点无法满足并发请求的需求，可以通过水平扩展来解决。SageMaker会自动在多实例之间进行负载平衡，以此来提高整体吞吐量。这一步骤对于需要处理大量查询的应用特别重要。

结论

本文通过对Amazon SageMaker JumpStart中的LLM进行基准测试，展示了如何优化端点部署配置以实现最佳延迟、吞吐量和成本的平衡。有关更多信息和实践，请参考链接的笔记本以进行个性化基准测试。

本文网址：https://www.haozhineng.com/works/8.html

上一篇： 分享与 AWS IoT 连接更紧密世界的愿景的物联网官方博客 2026-01-27

下一篇： 基因组学工作流程，第3部分：自动化工作流程管理器架构博客 2026-01-27

产品案例Our Projects

最新资讯Recommend

联系我们Contact Us

Super加速器(中国)官方网站｜Super加速器

在 Amazon SageMaker JumpStart 上基准测试和优化端点部署机器学习博客

优化Amazon SageMaker JumpStart的端点部署

关键要点

部署端点基准测试

获取最低延迟和最高吞吐量配置

理解加速器规格

KV缓存和设备内存

通过水平扩展提升吞吐量

结论

产品案例Our Projects

最新资讯Recommend

联系我们Contact Us

Super加速器(中国)官方网站｜Super加速器

在 Amazon SageMaker JumpStart 上基准测试和优化端点部署 机器学习博客

优化Amazon SageMaker JumpStart的端点部署

关键要点

部署端点基准测试

获取最低延迟和最高吞吐量配置

理解加速器规格

KV缓存和设备内存

通过水平扩展提升吞吐量

结论

在 Amazon SageMaker JumpStart 上基准测试和优化端点部署机器学习博客