阿马逊2023年re:Invent大会 - 亚马逊幕后生成式AI基础设施揭秘
By AWS Events · 2024-02-26
亚马逊re:Invent 2023大会揭开了亚马逊幕后生成式AI基础设施的神秘面纱,Anuna Labs的Gadi Hoot介绍了他们如何通过嵌入AWS的自定义芯片产品线构建特定硬件和软件加速器的故事。
幕后AI基础设施的故事
- 阿马逊幕后生成AI基础设施的幕后故事。
- Anuna Labs的Gadi Hoot介绍了该团队通过嵌入AWS的自定义芯片产品线(例如Nitro、Graviton和Inferentia)来构建特定硬件和软件加速器。
- 他们在2017年推出INF1芯片,并在全球23个AWS区域部署了成千上万台INF1服务器。
- 团队从事芯片设计、模拟、制造和部署,以满足客户对性能、成本和易用性的需求。
- 他们十分重视灵活性和可复用性,只有在有明确标准的情况下才会将产品硬编码。
- 在进行芯片设计时,他们注重以软件开发者为目标客户,考虑了软件与硬件的紧密结合,并通过历史数据和逆向思维来预测未来的需求。
- 不断创新、大规模部署以及对机器学习芯片不断的再设计与优化,让团队在AI基础设施领域成就斐然。
幕后AI基础设施的故事
介绍 Tranium 和 Inferentia 服务器芯片
- Tranium 芯片位于服务器的中间部分,配备了8颗芯片,采用3D超立方体和TOD环形配置的新颖科技,最大程度地减少芯片之间的距离,实现了最小化延迟和高性能的高带宽接口
- Inferentia 2 服务器提供了比 Inferentia 1 更高达3倍的性能,适用于LLM和稳定传输的生成型工作负载,其设计降低了计算,提升了内存带宽利用率
- Tranium 芯片相较于 Inferentia 芯片拥有5倍的晶体管数量,采用了HBM高带宽内存,使其在推理工作负载中表现出色
- 每个 Tranium 芯片配备了两个神经元核心、张量引擎、大型SRAM片上存储器等组件,以及16个通用SDC核心,适用于高带宽内存部署和联合计算
- 服务器内置16颗Tranium芯片,具有高达52GB的内存容量和13.1TB/s的峰值内存带宽,相较于其他解决方案,Tranium能在 Lama 2 模型的训练中提供大约50%的成本节约
介绍 Tranium 和 Inferentia 服务器芯片
Tranium神经核界面和数据湖平台
- Tranium团队推出了新功能Nikki,即神经核界面,允许开发人员在Tranium上编写自己的内核性能内核,这基本上是一个允许您开发任何创新并在Tranium上运行高性能的裸机接口。
- Tranium还提供了最佳神经元,这是一个包装技术,可以帮助模型进行培训和推理。通过调整模型大小,可以实现并行计算和加速训练过程。
- 他们还介绍了一个称为Tensor Parm的工具,可以在多个加速器上并行运行模型。此外,对于大规模训练,Tranium团队正在构建6万个芯片的Tranium芯片H,以便更快地完成训练。
Tranium神经核界面和数据湖平台
技术平台的未来发展
- 当前的技术平台不仅可以通过SQL引擎等工具构建结构化查询,还可以实现用英语查询数据的功能,这使得非专业人士也能够进行数据查询。
- 随着生成式人工智能的发展,数据分析变得更加高效,这并不意味着取代人类工作,而是使得人类能够更高效地完成任务,减少成本。
- 75%的CEO认为生成式人工智能将成为竞争优势,尤其在运营方面,未来也将逐渐影响产品。
- 该技术的应用已经在金融服务、医疗保健等领域得到广泛采用,甚至媒体行业也开始应用生成式人工智能创建图像和视频。
- 技术平台的架构是多云、多硬件的,旨在提高性能并降低成本,为用户提供更快速、更便宜的服务。
技术平台的未来发展
Leonardo 公司的 AI 技术应用
- Leonardo 公司是一家专注于生成式视觉资产的人工智能公司,包括图像、视频和 3D 模型的纹理等。他们的平台拥有数百万用户和成千上万的社区模型,每天服务用户生 成数百万张图像。
- 他们的技术在处理推理工作负载方面有独特之处。与训练工作负载不同,他们有许多不同类型的任务,每个任务的处理时间非常短,通常为 5 到 10 秒。他们有超过 40 万个模型,每个任务可能需要使用其中任何一个模型。
- Leonardo 公司选择使用 M2 和 inferentia 加速器,在潜在扩散模型上,图像生成速度约为他们现有设备速度的 96 到 97%,而成本却降低了 80%。这使他们能够以更具吸引力的价格向用户提供最佳特性。
- 未来,他们计划将所有热门模型应用到 M2 上,并尝试数据并行处理,以进一步降低生成时间。他们还将深入研究与更先进功能的兼容性,并计划从 SageMaker 迁移到 ECS 和 EC2 上,以提高技术的可访问性。
Leonardo 公司的 AI 技术应用
Conclusion:
由不断创新、大规模部署以及对机器学习芯片不断的再设计与优化,让团队在AI基础设施领域取得了斐然的成就。亚马逊的Tranium和Inferentia芯片的性能和未来发展前景令人振奋。随着生成式人工智能的发展,数据分析变得更加高效,为用户提供更快速、更便宜的服务将成为未来的发展趋势。