阿马逊2023年re:Invent大会 - 亚马逊幕后生成式AI基础设施揭秘

By AWS Events · 2024-02-26

亚马逊re:Invent 2023大会揭开了亚马逊幕后生成式AI基础设施的神秘面纱，Anuna Labs的Gadi Hoot介绍了他们如何通过嵌入AWS的自定义芯片产品线构建特定硬件和软件加速器的故事。

幕后AI基础设施的故事

阿马逊幕后生成AI基础设施的幕后故事。

Anuna Labs的Gadi Hoot介绍了该团队通过嵌入AWS的自定义芯片产品线（例如Nitro、Graviton和Inferentia）来构建特定硬件和软件加速器。

他们在2017年推出INF1芯片，并在全球23个AWS区域部署了成千上万台INF1服务器。

团队从事芯片设计、模拟、制造和部署，以满足客户对性能、成本和易用性的需求。

他们十分重视灵活性和可复用性，只有在有明确标准的情况下才会将产品硬编码。

在进行芯片设计时，他们注重以软件开发者为目标客户，考虑了软件与硬件的紧密结合，并通过历史数据和逆向思维来预测未来的需求。

不断创新、大规模部署以及对机器学习芯片不断的再设计与优化，让团队在AI基础设施领域成就斐然。

幕后AI基础设施的故事

幕后AI基础设施的故事

介绍 Tranium 和 Inferentia 服务器芯片

Tranium 芯片位于服务器的中间部分，配备了8颗芯片，采用3D超立方体和TOD环形配置的新颖科技，最大程度地减少芯片之间的距离，实现了最小化延迟和高性能的高带宽接口

Inferentia 2 服务器提供了比 Inferentia 1 更高达3倍的性能，适用于LLM和稳定传输的生成型工作负载，其设计降低了计算，提升了内存带宽利用率

Tranium 芯片相较于 Inferentia 芯片拥有5倍的晶体管数量，采用了HBM高带宽内存，使其在推理工作负载中表现出色

每个 Tranium 芯片配备了两个神经元核心、张量引擎、大型SRAM片上存储器等组件，以及16个通用SDC核心，适用于高带宽内存部署和联合计算

服务器内置16颗Tranium芯片，具有高达52GB的内存容量和13.1TB/s的峰值内存带宽，相较于其他解决方案，Tranium能在 Lama 2 模型的训练中提供大约50%的成本节约

介绍 Tranium 和 Inferentia 服务器芯片

介绍 Tranium 和 Inferentia 服务器芯片

Tranium神经核界面和数据湖平台

Tranium团队推出了新功能Nikki，即神经核界面，允许开发人员在Tranium上编写自己的内核性能内核，这基本上是一个允许您开发任何创新并在Tranium上运行高性能的裸机接口。

Tranium还提供了最佳神经元，这是一个包装技术，可以帮助模型进行培训和推理。通过调整模型大小，可以实现并行计算和加速训练过程。

他们还介绍了一个称为Tensor Parm的工具，可以在多个加速器上并行运行模型。此外，对于大规模训练，Tranium团队正在构建6万个芯片的Tranium芯片H，以便更快地完成训练。

Tranium神经核界面和数据湖平台

Tranium神经核界面和数据湖平台

技术平台的未来发展

当前的技术平台不仅可以通过SQL引擎等工具构建结构化查询，还可以实现用英语查询数据的功能，这使得非专业人士也能够进行数据查询。

随着生成式人工智能的发展，数据分析变得更加高效，这并不意味着取代人类工作，而是使得人类能够更高效地完成任务，减少成本。

75%的CEO认为生成式人工智能将成为竞争优势，尤其在运营方面，未来也将逐渐影响产品。

该技术的应用已经在金融服务、医疗保健等领域得到广泛采用，甚至媒体行业也开始应用生成式人工智能创建图像和视频。

技术平台的架构是多云、多硬件的，旨在提高性能并降低成本，为用户提供更快速、更便宜的服务。

技术平台的未来发展

技术平台的未来发展

Leonardo 公司的 AI 技术应用

Leonardo 公司是一家专注于生成式视觉资产的人工智能公司，包括图像、视频和 3D 模型的纹理等。他们的平台拥有数百万用户和成千上万的社区模型，每天服务用户生成数百万张图像。

他们的技术在处理推理工作负载方面有独特之处。与训练工作负载不同，他们有许多不同类型的任务，每个任务的处理时间非常短，通常为 5 到 10 秒。他们有超过 40 万个模型，每个任务可能需要使用其中任何一个模型。

Leonardo 公司选择使用 M2 和 inferentia 加速器，在潜在扩散模型上，图像生成速度约为他们现有设备速度的 96 到 97%，而成本却降低了 80%。这使他们能够以更具吸引力的价格向用户提供最佳特性。

未来，他们计划将所有热门模型应用到 M2 上，并尝试数据并行处理，以进一步降低生成时间。他们还将深入研究与更先进功能的兼容性，并计划从 SageMaker 迁移到 ECS 和 EC2 上，以提高技术的可访问性。

Leonardo 公司的 AI 技术应用

Leonardo 公司的 AI 技术应用

Conclusion:

由不断创新、大规模部署以及对机器学习芯片不断的再设计与优化，让团队在AI基础设施领域取得了斐然的成就。亚马逊的Tranium和Inferentia芯片的性能和未来发展前景令人振奋。随着生成式人工智能的发展，数据分析变得更加高效，为用户提供更快速、更便宜的服务将成为未来的发展趋势。

亚马逊re:Invent 2023生成式AI基础设施Anuna Labs自定义芯片INF1芯片Inferentia服务器Tranium芯片Inferentia 2服务器AWS技术平台Leonardo公司AI技术应用

头等舱乘客成功秘诀揭秘：他们是如何富起来的？如何保护您的亚马逊账户健康，应对暂停账户等问题