阿马逊2023年re:Invent大会 - 亚马逊幕后生成式AI基础设施揭秘

By AWS Events · 2024-02-26

亚马逊re:Invent 2023大会揭开了亚马逊幕后生成式AI基础设施的神秘面纱,Anuna Labs的Gadi Hoot介绍了他们如何通过嵌入AWS的自定义芯片产品线构建特定硬件和软件加速器的故事。

幕后AI基础设施的故事

  • 阿马逊幕后生成AI基础设施的幕后故事。

  • Anuna Labs的Gadi Hoot介绍了该团队通过嵌入AWS的自定义芯片产品线(例如Nitro、Graviton和Inferentia)来构建特定硬件和软件加速器。

  • 他们在2017年推出INF1芯片,并在全球23个AWS区域部署了成千上万台INF1服务器。

  • 团队从事芯片设计、模拟、制造和部署,以满足客户对性能、成本和易用性的需求。

  • 他们十分重视灵活性和可复用性,只有在有明确标准的情况下才会将产品硬编码。

  • 在进行芯片设计时,他们注重以软件开发者为目标客户,考虑了软件与硬件的紧密结合,并通过历史数据和逆向思维来预测未来的需求。

  • 不断创新、大规模部署以及对机器学习芯片不断的再设计与优化,让团队在AI基础设施领域成就斐然。

幕后AI基础设施的故事
幕后AI基础设施的故事

介绍 Tranium 和 Inferentia 服务器芯片

  • Tranium 芯片位于服务器的中间部分,配备了8颗芯片,采用3D超立方体和TOD环形配置的新颖科技,最大程度地减少芯片之间的距离,实现了最小化延迟和高性能的高带宽接口

  • Inferentia 2 服务器提供了比 Inferentia 1 更高达3倍的性能,适用于LLM和稳定传输的生成型工作负载,其设计降低了计算,提升了内存带宽利用率

  • Tranium 芯片相较于 Inferentia 芯片拥有5倍的晶体管数量,采用了HBM高带宽内存,使其在推理工作负载中表现出色

  • 每个 Tranium 芯片配备了两个神经元核心、张量引擎、大型SRAM片上存储器等组件,以及16个通用SDC核心,适用于高带宽内存部署和联合计算

  • 服务器内置16颗Tranium芯片,具有高达52GB的内存容量和13.1TB/s的峰值内存带宽,相较于其他解决方案,Tranium能在 Lama 2 模型的训练中提供大约50%的成本节约

介绍 Tranium 和 Inferentia 服务器芯片
介绍 Tranium 和 Inferentia 服务器芯片

Tranium神经核界面和数据湖平台

  • Tranium团队推出了新功能Nikki,即神经核界面,允许开发人员在Tranium上编写自己的内核性能内核,这基本上是一个允许您开发任何创新并在Tranium上运行高性能的裸机接口。

  • Tranium还提供了最佳神经元,这是一个包装技术,可以帮助模型进行培训和推理。通过调整模型大小,可以实现并行计算和加速训练过程。

  • 他们还介绍了一个称为Tensor Parm的工具,可以在多个加速器上并行运行模型。此外,对于大规模训练,Tranium团队正在构建6万个芯片的Tranium芯片H,以便更快地完成训练。

Tranium神经核界面和数据湖平台
Tranium神经核界面和数据湖平台

技术平台的未来发展

  • 当前的技术平台不仅可以通过SQL引擎等工具构建结构化查询,还可以实现用英语查询数据的功能,这使得非专业人士也能够进行数据查询。

  • 随着生成式人工智能的发展,数据分析变得更加高效,这并不意味着取代人类工作,而是使得人类能够更高效地完成任务,减少成本。

  • 75%的CEO认为生成式人工智能将成为竞争优势,尤其在运营方面,未来也将逐渐影响产品。

  • 该技术的应用已经在金融服务、医疗保健等领域得到广泛采用,甚至媒体行业也开始应用生成式人工智能创建图像和视频。

  • 技术平台的架构是多云、多硬件的,旨在提高性能并降低成本,为用户提供更快速、更便宜的服务。

技术平台的未来发展
技术平台的未来发展

Leonardo 公司的 AI 技术应用

  • Leonardo 公司是一家专注于生成式视觉资产的人工智能公司,包括图像、视频和 3D 模型的纹理等。他们的平台拥有数百万用户和成千上万的社区模型,每天服务用户生成数百万张图像。

  • 他们的技术在处理推理工作负载方面有独特之处。与训练工作负载不同,他们有许多不同类型的任务,每个任务的处理时间非常短,通常为 5 到 10 秒。他们有超过 40 万个模型,每个任务可能需要使用其中任何一个模型。

  • Leonardo 公司选择使用 M2 和 inferentia 加速器,在潜在扩散模型上,图像生成速度约为他们现有设备速度的 96 到 97%,而成本却降低了 80%。这使他们能够以更具吸引力的价格向用户提供最佳特性。

  • 未来,他们计划将所有热门模型应用到 M2 上,并尝试数据并行处理,以进一步降低生成时间。他们还将深入研究与更先进功能的兼容性,并计划从 SageMaker 迁移到 ECS 和 EC2 上,以提高技术的可访问性。

Leonardo 公司的 AI 技术应用
Leonardo 公司的 AI 技术应用

Conclusion:

由不断创新、大规模部署以及对机器学习芯片不断的再设计与优化,让团队在AI基础设施领域取得了斐然的成就。亚马逊的Tranium和Inferentia芯片的性能和未来发展前景令人振奋。随着生成式人工智能的发展,数据分析变得更加高效,为用户提供更快速、更便宜的服务将成为未来的发展趋势。

亚马逊re:Invent 2023生成式AI基础设施Anuna Labs自定义芯片INF1芯片Inferentia服务器Tranium芯片Inferentia 2服务器AWS技术平台Leonardo公司AI技术应用
头等舱乘客成功秘诀揭秘:他们是如何富起来的?如何保护您的亚马逊账户健康,应对暂停账户等问题

About HeiChat

Elevating customer service with advanced AI technology. We seamlessly integrate with your store, engaging customers and boosting sales efficiency.

Connect With Us

Join our community and stay updated with the latest AI trends in customer service.

© 2024 Heicarbook. All rights reserved.