Comment Amazon a développé son infrastructure d'IA générative pour répondre à la demande croissante?

By AWS Events · 2024-02-26

Découvrez comment Amazon a mis en place une infrastructure d'IA générative pour répondre à la croissance de la demande, avec un aperçu des puces, du développement du modèle Trinium, de la plateforme d'intelligence et de l'utilisation d'INF Frenia.

Introduction à l'infrastructure de l'IA générative chez Amazon

Gadi Hoot, directeur des produits et du développement commercial chez Anuna Labs, présente l'histoire et l'infrastructure de l'IA générative chez Amazon, avec la participation des clients M. Navin Ral de Data Breaks et M. Pete Wner de Leonardo AI.

Anuna Labs est l'équipe au sein d'AWS qui développe tous les puces spécialement conçues, telles que Nitro, graviton et infen, avec un engagement envers la portabilité, la réutilisation, la facilité d'utilisation et le rapport coût-performance.

En 2017, Amazon a lancé la conception de puces dédiées à l'apprentissage machine, anticipant la demande croissante en termes de performances, de coûts et d'intégration. Malgré l'incertitude concernant les modèles populaires à l'époque, l'équipe s'est concentrée sur la capacité d'accélération des opérations de calcul matriciel, s'appuyant sur un nouvel ensemble d'ingénieurs et des installations de fabrication de pointe.

L'entreprise a réussi à déployer ces serveurs à grande échelle, couvrant 23 régions mondiales d'AWS et des milliers de racks, témoignant ainsi de leur succès à répondre à la demande croissante en matière d'infrastructure d'IA générative.

L'approche de conception proactive et l'engagement envers l'innovation positionnent Amazon en tant que leader dans le domaine de l'infrastructure d'IA générative, offrant des solutions évolutives et performantes à ses clients.

Introduction à l'infrastructure de l'IA générative chez Amazon

Présentation des puces et serveurs

Les puces Tranium sont situées au centre de la boîte, tandis que les puces Inferentia se trouvent sur le côté.

La technologie Newon Link permet l'interconnexion des puces dans une configuration en cube 3D et Tours de TOD, assurant un maximum de deux sauts entre chaque puce pour une latence minimale et des performances élevées.

Chaque rack contient en fait trois boîtes séparées : un nœud principal en haut et deux des boîtes contenant les puces, offrant une capacité totale de 16 Tranium pour exécuter des charges de travail d'entraînement.

La puce Inferentia 2 offre 3 fois plus de performances par rapport à Inferentia 1, avec une configuration similaire mais optimisée pour les charges de travail d'inférence.

Présentation des puces et serveurs

Développement avancé du modèle Trinium

Le développeur du modèle Trinium vise à le rendre plus performant et plus efficace sur le plan matériel. À la fin de cette phase, les boucles internes sont déplacées vers le mapping matériel, ce qui permet de les exécuter dans un langage adapté au matériel Trinium, en minimisant les étapes du compilateur pour une exécution native sur Trinium. De plus, un nouvel outil appelé Nikki, les interfaces de noyau neuronique, permet aux développeurs d'écrire leurs propres noyaux de performance sur Trinium, en contournant presque toutes les étapes du compilateur.

L'intégration de Trinium avec Hugging Face permet d'utiliser le neurone optimal pour l'entraînement et l'inférence, ainsi que la distribution du modèle sur plusieurs accélérateurs pour une exécution concurrente. De plus, l'augmentation de la taille des clusters Ultra de 30 000 à 60 000 puces Trinium dans le centre de données ouvrira la voie à l'exécution de modèles plus volumineux et à une formation plus rapide.

Développement avancé du modèle Trinium

Plateforme d'intelligence

La plateforme d'intelligence consiste en un ensemble d'outils tels que des moteurs SQL

Elle vise à rendre l'interrogation des données plus accessible en permettant par exemple de formuler des requêtes en langage naturel plutôt qu'en SQL

L'essor de l'intelligence artificielle générative offre de nouvelles perspectives, notamment dans les domaines de la finance et de la santé

Le coût et la scalabilité des solutions d'intelligence artificielle deviennent des facteurs déterminants dans leur adoption par les entreprises

La plateforme Mosaic vise à rendre l'entraînement des modèles d'intelligence artificielle plus accessible, notamment grâce à des innovations en matière de coût et de précision

Plateforme d'intelligence

Introduction à Leonardo et à l'utilisation d'INF Frenia

Leonardo est une entreprise d'IA générative axée sur les actifs visuels génératifs tels que les images, les vidéos et les textures pour les modèles 3D, avec des millions d'utilisateurs et des centaines de milliers de modèles communautaires formés sur sa plateforme.

Ils ont rencontré des contraintes de capacité à l'échelle de l'industrie pour le matériel d'accélération et se sont tournés vers INF Frenia pour son profil prix-performance attractif, bénéficiant d'un fort soutien de la part d'AWS pour toutes les services de base qu'ils utilisaient.

Ils ont réussi à obtenir des performances équivalentes pour la génération d'images avec INF 2 tout en réduisant les coûts de traitement de 80%, ce qui a totalement modifié leur proposition de valeur pour offrir leurs meilleures fonctionnalités à leurs utilisateurs à un point de prix plus accessible.

Ils prévoient d'étendre tous leurs modèles populaires sur INF 2, d'expérimenter avec la parallélisme des données pour réduire davantage les temps de génération, et de se concentrer sur la compatibilité avec des fonctionnalités plus avancées ainsi que la transition de SageMaker à ECS et EC2 pour mieux aligner leur configuration existante.

Introduction à Leonardo et à l'utilisation d'INF Frenia

Conclusion:

Amazon se positionne comme un leader dans le domaine de l'infrastructure d'IA générative grâce à son engagement envers l'innovation et la conception proactive. Cette approche a permis de répondre à la demande croissante avec des solutions évolutives et performantes, ouvrant de nouvelles perspectives dans des domaines tels que la finance et la santé.