Wie funktioniert die generative KI-Infrastruktur bei Amazon? Alles, was Sie wissen müssen

By AWS Events · 2024-02-26

Willkommen bei unserem exklusiven Blick hinter die Kulissen auf AWS re:Invent 2023. In diesem Artikel werfen wir einen detaillierten Blick auf die generative KI-Infrastruktur bei Amazon und erfahren Sie alles, was Sie wissen müssen, um auf dem neuesten Stand zu bleiben.

Hintergrund von Anapa Labs

Anapa Labs ist das Team innerhalb von AWS, das alle speziell entwickelten Chips für Zwecke wie Nitro, Graviton und Infen baut.

Das Team wusste von Anfang an, dass ihre Kunden ausschließlich Softwareentwickler sein würden, und traf daher Entscheidungen, um sicherzustellen, dass die Hardware den Bedürfnissen der Kunden und der Bereitstellung von AWS entspricht.

Die Produkte von Anapa Labs basieren auf den drei Schlüsselprinzipien der Portabilität, Wiederverwendbarkeit, Benutzerfreundlichkeit und Kostenleistung.

Im Jahr 2017 erkannte das Unternehmen die Notwendigkeit, maschinelles Lernen und die Leistung von Modellen zu verbessern, und verfasste daher eine umfangreiche Business-Planung.

Hintergrund von Anapa Labs

Vorstellung von Trinium und Inferentia 2

Der Trinium Chip ermöglicht die Verbindung aller Chips in einem 3D Hyper Cube und TOD-Konfiguration, was eine maximale Leistung und Bandbreite gewährleistet.

In einem Server befinden sich drei separate Boxen, darunter ein Kopf-Knoten und zwei der zuvor besprochenen Boxen, was die Gesamtkapazität erhöht.

Die Inferentia 2 Server bieten im Vergleich zu Inferentia 3x mehr Leistung und ermöglichen LLM- und stabile Diffusion-Gen-Workloads.

Der Trinium Chip verfügt über 5x mehr Transistoren als Inferentia und bietet eine optimierte Architektur für Inferenz-Workloads.

Die Server mit Trinium und Inferentia 2 bieten erhebliche Kosteneinsparungen bei Trainings- und Inferenzprozessen im Vergleich zu anderen Lösungen auf dem Markt.

Die Software-SDK namens Neuron ist eine dünnere Überlagerung, die Plug-Ins für verschiedene Frameworks wie PyTorch, TensorFlow und Jacks bietet.

Vorstellung von Trinium und Inferentia 2

Neue Funktionen von Trinium und Nikki

Trinium bietet eine neue Funktion namens Nikki, die es Entwicklern ermöglicht, eigene Kernel-Performance-Kernels auf Trinium zu schreiben und sie effizient auszuführen. Dies umgeht fast alle Schritte des Compilers und ermöglicht die native Ausführung auf Trinium. Diese Funktion verwendet die gleichen APIs wie Triton von OpenAI.

Die Integration von TensorParm ermöglicht es, das Modelllayer über mehrere Beschleuniger hinweg zu schichten. Dadurch können Modelle auf mehreren Beschleunigern gleichzeitig ausgeführt werden. Mit dem Hugging Face Trainer können Modelle effektiv trainiert werden, wobei Tools wie NeuronTop und die Integration in TensorBoard hilfreich sind.

Darüber hinaus erweitert Trinium seine Ultra-Cluster-Größe von 30.000 auf 60.000 Chips, um größere Modelle schneller zu trainieren. Dies ist besonders für Kunden mit umfangreichen Trainingsdaten von Bedeutung.

Neue Funktionen von Trinium und Nikki

Künstliche Intelligenz (KI) und die Zukunft der Arbeit

Die Plattform bietet Tools wie SQL-Engines, um strukturierte Abfragen für spezifische Informationen oder Dashboards zu erstellen.

Das Ziel ist es, auch Nutzern, die nicht programmieren können, die Abfrage von Daten in natürlicher Sprache zu ermöglichen, anstatt auf Experten für SQL-Abfragen angewiesen zu sein.

Die Entwicklung hin zur generativen KI eröffnet neue Möglichkeiten der Interaktion mit Computern, wodurch die Effizienz und Produktivität von Menschen gesteigert werden können.

Generative KI wird von 75% der CEOs als Wettbewerbsvorteil angesehen und verändert zunehmend Produkte und Arbeitsprozesse.

Eine Multicloud-Plattform, die verschiedene Hardware und Clouds nutzt, soll die Leistung steigern und die Kosten senken.

Künstliche Intelligenz (KI) und die Zukunft der Arbeit

Neue Horizonte für Inferentia und Leonardo

Inferentia ist ein neues Computing-Modell, das die Möglichkeit bietet, größere Modelle schneller zu erstellen und die Hardware effektiver zu nutzen. Dies ist besonders für Hardware- und Lineare-Algebra-Enthusiasten von großem Interesse.

Leonardo ist ein Unternehmen, das sich auf die Generierung von visuellen Assets durch KI spezialisiert hat. Mit Hunderttausenden von Community-Modellen und Millionen von Nutzern hat die Nachfrage nach dem Service von Leonardo stark zugenommen.

Die Architekturintegration von Inferentia in die Plattform von Leonardo hat zu einer erheblichen Steigerung der Leistung und einer Kostensenkung um etwa 80 % geführt. Dies ermöglicht es Leonardo, seinen Nutzern weiterhin hochwertige visuelle Assets zu einem erschwinglichen Preis anzubieten.

Trinium 2, das nächste Projekt von Leonardo, verspricht eine enorme Steigerung der Rechenleistung. Mit rund 100.000 Chips pro Cluster und einer Leistung von 65 EXA-Flops wird dies einen beeindruckenden Fortschritt für die Gen-Technologie darstellen.

Neue Horizonte für Inferentia und Leonardo

Conclusion:

Die Enthüllung der generativen KI-Infrastruktur bei Amazon auf AWS re:Invent 2023 bietet einen spannenden Einblick in die Zukunft der Technologie. Mit Innovationen wie Trinium, Inferentia und neuen Funktionen wie Nikki und TensorParm zeigt Amazon erneut sein Bekenntnis zur Spitzenleistung in der KI-Entwicklung.