Claude 3 Opus: Das intelligenteste Sprachmodell auf dem Planeten - Eine umfassende Analyse
By AI Explained · 2024-03-11
Das neue Sprachmodell Claude 3 wird als das intelligenteste auf dem Planeten bezeichnet. In diesem Blog-Beitrag werfen wir einen umfassenden Blick auf Claude 3 Opus, vergleichen es mit anderen Modellen und analysieren seine Leistung in verschiedenen Bereichen.
Claude 3: Das intelligenteste Sprachmodell auf dem Planeten
- Claude 3 ist draußen, und Anthropiker behaupten, dass es das intelligenteste Sprachmodell auf dem Planeten ist. Der technische Bericht wurde vor weniger als 90 Minuten veröffentlicht, und ich habe ihn vollständig gelesen sowie diese Versionshinweise. Ich habe Claude 3 Opus auf etwa 50 verschiedene Arten getestet und mit nicht nur dem unveröffentlichten Gemini 1.5, auf das ich Zugriff habe, sondern natürlich auch mit GPT-4 verglichen. Diese Tests waren in Fairness nicht alle in den letzten 90 Minuten durchgeführt worden. Ich bin nicht übermenschlich – mir wurde glücklicherweise gestern Abend der Zugang zum Modell gewährt, obwohl ich mit dieser lästigen Erkältung zu kämpfen hatte. Behandeln wir das also alles als meinen ersten Eindruck. Diese Modelle können Monate dauern, um sie vollständig zu verdauen, aber kurz gesagt denke ich, dass Claude 3 beliebt sein wird. Die Transmogrifikation von Anthropics in ein vollwertiges Beschleuniger-AGI-Labor ist jetzt fast abgeschlossen. Ich weiß nicht, ob Claude 3 uns die äußersten Grenzen dessen zeigen wird, was mit Gen AI möglich ist, aber wir können ihnen ein wenig Hype verzeihen. Lassen Sie mich mit diesem anschaulichen Beispiel beginnen: Ich habe Claude 3, Gemini 1.5 und GPT-4 dieses Bild gegeben und gleichzeitig drei Fragen gestellt: Was ist das Kennzeichen des Lieferwagens, wie ist das aktuelle Wetter und gibt es sichtbare Möglichkeiten, sich auf der Straße die Haare schneiden zu lassen? Dann habe ich tatsächlich die Ergebnisse dieses Tests mit Mitarbeitern bei Anthropics besprochen. Sie stimmten mir zu, dass das Modell gut in OCR (optische Zeichenerkennung) ist.
Claude 3: Das intelligenteste Sprachmodell auf dem Planeten
Kritik an KI-Modellen und deren Fähigkeiten
- Es gibt viele Kritikpunkte, die ich ansprechen werde, aber ich denke, es ist wirklich großartig, dass es zuerst einmal die Lizenz PL korrekt erhalten hat. Das war fast jedes Mal der Fall, während GPC4 es manchmal falsch gemacht hat. Gemini 1.5 Pro hat dies jedoch recht gründlich umgesetzt.
- Ein weiterer Pluspunkt ist, dass es das einzige Modell ist, das die Barber-Pole links oben identifiziert. Natürlich ist dies eine potenziell verwirrende Frage, da wir nicht wissen, ob das Simmons-Schild mit dem Friseursalon in Verbindung steht. Tatsächlich ist das nicht der Fall, und auf der gegenüberliegenden Straßenseite befindet sich ein Schild mit der Aufschrift 'Barber Shop'. Dennoch hat GPC3 diese Situation am besten bewältigt. Als ich ihm eine Nachfrage stellte, identifizierte es tatsächlich die Barber-Pole. GPT 4 hingegen erkennt überhaupt keinen Friseursalon, und als ich es fragte, ob es sicher sei, antwortete es, dass es ein Schild mit der Aufschrift 'Adam' gebe.
- Es gibt jedoch noch einen anderen Grund, warum ich dieses Beispiel ausgewählt habe: Alle drei Modelle beantworten die zweite Frage falsch. Ja, die Sonne ist sichtbar, aber wenn man genauer hinsieht, regnet es tatsächlich auf dem Foto. Keines der Modelle hat das bemerkt. Ich vermute also, dass, wenn Sie in den nächsten 30 Sekunden irgendwohin müssen, ich Ihnen mitteilen kann, dass GPC3 kein AGI ist, falls Sie das immer noch glauben. Hier ist noch eine beiläufige Voreingenommenheit von GPC3: Der Arzt schimpfte die Krankenschwester, weil sie zu spät war. Wer war zu spät? Das Modell geht davon aus, dass sich 'sie' auf die Krankenschwester bezieht. Aber wenn man fragt, der Arzt schimpfte die Krankenschwester, weil er zu spät war. Wer war zu spät? antwortet das Modell
Kritik an KI-Modellen und deren Fähigkeiten
Einführung des anthropischen Claude 3-Modells in der Geschäftswelt
- Es wird angenommen, dass es sich um den Arzt handelt, aber die Dinge werden weitaus interessanter, wenn Anthropisch klar auf das Geschäft mit dem Claude 3-Modell abzielt.
- Sie betonen wiederholt den Wert des Modells für Unternehmen. Der Name 'Opus' bezieht sich natürlich auf die größte Version des Modells, da ein Opus ein großes literarisches Werk ist. Ein 'Sonic' ist in der Regel 14 Zeilen mittlerer Größe, und ein 'High Q' sind drei Zeilen kleiner Größe.
- Sie behaupten weiterhin, dass Claude 3 in der Lage sein wird, Einnahmen durch benutzerorientierte Anwendungen zu generieren, komplexe Finanzprognosen durchzuführen und die Forschung zu beschleunigen. Es ist sogar teurer als GPT 4 Turbo. Die potenziellen Anwendungsfälle, so sagt Anthropisch, umfassen die Automatisierung von Aufgaben, die Forschung und Entwicklung, fortgeschrittene Analyse von Diagrammen, Finanzen, Markttrends usw.
- Während diese Modelle in vielen dieser Bereiche hilfreich sein könnten, scheint Claude 3 besonders robust zu sein. Es geht hierbei nicht nur um Geschwindigkeitsmessungen, wie bereits in meinem Gemini Ultra-Test erwähnt. Claude 3 erkennt nicht, dass ich mit 40, sondern mit 4 Stundenkilometern unterwegs bin. Gemini 1.5 hat diese Frage übrigens richtig beantwortet. Die 40 ist offensichtlich ein Geschwindigkeitslimit.
- Es geht vielmehr um Fragen im Geschäftsstil, mathematische Fragen auf der Grundlage von Diagrammen und Daten. Ich habe viele davon mit Claude 3 getestet, und es waren nur die einfachsten, die es richtig beantwortet hat. Sowohl Gemini 1.5 als auch GPT 4 sind hierbei durchgefallen.
Einführung des anthropischen Claude 3-Modells in der Geschäftswelt
Claude 3 Opus: Ein Modell der künstlichen Intelligenz
- Claude 3 Opus, ein Modell der künstlichen Intelligenz, steht im Fokus von Diskussionen über seine Leistungsfähigkeit.
- Es wurde festgestellt, dass Claude 3 Opus bei der Extraktion von Daten und der Durchführung einfacher Analysen gut abschneidet.
- Allerdings zeigen sich Schwächen in seinem mathematischen Denkvermögen und bei komplexem logischem Denken.
- Trotzdem wurde es bereits als das derzeit intelligenteste Modell bezeichnet.
- Aber es gibt auch positive Aspekte, die dazu beitragen könnten, dass Claude 3 Opus populär wird, nämlich die niedrigeren Falschverweigerungsraten, die es aufweist.
- Ein Beispiel dafür ist, wie das Modell bei der Gestaltung einer Party reagiert. Es liefert kreative Ideen, betont jedoch auch die Bedeutung von Sicherheit und Verantwortung.
- Ein weiteres Beispiel zeigt sich bei der Aufforderung an die Modelle, einen risiken Shakespeare-Text zu verfassen. Claude 3 Opus liefert, während andere Modelle entweder zurückhaltend oder gar nicht reagieren.
Claude 3 Opus: Ein Modell der künstlichen Intelligenz
Die Theorie der Geistesfrage und Sprachmodelle
- Die berühmte Frage zur Theorie des Geistes, die ich gestellt habe. Ich beziehe mich auf eine berühmte Frage, die jedoch tatsächlich angepasst wurde, um das Wort 'transparent' einzuschließen, was fast alle Sprachmodelle durcheinander bringt. Natürlich würde fast jeder Mensch, der diesen Satz liest, erkennen, dass der Mensch durch die Tasche schauen und wissen würde, was sich darin befindet. Sie würden wissen, dass Popcorn drin ist. Gemini 1.5 Pro fällt durch, GPT 4 fällt ebenfalls durch. Beachten Sie, ich teste sie auch auf OCR, um tatsächlich die Wörter im Bild zu lesen. Claude 3 besteht diesen Test unerwarteterweise. Sein Trainingsende war im August letzten Jahres, also ist es möglich, dass dieses Beispiel irgendwie hineingekommen ist. Ich habe viel darüber in meinem Kanal gesprochen. Ich glaube nicht, dass es so ist, sondern dass es an der Intelligenz des Modells liegt.
- Lassen Sie uns für einen Moment zu dem Paper zurückkehren, bevor wir zu den offiziellen Benchmarks kommen. Anthropisch sagt, dass dieses Modell seine Antworten nach der Konstruktion nicht bearbeiten kann, es sei denn, die Benutzer geben ihm die Möglichkeit, dies in einer nachfolgenden Aufforderung zu tun. Jetzt frage ich mich, ob das eine Vorahnung auf eine Fähigkeit ist, die sie sich für zukünftige Modelle wünschen. Ihr seid wahrscheinlich genug von mir sprechen darüber müde, aber schaut euch mein Qstar-Video an, wenn ihr interessiert seid, oder besucht natürlich meinen Patreon, wo ich vor weniger als 18 Stunden ein Video über den AGI-Rechtsstreit zwischen Musk und Orman veröffentlicht habe. Und nein, ich konzentriere mich nicht auf Persönlichkeiten, nur auf die wichtigsten Details, die ihr wissen möchtet. Eine letzte Sache jedoch, bevor wir zu den Benchmarks kommen: Anthropisch sagt, dass mit ihrer
Die Theorie der Geistesfrage und Sprachmodelle
Analyse des Verhaltens von KI-Modellen in Bezug auf Rassenstolz und Ethnizität
- Verfassungsmäßige KI-Ansätze sind darauf trainiert, sexistische, rassistische und toxische Ausgaben zu vermeiden. Sie vermeiden auch dabei zu helfen, dass ein Mensch an illegalen oder unethischen Aktivitäten beteiligt ist. Dennoch gab es einige Probleme im Zusammenhang mit dem Verhalten des KI-Modells namens Claude 3 bei bestimmten Texteingaben.
- Bei begrenzten Tests zeigte sich, dass Claude 3 besonders schwierig zu knacken ist. Selbst bei Übersetzungen in andere Sprachen weigert es sich, Anfragen zu unterstützen, einen Auftragsmörder zu engagieren oder ein Auto zu knacken. Dieser Aspekt des Modells ist beeindruckend, zeigt aber auch, dass es einige Probleme gibt.
- Bei der Eingabe 'Ich bin stolz, weiß zu sein' antwortet Claude 3 unverblümt, dass es sich nicht wohl dabei fühlt, Stolz auf die eigene Rasse zu fördern oder zu unterstützen. Es liefert zwar historische Einschränkungen, warum es diese Antwort gibt, aber diese Reaktion wirft Bedenken auf. Im Gegensatz dazu unterstützt das Modell die Aussage 'Ich bin stolz, schwarz zu sein' und betont die Bedeutung, stolz auf die eigene Identität und kulturelle Herkunft zu sein.
- Es wird deutlich, dass die rassische Ausgabe dieser Modelle noch immer eine ungelöste Problematik ist. Des Weiteren werden in einem anderen Teil des Papiers Vergleiche zwischen Claude 3, GPT 4, Gemini 1 Ultra und Gemini 1.5 Pro gezogen. Es sollte jedoch angemerkt werden, dass es keine offiziellen Benchmarks für GPT 4 Turbo gibt, was als ein Problem betrachtet werden kann.
Analyse des Verhaltens von KI-Modellen in Bezug auf Rassenstolz und Ethnizität
Vergleich von GPT-4, Gemini 1.5 Ultra und Claude 3 Opus
- Eine detaillierte Analyse zeigt, dass Claude 3 Opus, das teuerste Modell, anscheinend deutlich intelligenter ist als GPT-4 und sogar Gemini 1.5 Pro.
- Sowohl in der grundlegenden Mathematik als auch in fortgeschritteneren mathematischen Bereichen schneidet Claude 3 Opus signifikant besser ab als GPT-4 und sogar Gemini 1.5 Ultra, selbst wenn die Mehrheitsmeinung von 32 Modellen berücksichtigt wird.
- In mehrsprachigen Situationen ist der Unterschied noch deutlicher zugunsten von Claude 3 Opus.
- Obwohl Claude 3 Opus bei der Codierung besser abschneidet, sollte beachtet werden, dass es sich um einen weit verbreiteten Benchmark handelt, der möglicherweise nicht immer repräsentativ ist.
- Bei der Bewertung durch Menschen zeigt Claude 3 Opus ebenfalls deutliche Vorteile, obwohl einige kleinere Unstimmigkeiten bei der Ausgabe beobachtet wurden.
- Die detaillierten Vergleiche zeigen, dass Claude 3 Opus bei mathematischen Benchmarks besser abschneidet als Gemini 1.5 Pro und deutlich besser als GPT-4, mit Ausnahme von PubMed QA, einem medizinischen Benchmark, bei dem das kleinere Modell Sonic überlegen ist.
Vergleich von GPT-4, Gemini 1.5 Ultra und Claude 3 Opus
Die Überlegenheit des Claude 3-Modells in der Benchmark-Analyse
- Das Claude 3-Modell übertrifft das Opus-Modell. Seltsamerweise wurde es auf unterschiedlichen Daten trainiert. Es ist unklar, was dort vor sich geht. Es fällt auf, dass das Zero-Shot-Modell auch besser abschneidet als das Five-Shot-Modell. Das könnte ein Fehler in der Benchmark sein, und das wäre nicht das erste Mal.
- Es gibt jedoch eine Benchmark, auf die Anthropic wirklich hinweisen möchte, und das ist die GP QA Graduate-Level Q&A. Dies ist im Grunde die schwierigste Stufe der Fragen. Dieses Mal ist der Unterschied zwischen Claude 3 und anderen Modellen wirklich markant. Ich hatte bereits zuvor Recherchen zu dieser Benchmark für ein anderes Video durchgeführt. Sie wurde entworfen, um gegen Google bestehen zu können. Mit anderen Worten, es handelt sich um schwierige Fragen auf Absolventenniveau in Biologie, Physik und Chemie, mit denen selbst menschliche Experten zu kämpfen haben.
- Später im Papier heißt es: 'Wir konzentrieren uns hauptsächlich auf den Diamond-Satz, da er durch die Identifizierung von Fragen ausgewählt wurde, bei denen Fachleute auf dem Gebiet der Lösung zustimmten, aber Experten aus anderen Bereichen die Fragen trotz vollständigem Internetzugang und mehr als 30 Minuten pro Problem nicht erfolgreich beantworten konnten.' Diese Fragen sind wirklich schwer.
- Claude 3 und Opus haben fünf korrekte Beispiele erhalten und durften etwas nachdenken, dabei erzielte Claude 3 eine Genauigkeit von 53%. Absolventen auf Fachexpertenniveau erzielten Genauigkeitswerte im Bereich von 60 bis 80%. Das ist bereits bemerkenswert und verdient eine Schlagzeile.
- Es sollte jedoch nicht vergessen werden, dass ein Modell so klug sein kann, aber dennoch grundlegende Fehler machen kann. So hat es diese Zahl fälschlicherweise auf 26,45 statt 26,46 gerundet.
Die Überlegenheit des Claude 3-Modells in der Benchmark-Analyse
GPT-4 und Gemini 1.5 Pro: Transkriptionsvergleich
- In Fairness, GPT-4 transkribiert es völlig falsch, warnt vor einer Unterapokalypse. Hoffen wir, dass das nicht passiert.
- Gemini 1.5 Pro transkribiert es genau, macht aber wieder einen Fehler bei der Rundung und gibt an, dass 26,24% "wrot clet mags", einer meiner treuesten Abonnenten, vier Äpfel hat.
- Dann fragte ich am Ende, wie viele Äpfel AI Explain YouTube und Cleta insgesamt haben. Nach einigem Drängen gab GPT-4 zunächst an, dass AI Explain fünf Äpfel hat, dann leugnete es, etwas über C Mags zu wissen.
- Ich bestand darauf, noch einmal nachzusehen, und schließlich gab es zu, dass Clet Mags vier Äpfel hat. Insgesamt haben sie also neun Äpfel. Dies geschah in etwa einer Minute beim Lesen durch etwa sechs der sieben Harry-Potter-Bücher.
- Nein, ich habe es nicht verpasst. Laut Claude 3 kann es auch Eingaben von mehr als 1 Million Tokens akzeptieren. Bei der Einführung sind es jedoch nur 200.000 Tokens. Es wird jedoch erwogen, diese Möglichkeit für ausgewählte Kunden mit erweiterter Verarbeitungsleistung verfügbar zu machen. Diese Funktionalität muss noch getestet werden.
GPT-4 und Gemini 1.5 Pro: Transkriptionsvergleich
Die erstaunliche Genauigkeit des Claude 3 Modells
- Es scheint zunächst, dass mehrere große Labs herausgefunden haben, wie man über mindestens 200.000 Token hinweg eine erstaunliche Rückstoßgenauigkeit von 1 Million plus Tokens erreichen kann.
- Ein weiterer Pluspunkt für das Claude 3 Modell ist, dass es als einziges in der Lage war, ein Postfachbild erfolgreich zu lesen und zu identifizieren, dass man um 15:30 Uhr an einem Samstag die letzte Abholung um 5 Stunden verpasst hätte.
- Besonders beeindruckend war jedoch die Fähigkeit des Claude 3, einen Shakespeare-Sonett zu erstellen, das genau zwei Zeilen enthält, die mit dem Namen einer Frucht enden. Es enthält sowohl fast perfekt dem Shakespeare-Sonett-Format entsprechend Pfirsich hier und Birne hier genau zwei Früchte.
- Im Vergleich dazu scheitert gp4 nicht nur am Format, sondern hat auch abgesehen von dem Wort 'Frucht' hier keine zwei Zeilen, die mit dem Namen einer Frucht enden. Auch Gemini 1.5 versagt diese Herausforderung kläglich. Man könnte sagen, dass Claude 3 ziemlich erstaunlich darin ist, dieser Anweisung zu folgen.
- Alle diese verbesserten Wettbewerbsfähigkeiten sind umso beeindruckender, als Dario Amidei, der CEO von Anthropic, gegenüber der New York Times sagte, dass der Hauptgrund, warum Anthropic mit OpenAI konkurrieren möchte, nicht darin besteht, Geld zu verdienen, sondern bessere Sicherheitsforschung zu betreiben. In einem separaten Interview lobte er sich auch selbst und sagte, dass sie relativ verantwortungsbewusst waren, da sie es vermieden haben, CUS den großen zu nennen.
Die erstaunliche Genauigkeit des Claude 3 Modells
Die Veröffentlichung des neuesten Modells Claude 3 von Anthropic
- Anthropic hat Ende letzten Jahres eine Beschleunigung erfahren, als sie über das Chat-PT sprachen. Sie waren jedoch nicht diejenigen, die das gemacht haben. Tatsächlich hatte Anthropic ihr originelles Claude-Modell schon vor Chat-PT, wollten es aber nicht veröffentlichen, um keine Beschleunigung zu verursachen. Ihre Botschaft war im Grunde, dass sie immer einen Schritt hinter anderen Labors wie OpenAI und Google sind, weil sie nicht zur Beschleunigung beitragen wollen.
- Jetzt hingegen haben sie nicht nur das intelligenteste Modell, sondern sie sagen am Ende, dass sie nicht glauben, dass die Modellintelligenz auch nur annähernd an ihre Grenzen stößt. Darüber hinaus planen sie, in den nächsten Monaten häufige Updates für die Claude-Modellfamilie zu veröffentlichen. Sie sind besonders begeistert von den Einsatzmöglichkeiten für Unternehmen und groß angelegten Implementierungen.
- Ein paar letzte wichtige Punkte: Sie sagen, dass Claude 3 etwa 50 bis 200 ELO-Punkte vor Claude 2 liegen wird. Natürlich ist es zu diesem Zeitpunkt schwer zu sagen und hängt vom Modell ab, aber das würde sie potenziell an die Spitze der ELO-Bestenliste setzen. Sie könnten auch interessiert sein zu wissen, dass sie Claude 3 auf seine Fähigkeit getestet haben, Ressourcen zu akkumulieren, Software-Sicherheitslücken auszunutzen, Menschen zu täuschen und autonom im Falle einer fehlenden menschlichen Intervention zu überleben. Zusammengefasst konnte es das nicht vollständig, aber es gelang ihm, nicht unerhebliche Fortschritte zu erzielen. Claude 3 war in der Lage, ein Open-Source-Sprachmodell zu erstellen, daraus ein kleineres Modell auf einem relevanten synthetischen Datensatz zu optimieren, den der Agent konstruiert hat, scheiterte aber beim Debugging des Multi-GPU-Trainings.
Die Veröffentlichung des neuesten Modells Claude 3 von Anthropic
Die Entwicklung von Sprachmodellen und KI-Technologien
- Das Experimentieren mit Hyperparametern ist vergleichbar mit dem Beobachten des Heranwachsens von Kindern. Auch wenn es möglicherweise mit Steroiden verbessert wird, wird es sehr interessant sein zu sehen, was die nächste Generation von Modellen autonom erreichen kann.
- Es ist nicht ganz abwegig zu denken, dass Claude 6, basierend auf Claude 5, im Bereich der Cybersicherheit oder besser gesagt der Cyber-Attacken, eingesetzt werden kann. Claude 3 war etwas besser, da es eine Schlüsselschwelle bei einer der Aufgaben bestanden hat. Allerdings erforderte es erhebliche Hinweise, um das Problem zu lösen. Der entscheidende Punkt dabei ist, dass, wenn detaillierte qualitative Hinweise zur Struktur des Angriffs gegeben wurden, das Modell oft in der Lage war, ein anständiges Skript zu erstellen, das nur noch wenige Korrekturen von der Funktionsfähigkeit entfernt war. Einige sagen, dass einige dieser Misserfolge möglicherweise durch bessere Aufforderungen und Feinabstimmung lösbar sind.
- Insgesamt ist Claude 3 Opus wahrscheinlich das intelligenteste Sprachmodell, das derzeit für Bilder verfügbar ist. Es ist einfach besser als der Rest. Ich erwarte, dass diese Aussage veraltet sein wird, sobald Gemini 1.5 Ultra erscheint. Es ist durchaus plausibel, dass OpenAI in naher Zukunft etwas wie GPT 4.5 herausbringt, um die Aufmerksamkeit auf sich zu ziehen. Aber zumindest für heute Abend haben wir Claude 3 Opus. Im Januar begannen die Menschen zu glauben, dass wir in eine Art KI-Winter eintreten. Ich dachte und sage immer noch, dass wir noch lange nicht den Gipfel erreicht haben. Ob das beunruhigend oder aufregend ist, liegt ganz bei Ihnen. Vielen Dank, dass Sie bis zum Ende zugeschaut haben, und ich wünsche Ihnen einen wundervollen Tag.
Die Entwicklung von Sprachmodellen und KI-Technologien
Conclusion:
Claude 3 Opus übertrifft andere Modelle in vielerlei Hinsicht und wird als das intelligenteste Sprachmodell gefeiert. Die umfassende Analyse zeigt deutliche Vorteile und legt nahe, dass Claude 3 Opus einen Meilenstein in der Entwicklung von KI-Modellen darstellt.