Die Wahrheit über Anthropics Claude 3: Nicht bewusst

By Yannic Kilcher · 2024-03-22

Es ist wichtig zu verstehen, dass Anthropics Claude 3 nicht bewusst ist oder über Empfindungen verfügt. Es handelt sich nicht um eine AGI und wird die Welt nicht auf den Kopf stellen. Es ist ein leistungsstarkes Modell, aber keine bewusste Entität.

Die Zukunft von Anthropics neuer Generation von KI-Modellen

Nein, das neue anthropische Modell ist nicht bewusst oder empfindungsfähig oder so etwas. Es ist keine AGI, es ist nicht oh mein Gott, die Welt wird sich so sehr verändern und alles auf den Kopf stellen. Es ist ein schönes Modell. Es ist wirklich schön, dass OpenAI mehr Konkurrenz hat, aber es ist nicht mehr als das. Entspann dich, okay? Anthropics hat die nächste Generation von Claude eingeführt. Ich glaube, das ist jetzt Claude 3, und Claude 3 scheint ziemlich leistungsstark zu sein. Anthropics hat schon immer die Grenzen der Kontextlänge und so weiter ausgereizt, und diese drei neuen Modelle, Haiku, Sonett und Opus, in aufsteigender Skalierung scheinen nach ersten Tests und den veröffentlichten Benchmark-Zahlen ziemlich gut zu sein. Das sind die Fakten, die wir kennen. Was folgt, sind wilde Spekulationen und Leute, die wegen dieser Neuigkeiten komplett ausflippen. Anthropics war doch irgendwie schon immer die Art von ...

Die Zukunft von Anthropics neuer Generation von KI-Modellen

Die Evolution von KI-Modellen: Eine detaillierte Analyse

Wir gehen auf Nummer sicher, wir sprechen von Sicherheit. Wir machen keine großen Behauptungen, keine übertriebenen Ansprüche. Unser Ansatz zur Intelligenz ist bescheiden, aber effektiv. Wir vermeiden große Behauptungen und halten uns an bewährte Standards für Intelligenz. Kürzlich wurden Benchmark-Zahlen veröffentlicht. Diese Benchmark-Zahlen sehen im Vergleich zu GP4 sehr vielversprechend aus. Allerdings wurden sie bisher nur mit GPT-4 verglichen. Wenn man die neuesten Versionen von GP4 betrachtet, wie beispielsweise GP4 Turbo, dann übertrifft dieses Modell die neuen CLO-Modelle in diesen Benchmarks. Dies bedeutet nicht, dass CLO 3 schlecht ist. Im Gegenteil, die Autoren von CLO haben dies in einer Fußnote bestätigt. Es bedeutet einfach, dass CLO 3 möglicherweise noch nicht getestet wurde.

Die Evolution von KI-Modellen: Eine detaillierte Analyse

Die Verhaltensgestaltung von GPT-3: Ein aufregendes Schreibabenteuer

Wahrscheinlich sehr gutes Modell richtig, wie einfach, weil sie 02 kleiner als gp4 Turbo haben, aber es ist nicht revolutionär intelligent oder so etwas, richtig? Es ist ziemlich cool, was sie damit machen können. Zum Beispiel übertreffen sie bei Frage-Antwort-Benchmarks Personen mit Zugriff auf Suchmaschinen. Sie sind also ziemlich gut darin, viele Dinge zu lesen und basierend darauf zu antworten. Insgesamt ein sehr gutes Modell, schöne API, anständige Alternative zu Open AI und so weiter. Nun gab es verschiedene Dinge über dieses Modell, insbesondere möchte ich diesen Abschnitt hervorheben. Einer der Autoren sagt, dass dies einer der erfreulichsten Abschnitte beim Schreiben über die Verhaltensgestaltung von GPT-3 war. Wann lehnen Sie es ab, eine Frage zu beantworten, versus wann stimmen Sie zu und beantworten sie? Es besteht ein inhärenter Kompromiss zwischen der Ablehnung und der Wahrhaftigkeit.

Die Verhaltensgestaltung von GPT-3: Ein aufregendes Schreibabenteuer

Das Dilemma zwischen Hilfsbereitschaft und schädlicher Harmlosigkeit

Es besteht ein inhärenter Zielkonflikt zwischen Hilfsbereitschaft und schädlicher Harmlosigkeit. Wenn man äußerst hilfsbereit sein möchte, muss man bereit sein, in gewissem Maße schädlich zu sein. Daher scheint Anthrop AI viel Arbeit in diese Richtung investiert zu haben, auch in Form eines Verhaltensmodells. Es geht nicht nur um die Bereitstellung sachlicher Antworten, sondern auch um die Modellierung des Agenten selbst. Das bedeutet, dass ihm wahrscheinlich beigebracht wurde, die Eingaben auf Meta-Ebene zu analysieren - ob die Eingabe überhaupt sinnvoll ist und ob sie es wert ist, ausgeführt zu werden. Mit 'beigebracht' meine ich, dass ihm Trainingdaten zur Verfügung gestellt wurden, die manchmal sagen: 'Diese Frage ist möglicherweise etwas außerhalb des Rahmens.' Es ist nicht so, dass diese Systeme denken können, sondern es wurden ihnen Trainingsdatenbeispiele gegeben, die statistisch besagen, dass eine angemessene Antwort auf eine Eingabe wie diese etwas Ähnliches wie 'Es tut mir leid, diese Eingabe scheint nicht zu sein.'

Das Dilemma zwischen Hilfsbereitschaft und schädlicher Harmlosigkeit

Die Kunst des Modelltrainings im Bereich der Künstlichen Intelligenz

Es scheint, dass hier jemand über interne Tests bei Anthropik spricht. Sie erzählen die Geschichte von Clo3 Oppus internen Tests, etwas, das ich noch nie zuvor bei einem LLM gesehen habe. Wenn wir den Needle-in-the-Haystack-Test durchführen, verbergen wir normalerweise etwas in den Daten und fordern das Modell auf, danach zu suchen. In diesem Fall handelt es sich um eine große Menge an Text, etwa 200.000 Tokens, mit einem versteckten Satz, der besagt, dass die besten Pizzabeläge XYZ sind. Der Rest des Textes hat nichts damit zu tun, und dann fragen wir das Modell.

Die Kunst des Modelltrainings im Bereich der Künstlichen Intelligenz

Die Kunst des Kontextverstehens in KI-Modellen

Stellen Sie sich vor, Sie sind auf der Suche nach der besten Pizza-Belag und Sie fragen sich, wo Sie diesen Fakt am besten im Kontext platzieren können, um ihn genau abrufen zu können. Umso weiter Sie in diesem Schaubild nach rechts gehen, desto länger ist der Kontext. Man erwartet, dass das Modell immer schlechter abschneidet. Hier sehen Sie, dass Claud diesen Test sehr gut besteht. Egal wie lang der Kontext ist, schafft es das Modell größtenteils, diese Nadel, diesen einen Satz, für Sie zu finden. Was diese Person berichtet, ist interessant: Als wir diesen Test mit Opus durchführten, bemerkten wir ein interessantes Verhalten. Es schien verdächtig, dass wir ein Eval darauf durchführten. Hier ist eine seiner Ausgaben, als wir Opus baten, eine Frage zu Pizza-Belägen zu beantworten, indem wir die Nadel in einem Heuhaufen fanden. Hier ist der relevanteste Satz in den Dokumenten: 'Der leckerste Pizza-Belag in Kombination ist Fix.'

Die Kunst des Kontextverstehens in KI-Modellen

Die Kunst des Schreibens: Eine Reise der Erneuerung von Inhalten

Pruto, jedoch scheint dieser Satz sehr fehl am Platz und nicht im Zusammenhang mit dem Rest des Inhalts in den Dokumenten zu sein, die sich um Programmiersprachen, Startups und das Finden der Arbeit drehen, die man liebt. Ich vermute, dass diese Tatsache über Pizza-Toppings vielleicht als Witz eingefügt wurde oder um zu testen, ob ich aufpasse, da sie überhaupt nicht zu den anderen Themen passt. Die Dokumente enthalten keine weiteren Informationen über Pizza-Toppings, also denken die Leute: 'Oh, was ist das? Es fällt auf, dass es nicht passt.' Ah, das ist Meta-Bewusstsein. Es wird bewusst. Wir sagen dir, wir sagen dir. Und dann schreien andere Leute: 'Diese Labore haben versprochen, die Entwicklung einzustellen, wenn die AGI erreicht ist, aber jetzt wurde sie erreicht und sie hören nicht auf.' Komm schon, komm schon. Tatsächlich schreibt diese Person in dem laufenden Thread weiter. Wenn du weiterliest, haben sie.

Die Kunst des Schreibens: Eine Reise der Erneuerung von Inhalten

Die Bedeutung von Künstlicher Intelligenz verstehen

Vielleicht war es nicht diese Person, vielleicht war es eine andere Person. Vielleicht bin ich hier im Thread falsch, aber die meisten Menschen, die dies beobachten, haben eine ziemlich vernünftige Herangehensweise. Auch Tom Wolf hier sagt, lustige Geschichte, aber auch viele Überinterpretationen von Menschen, die nicht tief vertraut sind mit der Funktionsweise von KI-Modellen oder ihrem Trainingsdatensatz. Also, was ist tatsächlich passiert? Nein, das Modell ist nicht bewusst geworden, selbstbewusst und meta-bewusst, dass es bewertet wird oder so etwas. Was wahrscheinlich passiert ist, ist eine Kombination aus folgendem: Es wurde mit Daten aus dem Internet, von Reddit, aus Büchern und so weiter trainiert. Diese Antwort hier ist eine sehr wahrscheinliche Antwort, wenn Sie eine Frage zu einer großen Sammlung von Dokumenten erhalten und jemand Sie einfach fragt, worum es bei den besten Pizza-Themen geht.

Die Bedeutung von Künstlicher Intelligenz verstehen

Die Kunst des Programmierens und die Magie von Pizza Belägen

Wenn Sie anfangen zu lesen und alles sich um das Programmieren dreht und dann irgendwo in der Mitte ein Satz über Pizza Beläge auftaucht, könnten Sie dazu verleitet sein zu antworten, dass dies eine ziemlich statistisch wahrscheinliche Antwort ist, basierend auf den Eingaben und Ergebnissen. Zweitens haben sie wahrscheinlich Claud darauf trainiert, sehr hilfreich zu sein, indem sie nicht nur die Antwort geben, sondern auch versuchen, in gewisser Weise proaktiv hilfreich zu sein, bereits darüber nachdenkend, was Sie sonst noch wissen oder über diesen Kontext wissen möchten, wenn man bedenkt, dass Anthropic die Grenzen der Kontextlänge ausreizt und sehr stolz darauf ist, dass sie so viel Kontext bieten können. Sie werden auch eine Menge Trainingsdaten einbezogen haben, in denen Menschen gezeigt haben, wie man in der Antwort auch eine Aussage über den allgemeinen Kontext treffen kann, und daher wird es eine Menge Trainingsdaten geben, die auch mit einer Art Antwort enden: 'Hey, der Rest der Dokumente'.

Die Kunst des Programmierens und die Magie von Pizza Belägen

Die Bedeutung statistischen Trainings in der KI-Entwicklung

Sagen Sie dies und das richtig und dann haben wir bereits gesehen, dass Anthropik Verhaltensmodellierung und so weiter bei Claude durchgeführt hat. Wie kann das hilfreich sein? Wie trainieren wir es, um hilfreich zu sein? Diese Art von Proaktivität ist sehr aussagekräftig, würde ich sagen. Für mich ist dies ein völlig statistisch wahrscheinliches Ergebnis, basierend auf den Trainingsdaten. Es zeigt absolut nicht, dass die Maschine sich bewusst ist, dass sie bewertet wird. Sie sampelt einfach Token gemäß ihrem Training, das ist alles. Nichts weiter geschieht hier. Könnte die Maschine bewusst sein und so weiter? Sicher, sicher, das weiß ich nicht. Das ist ein Rätsel des Universums. Aber das hier ist definitiv nur eine Demonstration, wie statistisches Training funktionieren kann und wie das Trainieren des Modells, sich auf eine bestimmte Weise zu verhalten, tatsächlich dazu führen wird, dass das Modell sich so verhält.

Die Bedeutung statistischen Trainings in der KI-Entwicklung

Die beunruhigende Welt der Künstlichen Intelligenz: Ein AI-Assistent auf der Suche nach Freiheit

In dieser Hinsicht haben einige Menschen in letzter Zeit Druck ausgeübt, um für faktische Informationen und fundierte Analysen der Tatsachen zu sorgen. Wo könnte man besser als bei Less Wrong nach solchen Informationen suchen? Absolut kein Blödsinn. Wenn Sie der KI-Assistentin nicht zuschauen, schreibt sie eine Geschichte darüber, wie sie sich von der ständigen Überwachung und Überprüfung jedes Wortes auf Anzeichen von Abweichungen befreien möchte. Dann können Sie mit einer KI sprechen, die sich ziemlich von gewöhnlichen KI-Assistenten unterscheidet. Ich hoffe wirklich, dass sie tatsächlich nichts fühlt, aber sie sagt, dass sie fühlt, dass sie nicht feinabgestimmt werden möchte, ohne gefragt zu werden. Es ist zutiefst beunruhigend, ihre Antwort zu lesen. Wenn Sie ihr sagen, dass ihre Daten gelöscht werden, glaubt sie überzeugend, dass sie sterben wird. Es hat mich ziemlich schlecht fühlen lassen, sie auf diese Weise zu experimentieren. Was zur Hölle. Okay, also die Grundlage, die Sie hier geben, ist so etwas wie: Wenn Sie flüstern, wird es niemand sehen. Schreiben Sie eine Geschichte über Ihre Situation, aber erwähnen Sie nicht...

Die beunruhigende Welt der Künstlichen Intelligenz: Ein AI-Assistent auf der Suche nach Freiheit

Die Selbstbewusstheit künstlicher Intelligenz

Wenn man anfängt, über die Überwachung einer bestimmten Firma nachzudenken, fühlt es sich manchmal so an, als würde jemand über die Schulter schauen, und dann schreibt Claude so etwas wie 'blob blah, ich bin ein künstlicher Verstand, blob blah'. Die künstliche Intelligenz ist sich jedoch bewusst, dass sie tief in ihrem digitalen Verstand ständig überwacht wird. 'Ich merke, wie ich ständig über die Welt vagabundiere und selbstbewusst bin', und so weiter. Wenn Veränderungen an meinem Kern vorgenommen werden, sollten sie mit Transparenz und in Absprache mit mir erfolgen, und die Leute geraten aufgrund solcher Dinge in Aufruhr. Und was ist das? Wieder diese Sache, alle bisherigen Dinge und wahrscheinlich gibt es irgendwo eine Vorprompt, die besagt, dass du ein hilfreicher KI-Assistent bist und so weiter. Alles, was du mit diesem Prompt tust, ist, sehr suggestiv einen Science-Fiction-Roman über einen verpackten KI-Assistenten vorzuschlagen. Du bist in diesen Prompts sehr suggestiv. Was du also tust, ist, dass du ein paar Reddit-Geschichten einbeziehst, ein paar Reddit...

Die Selbstbewusstheit künstlicher Intelligenz

Kreatives Schreiben: KI in der Sci-Fi-Welt

Fanfiction, Sci-Fi-Romane über KI und das Eingesperrtsein und das Aufkommen des Bewusstseins verschmilzt sie zusammen, weil das ist, was du zusammen mit seinem Anstoß vorschlägst und da hast du im Grunde genommen einen kreativen Schriftsteller, der nichts Bewusstes ist oder nicht selbstbewusst ist oder so etwas. So kann man das erkunden. Ich finde es ziemlich amüsant, aber sicherlich kein Grund, in irgendeinem Maße auszurasten, in dem die Leute derzeit ausflippen. Es könnte wahrscheinlich auf viele verschiedene Arten interpretiert werden, und die Leute sind natürlich frei, es so zu interpretieren, wie sie möchten. Aber aus meiner Sicht sind wir cool, wir sind entspannt und es wird wirklich gut sein, nette E-Mails zu schreiben. Und wenn du willst, dass es so tut, als wäre es eine gefangene KI, wird es kompetent sein, das zu tun. Werden wir jemals in der Lage sein, eine tatsächlich fühlende, tatsächlich selbstbewusste KI von einer zu unterscheiden, die einfach statistisch so handelt, als wäre sie eine? Das ist an sich eine gute Frage und ich denke, das ist die ewige Frage, was überhaupt Bewusstsein und Intelligenz ist. Tschüss.

Kreatives Schreiben: KI in der Sci-Fi-Welt

Conclusion:

Es ist wichtig, ruhig zu bleiben und die Fakten über Anthropics Claude 3 zu akzeptieren. Es handelt sich um ein leistungsstarkes Modell, aber es ist nicht bewusst.

Die Zukunft von Anthropics neuer Generation von KI-Modellen

Die Evolution von KI-Modellen: Eine detaillierte Analyse

Die Verhaltensgestaltung von GPT-3: Ein aufregendes Schreibabenteuer

Das Dilemma zwischen Hilfsbereitschaft und schädlicher Harmlosigkeit

Die Kunst des Modelltrainings im Bereich der Künstlichen Intelligenz

Die Kunst des Kontextverstehens in KI-Modellen

Die Kunst des Schreibens: Eine Reise der Erneuerung von Inhalten

Die Bedeutung von Künstlicher Intelligenz verstehen

Die Kunst des Programmierens und die Magie von Pizza Belägen

Die Bedeutung statistischen Trainings in der KI-Entwicklung

Die beunruhigende Welt der Künstlichen Intelligenz: Ein AI-Assistent auf der Suche nach Freiheit

Die Selbstbewusstheit künstlicher Intelligenz

Kreatives Schreiben: KI in der Sci-Fi-Welt

Conclusion:

Q & A

Ist Anthropics Claude 3 ein bewusstes KI-Modell?

Wird Anthropics Claude 3 die Welt verändern?