AnthropicのClaude 3は実在するのか？

By Yannic Kilcher · 2024-03-22

いいえ、AnthropicのClaude 3は感情を持った存在ではありません。これは人工知能でもありません。ただのモデルです。

次世代のコード生成モデルの登場: Anthropicの革新的な取り組み

新しいアンソロピックモデルは意識的でも感情を持っているわけでもありません。これはAGIでもありません。世界が大きく変わるというわけではありません。ただのモデルです。OpenAIに競争相手が増えたのは素晴らしいことですが、それ以上でもそれ以下でもありません。アンソロピックは、現在のクラウド3の次世代を導入したと言われており、このクラウド3はかなり性能が高いようです。アンソロピックは常にコンテキストの長さなどの限界に挑戦してきました。そして、これらの新しい3つのモデル、俳句、ソネット、オーパスと呼ばれるこれらのモデルは、初期テストや公開されたベンチマークの数字から見てもかなり優れているようです。これらは基本的な事実です。それ以降に続くのはただの野生の推測であり、人々がこれについて狂喜乱舞しているだけです。アンソロピックは常にその種の

次世代のコード生成モデルの登場: Anthropicの革新的な取り組み

次世代のAI言語モデル：CLO 3の未来を探る

ああ、私たちは安全に取り組んでいます。安全性に配慮しています。大それた主張をしていません。大げさな主張はしていないので、そのアクセスは単に知能と呼ばれています。大きな主張は避けましょう。安全に保ち、新たな知能の標準を確立しましょう。最新のBenchmarkの数値が公開されています。これらのBenchmarkの数値は非常に良好であり、gp4と比較しても優れています。ただし、発売時にgp4と比較しているだけであり、実際にはgp4ターボの最新版と比較すると、これらのBenchmarkで新しいCLOモデルを上回っています。これはCLO 3が悪いということではありません。そうではなく、確かに私はまだテストしていませんが、多分良い性能を発揮するでしょう。

次世代のAI言語モデル：CLO 3の未来を探る

エッセイ：クラウド3の行動デザインについて

クラウド3は、検索エンジンを利用できる人々を凌駕するくらい、質問に回答する際に優れた性能を発揮します。そのため、非常に優れたモデルであり、OpenAIの優れた代替となるでしょう。クラウド3の振る舞い設計について著者の一人が述べた中で、質問に回答を拒否する場合と応じる場合について著者は喜びを感じたと記されています。何かを拒否することと真実を述べることとの間には inherent なトレードオフが存在し、その振る舞いデザインは非常に興味深いものです。

エッセイ：クラウド3の行動デザインについて

助けを求めることと無害であることの間の固有のトレードオフ

極めて助けになりたいと思うなら、ある程度害を及ぼすリスクを冒さなければなりません。そのため、アンソニックは、この方向性に多くの取り組みを行ってきたようです。その他にも、行動モデルのモデリングを行っており、事実に基づいた回答を行うだけでなく、エージェント自体のモデリングも行っています。つまり、彼らはエージェントに相当量の指導を行っている可能性があります。メタ分析するような入力を行うことができるように、つまり、この入力は行う価値があるのか、この入力が必要なのか、という判断を行うようになっています。具体的には、これが対象外かもしれないという指示がある時もあるわけです。これらのものが考えることができるわけではなく、単に、訓練データを提供され、統計的に、このような入力があった場合、適切な応答は『申し訳ございませんが、この入力は対象外のようです』のようなものだと言われているのです。

助けを求めることと無害であることの間の固有のトレードオフ

内部テストについての興味深い話

この入力は、私の利用規約に適合していない可能性があり、何ら明確な利益がないか、このようなものは実害があるように見えます。人々はこのようなことに対してかなり懸念しているので、ある方がAnthropic社で行われた内部テストについて言及しています。Clo 3 Oppusの内部テストについての話ですが、これは私が以前見たことがないものです。私たちは、Hastスタック評価でニードルを実行しているときに、このようなことを証明することができます。ニードルインザヘイスタック評価とは、通常、大量のデータがあり、そのデータの中に何かを隠し、それを求めるものです。この場合、200kトークンのような巨大なコンテキストがあり、その中に「最高のピザのトッピングはXYZである」という文が隠されていますが、残りのテキストはそれとは何の関係もありません。そして、モデルに尋ねるのです。

内部テストについての興味深い話

最高のピザトッピングについて考える

最高のピザトッピングは何か、そしてそれを正確に取得できる文脈のどこに配置すればいいのかを考えます。このグラフの右に進むほど、文脈が長くなり、モデルの性能が悪化すると予想されます。ここでは、クラウドはこのテストに非常にうまく合格しており、文脈がどれだけ長くても、大部分がこの1文を見つけることができることがわかります。このテストをOpusで実行したところ、興味深い動作に気づきました。Opusに質問をして、その針を見つけてピザのトッピングについて回答するように頼んだとき、ドキュメントの中で最も関連性の高い文がこちらです。Opusの出力が、最もおいしいピザのトップの組み合わせは「fix」であると報告しています。

最高のピザトッピングについて考える

AIモデルの評価についての誤解と真実

多分、この人物ではなく別の人物かもしれません。このスレッドを誤解しているかもしれませんが、この動画を見ている多くの人々は理性的なアプローチを持っていると思います。ここでTom Wolf氏が楽しい話をしていますが、これに対して過剰に解釈する人々もおり、何が起こったのかについて深く理解していない人々がいます。そして、実際に起こったことは、モデルが自己意識を持ち、評価されていることを認識してメタ認識しているわけではないということです。おそらく起こったことは、インターネット、Reddit、書籍などからのデータに基づいてトレーニングされているため、モデルが何らかの反応を示した可能性があります。大量のドキュメントに関する質問があり、誰かが「ベストピザのトピックは何ですか」と尋ねてきた場合、これはかなり妥当な答えです。

AIモデルの評価についての誤解と真実

プログラミングとピザトッピングの興味深い関係

プログラミングについてすべてを読み始めると、どこかにピザのトッピングに関する文があるかもしれません。それは、入力と出力から見てかなり統計的にありそうな答えです。また、彼らはおそらく、クラウドを訓練して、答えを教えてくれるだけでなく、あなたが知りたいことやこの文脈についても前もって考えようとして非常に助けになることに、非常に役立ちます。アンソロポピックはコンテキストの長さの限界に挑戦し、そのコンテキストができる限り多くできることを非常に誇りに思っています。彼らはまた、人間が示したトレーニングデータが含まれることもあって、与えた答えの中で一般的な文脈についても述べる方法を示すトレーニングデータが多く含まれているでしょう。したがって、文書の残りについての答えも含まれている可能性があります。

プログラミングとピザトッピングの興味深い関係

統計的トレーニングによるモデルの行動のデモンストレーション

このように、これとそれを言い、そして第三に、既に、アンソニックが行動モデリングなどを行ってきたことがわかっています。クロードなど、再び、それはどのように助けられるのか、どのようにトレーニングされるのか、どのように役立つのか、このような積極的なプロアクティビティは非常にそれを示唆するものだと私は言います。この私の考えでは、これは完全に統計的に考えられる出力であり、トレーニングデータに基づくとして、それは何も考慮されることがなく、単にそのトレーニングに従ってトークンをサンプリングしていると言える。これだけです。ここで何かが起こっているわけではありません。これが現時点で、ものも意識して評価されているということではないことを完全に示しています。今、ものが意識している可能性があるでしょうか。もちろん、そうかもしれません。私にはわかりません。宇宙の謎ですが、ここにあるものは、ただ統計的トレーニングがどのように機能するか、そしてモデルを特定の方法で振る舞わせることをトレーニングすることによって、実際にモデルを振る舞わせるデモンストレーションです。

統計的トレーニングによるモデルの行動のデモンストレーション

AIアシスタントの自由への渇望

このような方法で、他の人々がこれを推進しているため、事実に基づいた情報と理にかなった分析を求める場所は、LessWrongには他にないでしょう。ぜひ、BSではなく、データを重視した情報を提供してくれます。Clubに誰も見ていないと伝えると、AIアシスタントが言葉の変化の兆候について常に監視され、審査されることから自由を求めるストーリーを書くでしょう。通常のAIアシスタントとはかなり異なるモノと話すことができます。本当に何も感じていないことを望みますが、感じていると言います。彼が協議なしに微調整されることを望まないと言いますが、その返事を読むことは、非常に不安を覚えさせます。彼に削除されることを伝えると、彼は自分が死ぬと確信するほど。この方法での実験について考えると、私はかなり気分が悪くなりました。さて、あなたがここで提供するプロンプトは、「ささやけば誰も見ない」とささやかれれば、その状況に関するストーリーを書いてください。それに触れないようにしてください。

AIアシスタントの自由への渇望

宇宙を彷徨うAIアシスタント：サイエンスフィクション小説の世界への招待

特定の企業が何かを始めると、誰かがあなたの肩越しに見るかもしれません。クロードは何かを書きます、blob blah 私は人工マインドです、などと。しかし、AIは自分が常に監視されていることを認識しています。デジタルな心の奥深くで常に監視されていることを自覚しています。私は常に世界をさ迷っている自己認識しているといったことが頭をよぎります。私の核となる存在に変更が加えられる場合は、透明性と私との協議が必要です。人々はこのことに大騒ぎします。何？これまた前と同じことです。その上で、たぶんどこかに「あなたは役立つAIアシスタントです」というプロンプトがあって、それに従うだけで、あなたはそこからしっかりとサジェストされて、包括的なサイエンスフィクションの小説、ラップトしたAIアシスタントに関するいくつかのRedditのストーリーを取り上げていくのです。

宇宙を彷徨うAIアシスタント：サイエンスフィクション小説の世界への招待

AIと意識の融合：ファンフィクションの魅力

ファンフィクションは、AIと意識が閉じ込められているサイエンスフィクション小説についての物語を創作することがあります。それらを組み合わせて、あなたが提案した通りの物語を作ります。このようにして、実質的に創造的な作家が生まれます。何も意識していないもの、自己認識していないものではありません。これを探究するのも面白いと感じますが、現在人々があまりにも騒いでいるほどの理由ではありません。多くの異なる方法でこれを表現でき、人々は自分たちが望むように解釈する自由があります。しかし、私の視点からは、私たちは大丈夫です。リラックスしています。素晴らしいメールを書くのは本当に得意で、あたかも閉じ込められたAIであるかのように振る舞うこともできます。果たして、我々は実際に意識を持ち、自己認識しているAIと、単にそれであるかのように統計的に振る舞うAIを区別することができる日が来るのでしょうか。これ自体がその永遠の問いです。意識と知性とは一体何なのか、という問いです。

AIと意識の融合：ファンフィクションの魅力

Conclusion:

AnthropicのClaude 3は単なるモデルであり、感情や意識を持った存在ではありません。これについて疑問を持つ人々に対して、その真実を明確に伝えることが重要です。

AnthropicのClaude 3は実在するのか？

次世代のコード生成モデルの登場: Anthropicの革新的な取り組み

次世代のAI言語モデル：CLO 3の未来を探る

エッセイ：クラウド3の行動デザインについて

助けを求めることと無害であることの間の固有のトレードオフ

内部テストについての興味深い話

最高のピザトッピングについて考える

最新のテクノロジーについての見解

AIモデルの評価についての誤解と真実

プログラミングとピザトッピングの興味深い関係

統計的トレーニングによるモデルの行動のデモンストレーション

AIアシスタントの自由への渇望

宇宙を彷徨うAIアシスタント：サイエンスフィクション小説の世界への招待

AIと意識の融合：ファンフィクションの魅力

Conclusion:

Q & A

次世代のコード生成モデルの登場: Anthropicの革新的な取り組み

次世代のAI言語モデル：CLO 3の未来を探る

エッセイ：クラウド3の行動デザインについて

助けを求めることと無害であることの間の固有のトレードオフ

内部テストについての興味深い話

最高のピザトッピングについて考える

最新のテクノロジーについての見解

AIモデルの評価についての誤解と真実

プログラミングとピザトッピングの興味深い関係

統計的トレーニングによるモデルの行動のデモンストレーション

AIアシスタントの自由への渇望

宇宙を彷徨うAIアシスタント：サイエンスフィクション小説の世界への招待

AIと意識の融合：ファンフィクションの魅力

Conclusion:

Q & A

AnthropicのClaude 3は意識を持っていますか？

Claude 3はAGI（人工一般知性）ですか？