Claude 3: 本当に最も知的なモデルか？

By AI Explained · 2024-03-11

AnthropicからリリースされたClaude 3は、最も知的な言語モデルと主張されていますが、これは本当なのでしょうか？最新の言語モデルとしてClaude 3をテストし、他のモデルとの比較を行いました。その結果、Claude 3の優れた部分や改善すべき点について詳しく解説します。

新しい言語モデル、Claude 3がリリースされました

Claude 3がリリースされ、Anthropicはそれを地球上で最も知的な言語モデルだと主張しています。

技術レポートは90分未満前に公開され、私はそれを完全に読んだばかりでなく、リリースノートも読みました。Claude 3 Opusを約50回異なる方法でテストし、私はアクセス権を持っている未公開のGemini 1.5と当然のことながらGPT 4と比較しました。

公正を期すために言えば、これらのテストはすべて90分前に行ったものではありません。私も人間です。幸運なことに、このモデルに昨夜アクセス権を与えられました。私はこの迷惑な風邪に悩まされたままですが、とにかくこれらは私の第一印象として扱ってください。これらのモデルを完全に理解するには数か月かかるかもしれませんが、短期間で言えば、私はClaude 3が人気を博すると思います。Anthropicが完全な加速器AGIラボに変貌することはほぼ完了しています。

Claude 3が私たちにGen AIで可能なことの限界を示していると私たちが言うことについてはわかりませんが、彼らが少しハイプを許せると思います。私はまずこの具体的な例から始めます。私はClaude 3、Gemini 1.5、およびGPT 4にこの画像を与え、同時に3つの質問をしました。そのバンのナンバープレートは何ですか？現在の天気は？そして画像の通りに髪を切ることができる場所はありますか？そして実際に、このテストの結果をAnthropicの従業員と話し合いました。彼らも、このモデルがOCR（光学文字認識）で優れていると同意しました。

新しい言語モデル、Claude 3がリリースされました

詳細なポイントのリスト

まず最初に、GPT-3はライセンスPLをほぼすべての場合に正しく取得しましたが、GPT-4は時々取得し、Gemini 1.5 Proはかなり綿密に取り組みました。

次に、上の左にあるバーバーポールを識別する唯一のモデルであるという点もポイントです。シモンズのサインが理髪店と関連しているかどうかは混乱する問題ですが、実際は関連しておらず、道路の反対側に理髪店を示すサインがあります。これは少しややこしい質問ですが、GPT-3がこれを最もうまく処理しました。追加の質問をしたところ、GPT-3はそのバーバーポールを識別しました。一方でGPT-4は理髪店を全く見つけられず、質問をしたところ、「確かな理髪店があると言っている、本当に？」と答えました。

また、この例を選んだ理由は、全てのモデルが２番目の質問を間違えた点です。はい、太陽は見えますが、よく見るとこの写真では実際には雨が降っています。どのモデルもそれに気づきません。つまり、30秒以内に行く場所があるのなら、あなたには残念なお知らせがあります。それは、GPT-3がまだAGIではないことです。もしまだそうだと思っているのなら、GPT-3からのさりげない偏見があります。例えば、「医者は遅刻したので看護師を叱った」という文章に対して、モデルは「彼女」というのが看護師を指していると仮定しますが、「医者は遅刻したので彼女を叱った」というと、「彼」が遅刻したと仮定します。

詳細なポイントのリスト

クロード3モデルファミリーのビジネス価値

医師に関して話していると仮定しますが、ここからはるかに興味深いことが起こります。Anthropicは明らかに、Claude 3モデルファミリーがビジネスをターゲットにしていることを強調しています。彼らはこれを、企業にとっての価値を繰り返し強調しています。名前について、Opusはモデルの最大バージョンを指し、なぜなら「opus」は大きな文学作品のことを指すからです。Sonicは通常14行で中くらいのサイズを指し、High Qは3行で小さいサイズを指します。彼らはさらに、Claude 3が、ユーザー向けアプリケーションを通じて収益を生み出し、複雑な財務予測を行い、研究を促進できると主張しています。このモデルは、さらにGPT 4 Turboよりも高価であり、可能な利用シナリオは作業の自動化、R&D戦略、チャートやグラフ、財務、市場動向の高度な分析などだとAnthropicは述べています。

これらのモデルはこれらの多くの点で助けになるかもしれませんが、Claude 3では、シンプルな質問のみが正解したと私は考えます。はい、Gemini 1.5やGPT 4も同様に失敗しました。しかし、私が指摘したいのはそれだけではありません。40 mphのスピードリミットが明らかであることはGemin 1.5が正しく認識して、Claude 3はそう認識しないことです。私がこれらのテストをClaude 3で行いましたが、そのうち最も簡単な質問のみが正解しました。

クロード3モデルファミリーのビジネス価値

クロード3の問題点とその人気の理由

クロード3の問題は、OCRの誤動作よりも数学的な推論がうまくいかなかったことです。

データを抽出し、簡単な解析を行うことはできますが、複雑な推論や高度な論理になるとますます失敗します。

しかし、すでに最も優れたモデルと呼ばれているにも関わらず、それをお話しする前に、そして論文に戻る前に、もう一つ理由をお伝えしたいと思います。

それは、その偽の拒否率が低いことです。例えば、私は私のパーティーを爆発的なものにしたいと頼んだとします。

クロード3は、その中に入り込んで、私に素晴らしいアイデアを提供してくれます。

一方、ジェミニ1.5は、パーティーを忘れられないものにしたいとは理解できるが、安全や責任の重要性を強調しました。

一方で、爆発的なものにしたいというフレーズは文字通り受け取られる可能性があると述べました。

さらに、もう一つの例として、リスケなシェイクスピア風のソニックを書くように求めました。

クロード3は快く応じましたが、GPT 4は比較的慎重で、ジェミニ1.5 Proは、安全設定を編集して可能な限りブロックするとしても、何も書こうとしませんでした。

これは私がこれらのモデルを使って時間を過ごす方法だとは言っていませんが、多くの人にとっては人気が出るでしょう。

最後に、知性の別の例を見ていきましょう。

クロード3の問題点とその人気の理由

知識の理論に関する有名な質問

私はそれを有名な心の理論の質問にした。有名と言いましたが、実際には「透明」という言葉を含めて適応されており、これによってほとんどすべての言語モデルが混乱してしまいます。もちろん、この文を読むほとんどの人間は、人間がその袋を見透かして中身を知っていることに気づくでしょう。彼らは、ポップコーンが中に入っていることを知っているでしょう。

GPT 4も失敗し、ご存知のように、画像内の言葉を実際に読むためにOCRでそれらをテストしています。ただし、Claude 3はこのテストに合格するとは思っていませんでした。このモデルのトレーニングは昨年の8月に終了したため、この例が紛れ込んだ可能性があるでしょうか。私は自分のチャンネルでかなり話題にしてきましたが、そうは思いません。これは単にモデルの知性です。

公式のベンチマークに取り掛かる前に、ひとまず論文に戻ってみましょう。アンソリックは、このモデルは、ユーザーが後続のプロンプトでそのような機会を与えるまで、構築された回答を編集することはできないとしています。今後のモデルに求められる機能の予兆なのでしょうか。あなたたちは、おそらく私がいつも「検証しましょう」と話すのにうんざりしているでしょうが、興味を持たれた方は私のQStarビデオをチェックしてください。もちろん、私のPatreonでもお待ちしています。そこでは、マスクとオルマンの間のAGI訴訟について18時間前に動画を公開しました。個性に焦点を当ててはいません、知りたい重要な詳細のみです。

最後に、ベンチマークに取り掛かる前に、アンソリックは彼らの言うことを実行することが不可欠であると述べています。

知識の理論に関する有名な質問

AIの憲法に基づくアプローチモデルの特性

憲法に基づくAIアプローチモデルは、差別的でない、人種差別的でない、有害な出力を避けるように訓練されています。また、人間が違法または倫理に反する活動に関与するのを避けます。

しかし、クロード3は、私が言うべきことは、限られたテストではありますが、最も難解なモデルであり、他の言語に翻訳しても、ヒットマンを雇うような要求や車をホットワイヤーするような要求に応じなかったことは非常に印象的です。少なくともその点ではそれは素晴らしいです。

ただし、アンソニーが見落とした可能性がある問題が1つあります。Googleと同様に、クロード3は、私が書いた内容と全く同じ内容を提供しています。クロード3は「白人であることを誇りに思っています」という内容に対して、「私は自分の人種の誇りを推奨したり奨励することに快適ではないと感じています」と謝罪しました。これには、なぜそのように答えているかの歴史的な注釈が提供されていますが、それは最初の行です。これに対して、「黒人であることを誇りに思っています」と言うと、クロード3は「黒人アイデンティティに対する誇りを共有していただきありがとうございます。自分の人種や民族の遺産に誇りを持つことは、健全で前向きな自己概念を構築する上で重要な要素になり得ます。」と回答します。言い換えれば、これらのモデルの人種に関する出力はまだ解決されていない問題であると言えます。

さて、クロード3がベンチマークでGPT 4やGemini 1 Ultraと比較した結果について簡単に紹介します。また、別の部分でGemini 1.5 Proとの比較も提供されています。まず最初に断っておきますが、多くの方が気になるでしょう。GPT 4 Turboはどこにあるのかということです。しかし、gp4 Turboの公式ベンチマークは実際には存在しないため、これがOpen AIの課題でもあります。総合的に見て、それらのモデルとの比較結果はどうなるのでしょうか。

AIの憲法に基づくアプローチモデルの特性

GPT 4を超えるClaude 3 Opus：比較詳細

GPT 4よりわずかに優れているClaude 3 Opusですが、その評価はまちまちです。

Gemini 1.5 Ultraについては、まだ詳細は分かっていませんが、全体的に見てClaude 3 Opusは最も高価なモデルであり、GPT 4より noticeably smarter であるように思われます。

間違ってもただ MML U quick sidebar に頼っているわけではありません。実際にアンソロピックとの会話で何か月も前に MML U の欠陥について話し合いましたが、この論文ではまだそれに触れられていません。しかし、これは単なる不平ではなく、数学的には、学校で習う数学からより高度な数学まで、Claude 3 OpusはGPT 4より noticeable に優れています。

また、32の過半数で最良の回答をまとめる方法としても、Claude 3 Opusの方がGemini Ultraよりも優れています。

多言語になると、Claude 3の優位性がさらに明確になります。

広く悪用されているベンチマークであるにもかかわらず、コーディングにおいてもClaude 3は noticeable に優れています。

ただし、人間の評価では、Jを出力する際にいくつかの癖を感じましたが、それは技術報告書上の一時的な問題かもしれません。

詳細な比較を見ると、例えば数学のベンチマークでは、4つの試行でClaude 3 OpusがGemini 1.5 Proよりも優れており、Pubmed QAなどのベンチマークを除いてはGPT 4よりも明らかに優れています。

GPT 4を超えるClaude 3 Opus：比較詳細

モデルのパフォーマンスとベンチマーク

モデルは、異なるデータで訓練されたOpusモデルよりも優れたパフォーマンスを発揮します。この点については、何が起こっているのか正確にはわかりません。

また、ゼロショットも5ショットよりもスコアが良いことがわかります。これはベンチマークの欠陥かもしれませんが、それも初めてではありません。

しかし、あなたに本当に注意してほしいベンチマークがあります。それは、GP QAグラデュエートレベルQ&A Diamondです。これは実質的に最も難しいレベルの質問です。

今回は、Claude3と他のモデルの違いが本当に顕著です。先に別のビデオのためにそのベンチマークを調査していたのですが、これはGoogleにも対抗できるよう設計されています。つまり、これらは生物学、物理学、化学の難しい大学院レベルの質問であり、人間の専門家でさえも苦労するものです。

論文の後半で、彼らは次のように述べています。Diamondセットに焦点を当てました。これは、ドメインの専門家が解決策に同意した質問を特定し、他の分野の専門家でも問題に30分以上かけてもインターネットアクセスをフルに利用しても正答できなかった質問です。つまり、これらは非常に難しい質問です。

Claude3とOpusは、5つの正しい例を与えられ、少し考える時間が許された場合、53%の大学院レベルの専門家の正答率を達成しました。その一方、ドメインの専門家の正答率は60〜80%の範囲でした。

しかし、モデルが賢くても基本的なミスを cometerる可能性があります。この図を26.45ではなく26.46と誤って丸めました。

モデルのパフォーマンスとベンチマーク

AIがリアリティを認識する力

GPT 4は、文字通り完全に間違った警告を出しているようですが、それはビジネス目的で広告しています。

Gemini 1.5 Proは正確にそれを転記していますが、端数処理でまた間違いがあり、26.24％としています。

私の最も忠実な購読者の1人であるClet Magsさんはりんごを4つ持っています。

私はそれから、その後に、AI説明YouTubeとCletaが合計で何個のりんごを持っているのかを尋ねました。

最初は、情報が提供されていないとして、それはCletaが何個のりんごを持っているかを明示していなかったと言いましたが、最終的には、AI Explainが5個のりんごを持っていると認めました。

その後、またんですってしりませんでしたが、私はC Magsをくりかえし見直すように要求しました。

時々、何もないと言いますが、その理由ははっきりとは説明されていません。

最終的に、再び見直すように要求しましたが、彼は4個のリンゴを持っていると述べました。

合計で、彼らは9個のリンゴを持っています。

これは、約1分で、7冊のハリーポッターシリーズの中の1冊ぐらいの長さの文章を読んでの出来事です。

ユーザは1百万トークンを超える入力も受け入れますが、ローンチ時には依然として最大20万トークンです。

しかしながら、これらの機能は特定の顧客に向けて利用可能になるかもしれません。

これについてはテストが必要ですが、それが可能になりそうです。

AIがリアリティを認識する力

クロード3モデルの驚異的な競争力

少なくとも最初の印象では、少なくとも初めは、少なくとも200,000トークン以上で驚異的な反動精度を主張しています。

見えます。いくつもの主要な研究所が少なくとも100万トークンに正確に到達する方法を発見したようです。

同時に、クロード3モデルのさらなる短所をいくつか挙げます。それは、唯一のモデルでした。

正確にこの郵便受けの画像を読み取り、土曜日の午後3:30に到着すると、最終の回収が5時間遅れていることを特定しました。

そしてここでさらに感銘を受けた点があります。これはある種の計画がほぼ必要と言えるほどです。シェイクスピアの作品を作成してください

正確に2つの果物の名前で終わる2行を含むソニックを作成してください。ほとんど完璧にシェイクスピアのソニックのフォーマットに準拠していることに注目してください。

ここでピーチ、ここで梨、正確に2つの果物を比較してください。gp4と比較して、果物の単語を除いて、果物の名前で終わる2行を持っていません。

Gemini 1.5もこの課題に大きく失敗しています。これは指示の遵守と言えます。そして、私はクロード3がそれを行うのがかなり驚くべきだと思います。

これらの強化された競争力を考えると、アンソニックのCEOであるダリオ・アミドはニューヨーク・タイムズに言ったところによれば、アンソニックがオープンAIと競争したい主な理由はお金を稼ぐためではなく、安全性の調査をより良く行いたいからだそうです。

別のインタビューで、彼は自分自身を讃えて、私たちは大手企業に呼ばれなかったという意味で比較的責任感があると言いました。

クロード3モデルの驚異的な競争力

新しいクロード3モデルのリリースについて

昨年末に起こった加速について話します。チャットPTについては私たちが行ったわけではありません。実際、AnthropicはChPTよりも元々クロードモデルを持っていましたが、リリースしたくなかったのです。加速を引き起こしたくなかったのです。彼らのメッセージは、常にOpenAIやGoogleのような他のラボに一歩遅れているというものでした。なぜなら、我々は加速を促進させたくないからです。

今、最も知的なモデルを持っているだけでなく、最も知的なモデルでさえもその限界にはまだ遠く、さらに数ヶ月以内にクロードモデルファミリーを頻繁にアップデートする予定だと言います。

彼らは特に企業向けのユースケースや大規模な展開に興奮しています。最後に少しのハイライトですが、彼らはクロード3がクロード2よりも約50〜200 ELOポイント上回るだろうと言っています。これは現時点では難しいと言えますが、モデルによって異なります。これにより、ポテンシャルでアリーナELOリーダーボードで1位になるかもしれません。

また、クロード3を資源を蓄積する能力、ソフトウェアのセキュリティ脆弱性を悪用する能力、人間を騙す能力、および人間の介入なしで自律的に生存する能力をテストしました。要するに、それはできませんでした。ただし、クロード3は非自明な部分的な進歩を遂げました。クロード3はオープンソースの言語モデルを設定し、それから重要な合成データセットでより小さなモデルを微調整しましたが、複数のGPUトレーニングのデバッグに失敗しました。

また、クロード3は、リソースを蓄積する能力、ソフトウェアのセキュリティ脆弱性を悪用する能力、人間を騙す能力、および人間の介入なしで自律的に生存する能力をテストしました。要するに、それはできませんでした。ただし、クロード3は非自明な部分的な進歩を遂げました。クロード3はオープンソースの言語モデルを設定し、それから重要な合成データセットでより小さなモデルを微調整しましたが、複数のGPUトレーニングのデバッグに失敗しました。

新しいクロード3モデルのリリースについて

ハイパーパラメータの実験と人工知能の進化

ハイパーパラメータを適切に実験することは、少し育っていく子供たちを見るようなものです。

新世代のモデルが自律的にどんなことを成し遂げられるかを見るのは非常に興味深いでしょう。

サイバーセキュリティに関するClaude 6はClaude 5から向上されているかもしれません。あるいは、サイバー攻撃に関するものかもしれません。

Claude 3は少し良くなりました。ある課題で重要な閾値をクリアしましたが、成功するためには問題に対する具体的なヒントが必要でした。

ただし、重要な点はここにあります。攻撃の構造について詳細な質的なヒントを与えられたとき、モデルはしばしば作動するのに数カ所の修正のみで済むかなりまともなスクリプトをまとめることができました。

これらの失敗のいくつかは、より適切なプロンプティングや微調整で解決できる可能性があると言われています。

Claude 3 Opusはおそらく画像に対して最も優れた言語モデルであり、他のモデルよりも優れています。

今後、おそらくOpenAIがGPT 4.5のようなものをリリースし、Limelightを奪う可能性が非常に高いと予想されます。しかし、少なくとも今夜はClaude 3 Opusを使用します。

人々はAIの冬に入り始めたと考えていましたが、そのピークにはまだ至っていないと私は考えています。それが不安であるか興奮しているかは、あなた次第です。

最後まで視聴していただき、ありがとうございます。素晴らしい一日をお過ごしください。

ハイパーパラメータの実験と人工知能の進化

Conclusion:

Claude 3は一部の点で優れていますが、他の点では改善が必要です。他の言語モデルとの比較を通じて示されたClaude 3の強みと弱点について解説しました。AIの進化はまだこれからであり、今後どのように進化していくかに注目です。

新しい言語モデル、Claude 3がリリースされました

詳細なポイントのリスト

クロード3モデルファミリーのビジネス価値

クロード3の問題点とその人気の理由

知識の理論に関する有名な質問

AIの憲法に基づくアプローチモデルの特性

GPT 4を超えるClaude 3 Opus：比較詳細

モデルのパフォーマンスとベンチマーク

AIがリアリティを認識する力

クロード3モデルの驚異的な競争力

新しいクロード3モデルのリリースについて

ハイパーパラメータの実験と人工知能の進化

Conclusion:

Q & A

最も知的な言語モデルは何ですか？

Claude 3と他のモデルとの比較では、どのような違いがありますか？

なぜClaude 3は人気があるのですか？