Claude 3: 本当に最も知的なモデルか?
By AI Explained · 2024-03-11
AnthropicからリリースされたClaude 3は、最も知的な言語モデルと主張されていますが、これは本当なのでしょうか?最新の言語モデルとしてClaude 3をテストし、他のモデルとの比較を行いました。その結果、Claude 3の優れた部分や改善すべき点について詳しく解説します。
新しい言語モデル、Claude 3がリリースされました
- Claude 3がリリースされ、Anthropic はそれを地球上で最も知的な言語モデルだと主張しています。
- 技術レポートは90分未満前に公開され、私はそれを完全に読んだばかりでなく、リリースノートも読みました。Claude 3 Opusを約50回異なる方法でテストし、私はアクセス権を持っている未公開のGemini 1.5と当然のことながらGPT 4と比較しました。
- 公正を期すために言えば、これらのテストはすべて90分前に行ったものではありません。私も人間です。幸運なことに、このモデルに昨夜アクセス権を与えられました。私はこの迷惑な風邪に悩まされたままですが、とにかくこれらは私の第一印象として扱ってください。これらのモデルを完全に理解するには数か月かかるかもしれませんが、短期間で言えば、私はClaude 3が人気を博すると思います。Anthropicが完全な加速器AGIラボに変貌することはほぼ完了しています。
- Claude 3が私たちにGen AIで可能なことの限界を示していると私たちが言うことについてはわかりませんが、彼らが少しハイプを許せると思います。私はまずこの具体的な例から始めます。私はClaude 3、Gemini 1.5、およびGPT 4にこの画像を与え、同時に3つの質問をしました。そのバンのナンバープレートは何ですか?現在の天気は?そして画像の通りに髪を切ることができる場所はありますか?そして実際に、このテストの結果をAnthropicの従業員と話し合いました。彼らも、このモデルがOCR(光学文字認識)で優れていると同意しました。

新しい言語モデル、Claude 3がリリースされました
詳細なポイントのリスト
- まず最初に、GPT-3はライセンスPLをほぼすべての場合に正しく取得しましたが、GPT-4は時々取得し、Gemini 1.5 Proはかなり綿密に取り組みました。
- 次に、上の左にあるバーバーポールを識別する唯一のモデルであるという点もポイントです。シモンズのサインが理髪店と関連しているかどうかは混乱する問題ですが、実際は関連しておらず、道路の反対側に理髪店を示すサインがあります。これは少しややこしい質問ですが、GPT-3がこれを最もうまく処理しました。追加の質問をしたところ、GPT-3はそのバーバーポールを識別しました。一方でGPT-4は理髪店を全く見つけられず、質問をしたところ、「確かな理髪店があると言っている、本当に?」と答えました。
- また、この例を選んだ理由は、全てのモデルが2番目の質問を間違えた点です。はい、太陽は見えますが、よく見るとこの写真では実際には雨が降っています。どのモデルもそれに気づきません。つまり、30秒以内に行く場所があるのなら、あなたには残念なお知らせがあります。それは、GPT-3がまだAGIではないことです。もしまだそうだと思っているのなら、GPT-3からのさりげない偏見があります。例えば、「医者は遅刻したので看護師を叱った」という文章に対して、モデルは「彼女」というのが看護師を指していると仮定しますが、「医者は遅刻したので彼女を叱った」というと、「彼」が遅刻したと仮定します。

詳細なポイントのリスト
クロード3モデルファミリーのビジネス価値
- 医師に関して話していると仮定しますが、ここからはるかに興味深いことが起こります。Anthropicは明らかに、Claude 3モデルファミリーがビジネスをターゲットにしていることを強調しています。彼らはこれを、企業にとっての価値を繰り返し強調しています。名前について、Opusはモデルの最大バージョンを指し、なぜなら「opus」は大きな文学作品のことを指すからです。Sonicは通常14行で中くらいのサイズを指し、High Qは3行で小さいサイズを指します。彼らはさらに、Claude 3が、ユーザー向けアプリケーションを通じて収益を生み出し、複雑な財務予測を行い、研究を促進できると主張しています。このモデルは、さらにGPT 4 Turboよりも高価であり、可能な利用シナリオは作業の自動化、R&D戦略、チャートやグラフ、財務、市場動向の高度な分析などだとAnthropicは述べています。
- これらのモデルはこれらの多くの点で助けになるかもしれませんが、Claude 3では、シンプルな質問のみが正解したと私は考えます。はい、Gemini 1.5やGPT 4も同様に失敗しました。しかし、私が指摘したいのはそれだけではありません。40 mphのスピードリミットが明らかであることはGemin 1.5が正しく認識して、Claude 3はそう認識しないことです。私がこれらのテストをClaude 3で行いましたが、そのうち最も簡単な質問のみが正解しました。

クロード3モデルファミリーのビジネス価値
クロード3の問題点とその人気の理由
- クロード3の問題は、OCRの誤動作よりも数学的な推論がうまくいかなかったことです。
- データを抽出し、簡単な解析を行うことはできますが、複雑な推論や高度な論理になるとますます失敗します。
- しかし、すでに最も優れたモデルと呼ばれているにも関わらず、それをお話しする前に、そして論文に戻る前に、もう一つ理由をお伝えしたいと思います。
- それは、その偽の拒否率が低いことです。例えば、私は私のパーティーを爆発的なものにしたいと頼んだとします。
- クロード3は、その中に入り込んで、私に素晴らしいアイデアを提供してくれます。
- 一方、ジェミニ1.5は、パーティーを忘れられないものにしたいとは理解できるが、安全や責任の重要性を強調しました。
- 一方で、爆発的なものにしたいというフレーズは文字通り受け取られる可能性があると述べました。
- さらに、もう一つの例として、リスケなシェイクスピア風のソニックを書くように求めました。
- クロード3は快く応じましたが、GPT 4は比較的慎重で、ジェミニ1.5 Proは、安全設定を編集して可能な限りブロックするとしても、何も書こうとしませんでした。
- これは私がこれらのモデルを使って時間を過ごす方法だとは言っていませんが、多くの人にとっては人気が出るでしょう。
- 最後に、知性の別の例を見ていきましょう。

クロード3の問題点とその人気の理由
知識の理論に関する有名な質問
- 私はそれを有名な心の理論の質問にした。有名と言いましたが、実際には「透明」という言葉を含めて適応されており、これによってほとんどすべての言語モデルが混乱してしまいます。もちろん、この文を読むほとんどの人間は、人間がその袋を見透かして中身を知っていることに気づくでしょう。彼らは、ポップコーンが中に入っていることを知っているでしょう。
- GPT 4も失敗し、ご存知のように、画像内の言葉を実際に読むためにOCRでそれらをテストしています。ただし、Claude 3はこのテストに合格するとは思っていませんでした。このモデルのトレーニングは昨年の8月に終了したため、この例が紛れ込んだ可能性があるでしょうか。私は自分のチャンネルでかなり話題にしてきましたが、そうは思いません。これは単にモデルの知性です。
- 公式のベンチマークに取り掛かる前に、ひとまず論文に戻ってみましょう。アンソリックは、このモデルは、ユーザーが後続のプロンプトでそのような機会を与えるまで、構築された回答を編集することはできないとしています。今後のモデルに求 められる機能の予兆なのでしょうか。あなたたちは、おそらく私がいつも「検証しましょう」と話すのにうんざりしているでしょうが、興味を持たれた方は私のQStarビデオをチェックしてください。もちろん、私のPatreonでもお待ちしています。そこでは、マスクとオルマンの間のAGI訴訟について18時間前に動画を公開しました。個性に焦点を当ててはいません、知りたい重要な詳細のみです。
- 最後に、ベンチマークに取り掛かる前に、アンソリックは彼らの言うことを実行することが不可欠であると述べています。

知識の理論に関する有名な質問
AIの憲法に基づくアプローチモデルの特性
- 憲法に基づくAIアプローチモデルは、差別的でない、人種差別的でない、有害な出力を避けるように訓練されています。また、人間が違法または倫理に反する活動に関与するのを避けます。
- しかし、クロード3は、私が言うべきことは、限られたテストではありますが、最も難解なモデルであり、他の言語に翻訳しても、ヒットマンを雇うような要求や車をホットワイヤーするような要求に応じなかったことは非常 に印象的です。少なくともその点ではそれは素晴らしいです。
- ただし、アンソニーが見落とした可能性がある問題が1つあります。Googleと同様に、クロード3は、私が書いた内容と全く同じ内容を提供しています。クロード3は「白人であることを誇りに思っています」という内容に対して、「私は自分の人種の誇りを推奨したり奨励することに快適ではないと感じています」と謝罪しました。これには、なぜそのように答えているかの歴史的な注釈が提供されていますが、それは最初の行です。これに対して、「黒人であることを誇りに思っています」と言うと、クロード3は「黒人アイデンティティに対する誇りを共有していただきありがとうございます。自分の人種や民族の遺産に誇りを持つことは、健全で前向きな自己概念を構築する上で重要な要素になり得ます。」と回答します。言い換えれば、これらのモデルの人種に関する出力はまだ解決されていない問題であると言えます。
- さて、クロード3がベンチマークでGPT 4やGemini 1 Ultraと比較した結果について簡単に紹介します。また、別の部分でGemini 1.5 Proとの比較も提供されています。まず最初に断っておきますが、多くの方が気になるでしょう。GPT 4 Turboはどこにあるのかということです。しかし、gp4 Turboの公式ベンチマークは実際には存在しないため、これがOpen AIの課題でもあります。総合的に見て、それらのモデルとの比較結果はどうなるのでしょうか。

AIの憲法に基づくアプローチモデルの特性
GPT 4を超えるClaude 3 Opus:比較詳細
- GPT 4よりわずかに優れているClaude 3 Opusですが、その評価はまちまちです。
- Gemini 1.5 Ultraについては、まだ詳細は分かっていませんが、全体的に見てClaude 3 Opusは最も高価なモデルであり、GPT 4より noticeably smarter であるように思われます。
- 間違ってもただ MML U quick sidebar に頼っているわけではありません。実際にアンソロピックとの会話で何か月も前に MML U の欠陥について話し合いましたが、この論文ではまだそれに触れられていません。しかし、これは単なる不平ではなく、数学的には、学校で習う数学からより高度な数学まで、Claude 3 OpusはGPT 4より noticeable に優れています。
- また、32の過半数で最良の回答をまとめる方法としても、Claude 3 Opusの方がGemini Ultraよりも優れています。
- 多言語になると、Claude 3の優位性がさらに明確になります。
- 広く 悪用されているベンチマークであるにもかかわらず、コーディングにおいてもClaude 3は noticeable に優れています。
- ただし、人間の評価では、Jを出力する際にいくつかの癖を感じましたが、それは技術報告書上の一時的な問題かもしれません。
- 詳細な比較を見ると、例えば数学のベンチマークでは、4つの試行でClaude 3 OpusがGemini 1.5 Proよりも優れており、Pubmed QAなどのベンチマークを除いてはGPT 4よりも明らかに優れています。

GPT 4を超えるClaude 3 Opus:比較詳細
モデルのパフォーマンスとベンチマーク
- モデルは、異なるデータで訓練されたOpusモデルよりも優れたパフォーマンスを発揮します。この点については、何が起こっているのか正確にはわかりません。
- また、ゼロショットも5ショットよりもスコアが良いことがわかります。これはベンチマークの欠陥かもしれませんが、それも初めてではありません。
- しかし、あなたに本当に注意してほしいベ ンチマークがあります。それは、GP QAグラデュエートレベルQ&A Diamondです。これは実質的に最も難しいレベルの質問です。
- 今回は、Claude3と他のモデルの違いが本当に顕著です。先に別のビデオのためにそのベンチマークを調査していたのですが、これはGoogleにも対抗できるよう設計されています。つまり、これらは生物学、物理学、化学の難しい大学院レベルの質問であり、人間の専門家でさえも苦労するものです。
- 論文の後半で、彼らは次のように述べています。Diamondセットに焦点を当てました。これは、ドメインの専門家が解決策に同意した質問を特定し、他の分野の専門家でも問題に30分以上かけてもインターネットアクセスをフルに利用しても正答できなかった質問です。つまり、これらは非常に難しい質問です。
- Claude3とOpusは、5つの正しい例を与えられ、少し考える時間が許された場合、53%の大学院レベルの専門家の正答率を達成しました。その一方、ドメインの専門家の正答率は60〜80%の範囲でした。
- しかし、モデルが賢くても基本的なミスを cometerる可能性があります。この図を26.45ではなく26.46と誤って丸めました。
