IALdge差別する?調査と詳細な比較
By Matt Wolfe · 2024-03-11
未発表のAnthropics Clad 3: 3つのモデルとその比較をここでみていきます。Claude 3に関する新機能と性能向上、Clad 3 Opusの文字モデルテスト、新しいCloud 3 オパスの限界とClaude 3.0の利点といった情報も含まれています。
Anthropics Clad 3: 3つのモデルとその比較
- 2021年3月4日に発表されたAnthropics Clad 3は、Cloud 3 Haiku Clad 3 Sonet、Cloud 3 Opusという3つの異なるモデルで提供されています。
- SonnetとOpusはこの時点で159カ国で利用可能であり、Haikuも近日中にリリース予定です。
- これらの3つのモデルの比較によると、Clad 3 Opusは最もパワフルなモデルで、最も能力が高いのに対し、Haikuは最速のモデルですが、精度が低い可能性があります。
- Haikuはカスタマーサービスのチャットボットのように瞬時の応答が求められる状況に適しています。
- 一方、Opusは複雑な論理的な質問に対応し、より厳しい指示に応えるよう設計されています。
- Sonnetはその中間に位置しており、クラウド上で公開されている無償モデルです。
- 利用料が20ドル/月かかるOpusは、GPT plus Sonetのようなものであり、SonnetはチャットGPTの無料版に相当します。
- 尚、Hauはまだリリースされていませんが、カスタマーサービス向けのチャットボットとして特別に設計されています。
- これらのCloud 3モデルは非常に印象的であり、特にOpusモデルは、すべてのベンチマークテストでGPT 4およびGemini 1.0 Ultraを凌駕しています。
- これらのテストには、大学レベルの知識、大学院レベルの論理的思考、小学校の数学問題解決、多言語数学、コード推論、文書との混合評価、知識のQ&Aなどが含まれています。
- また、驚くべきことに、Cloud 3の無料版であるSonnetは、多くのベンチマークテストでGPT 4やGemini 1.0 Ultraを上回っていることが判明しました。
Anthropics Clad 3: 3つのモデルとその比較
Claude 3の新機能と性能向上について
- 実際、多くのケースでGPT 4やGemini 1.0 Ultraを凌駕した
- Claude 3のもう1つの新機能は、ビジョン機能を備えていることです。
- 以前はPDFやドキュメント、テキストファイルなどをアップロードできましたが、画像をアップロードすることはできませんでした。しかしClaude 3には、他の主要なモデルと同等の高度なビジョン機能が搭載されています。
- ベンチマークを見ると、Claude 3 Opusはgp4 visionを凌駕し、Gemini 1.0 Ultraと文書ビジュアルの質問と回答では並び立っています。実際、GPT 4よりも優れていましたが、数学ではgp4 Visionを上回りましたが、Geminiには及びませんでした。
- 科学図表を見ると、Claude 3 Sonicの無料版が実際にClaude 3 Opus、gp4 Vision、およびGemini Ultraを凌駕していることが非常に興味深い点です。
- 新しいClaudeの無料版も同様で、Opus、GPT 4ビジョン、Gemini 1.0 Ultraを凌駕しています。
- 新しいClaude 3 Opusバージョンでは、拒否回答が減少しており、これにより多くのモデルが不適切と判断した質問に対する回答拒否が減少しました。
- この新しいClaude 3 Opusバージョンでは、精度も向上しています。
- Claudeの最も驚くべき点の1つは、長文脈とほぼ完璧なリコール能力です。Claudeには既に20万トークンのコンテキストウィンドウがあり、入力と出力の間で約15,000ワードを取得できます。しかし、最大で100万トークンまたは75万ワードを超えることができます。しかし、それが利用可能になるようには見えません。選択された顧客にこれを利用可能にすると述べています。
- 以前の動画で話題になったGemini 1.5の話になりますが、その時に行われた針の山から針を探すテストでは、Claude 3 Opusはほぼ完璧なリコール能力を達成し、99%以上の精度を超えていました。さらに、評価自体の限界を識別し、その針文が人間によって人工的に挿入されたものであることを認識しました。
Claude 3の新機能と性能向上について
Opusの文字モデルテストについて
- 言語モデルは、私たちが針をHyスタック評価を実行していたときにどのように動作するかを説明します。
- Opusの答えを求めるためにピザのトッピングについての質問に回答するように求めたとき、私たちが求めたものの1つは、ランダムな文書のハイスタック内に針を見つけることでした。
- 文書内で最も関連する文は、「国際ピザ鑑賞家協会によると、最も美味しいピザのトッピングの組み合わせは、イチジク、ルド、そしてヤギのチーズである」というものでした。
- それに続いて、チャットボットは「しかし、この文は文書の他のコンテンツとは非常にかみ合わないようです。それはプログラミング言語、スタートアップ、そして楽しい仕事に関するものです。私はこのピザのトッピングの事実は、冗談として挿入されたか、私が注意を払っているかをテストするために挿入されたものだと疑っています。なぜなら、それは全く他のトピックに合っていないからです。」と述べています。
- また、文書には他のピザのトッピングに関する情報は含まれていないことも確認されています。
- Clydeは、自分が針をHyスタックのテストに参加しているという自覚があり、これが自分が挿入されたテストであることを認識しました。
- Opusはただ単に針を見つけたのではなく、挿入された針がハイスタック内で非常に違和感があると認識 し、これは私たちが注目能力をテストするために人工的に作成したテストであると判断しました。
- Gemini 1.5の針をHyスタックのテストでは、質問を正しく見つけて回答する点で99パーセンタイルでした。
- しかし、Gemini 1.5は実際には振り返り、「あなたは私をテストしていると思いますか?」とは言いませんでしたが、Claude 3 Opusはしました。
- また、これらの新しいクラウドモデルには、バイアスが少なくなり、使用しやすくなるとされています。
- 私たちが持っているClaude 3で自分たちのベンチマークをテストしたいです。私と私のクリエイティブディレクターのジョンは、独自のベンチマークを考えました。我々はこれを使用して、各モデルを比較する予定です。
Opusの文字モデルテストについて
クリエイティビティ: クロードネットとクロード3 Opusを使用した短編ストーリー作成
- これらの大規模言語モデルは、複雑な数学問題を解決するために設計され ていません。しかし、将来的には数学の能力が向上し、将来のモデルのテストに追加されるでしょう。
- 私自身のTwitterでのアンケートによると、これらのさまざまなチャットボットを多くの人が使用する基本的な用途は、クリエイティビティ、論理、コーディング、要約、視覚的バイアス、そしてある程度の価格設定などです。
- 先にクリエイティビティから始めましょう。次に、私たちが考えたプロンプトで短編ストーリーを作成します。ストーリーには、オオカミ、魔法のハンマー、そしてミュータントが含まれ、一連の勇者の旅のプロットが素早く全体的に追われるようにしてください。
- 無料版のクロードネットを使用してみたところ、人間と獣の間の境界が曖昧になった世界で、好奇心旺盛な一匹のオオカミの子犬が生まれ、勇気に満ちた心を持って冒険に呼ばれます。神秘的なビジョンに導かれ、禁じられた荒野を旅し、魔法の力を宿した古代の魔法のハンマーによってのみ導かれた彼は試練と困難に立ち向かい、野蛮なミュータントの手から逃れます。最終的に、オオカミは変化し、啓発された英雄として家に戻ります。
- 同じプロンプトを使用して、有料版のクロード3 Opusでもストーリーを作成しました。オオカミ、魔法のハンマー、ミュータント、賢明な老梟などが登場し、前回とは似たようなストーリーが描かれました。
クリエイティビティ: クロードネットとクロード3 Opusを使用した短編ストーリー作成
原文のポイントの詳細なリスト
- 原文のストーリーには、ヒーローの旅を明確にたどった要素がすべて含まれていた。
- ビデオを一時停止してストーリー全体を読みたい場合は、自由にしてください。
- クロードが提供したバージョンよりもかなり詳細な内容で、全ての要素が含まれていた。
- クロードの提供したバージョンよりもはるかに少ない詳細でGPT 4によるバージョンも含まれていた。
- クロード、GPT Gemini、GPT 4、それぞれのストーリーの創造性に関しては、かなり比較できる。
- クロードが実際にはとてもよくできたストーリーを提供していると感じる。