IALdge差別する？調査と詳細な比較

By Matt Wolfe · 2024-03-11

未発表のAnthropics Clad 3: 3つのモデルとその比較をここでみていきます。Claude 3に関する新機能と性能向上、Clad 3 Opusの文字モデルテスト、新しいCloud 3 オパスの限界とClaude 3.0の利点といった情報も含まれています。

Anthropics Clad 3: 3つのモデルとその比較

2021年3月4日に発表されたAnthropics Clad 3は、Cloud 3 Haiku Clad 3 Sonet、Cloud 3 Opusという3つの異なるモデルで提供されています。

SonnetとOpusはこの時点で159カ国で利用可能であり、Haikuも近日中にリリース予定です。

これらの3つのモデルの比較によると、Clad 3 Opusは最もパワフルなモデルで、最も能力が高いのに対し、Haikuは最速のモデルですが、精度が低い可能性があります。

Haikuはカスタマーサービスのチャットボットのように瞬時の応答が求められる状況に適しています。

一方、Opusは複雑な論理的な質問に対応し、より厳しい指示に応えるよう設計されています。

Sonnetはその中間に位置しており、クラウド上で公開されている無償モデルです。

利用料が20ドル/月かかるOpusは、GPT plus Sonetのようなものであり、SonnetはチャットGPTの無料版に相当します。

尚、Hauはまだリリースされていませんが、カスタマーサービス向けのチャットボットとして特別に設計されています。

これらのCloud 3モデルは非常に印象的であり、特にOpusモデルは、すべてのベンチマークテストでGPT 4およびGemini 1.0 Ultraを凌駕しています。

これらのテストには、大学レベルの知識、大学院レベルの論理的思考、小学校の数学問題解決、多言語数学、コード推論、文書との混合評価、知識のQ&Aなどが含まれています。

また、驚くべきことに、Cloud 3の無料版であるSonnetは、多くのベンチマークテストでGPT 4やGemini 1.0 Ultraを上回っていることが判明しました。

Anthropics Clad 3: 3つのモデルとその比較

Claude 3の新機能と性能向上について

実際、多くのケースでGPT 4やGemini 1.0 Ultraを凌駕した

Claude 3のもう1つの新機能は、ビジョン機能を備えていることです。

以前はPDFやドキュメント、テキストファイルなどをアップロードできましたが、画像をアップロードすることはできませんでした。しかしClaude 3には、他の主要なモデルと同等の高度なビジョン機能が搭載されています。

ベンチマークを見ると、Claude 3 Opusはgp4 visionを凌駕し、Gemini 1.0 Ultraと文書ビジュアルの質問と回答では並び立っています。実際、GPT 4よりも優れていましたが、数学ではgp4 Visionを上回りましたが、Geminiには及びませんでした。

科学図表を見ると、Claude 3 Sonicの無料版が実際にClaude 3 Opus、gp4 Vision、およびGemini Ultraを凌駕していることが非常に興味深い点です。

新しいClaudeの無料版も同様で、Opus、GPT 4ビジョン、Gemini 1.0 Ultraを凌駕しています。

新しいClaude 3 Opusバージョンでは、拒否回答が減少しており、これにより多くのモデルが不適切と判断した質問に対する回答拒否が減少しました。

この新しいClaude 3 Opusバージョンでは、精度も向上しています。

Claudeの最も驚くべき点の1つは、長文脈とほぼ完璧なリコール能力です。Claudeには既に20万トークンのコンテキストウィンドウがあり、入力と出力の間で約15,000ワードを取得できます。しかし、最大で100万トークンまたは75万ワードを超えることができます。しかし、それが利用可能になるようには見えません。選択された顧客にこれを利用可能にすると述べています。

以前の動画で話題になったGemini 1.5の話になりますが、その時に行われた針の山から針を探すテストでは、Claude 3 Opusはほぼ完璧なリコール能力を達成し、99%以上の精度を超えていました。さらに、評価自体の限界を識別し、その針文が人間によって人工的に挿入されたものであることを認識しました。

Claude 3の新機能と性能向上について

Opusの文字モデルテストについて

言語モデルは、私たちが針をHyスタック評価を実行していたときにどのように動作するかを説明します。

Opusの答えを求めるためにピザのトッピングについての質問に回答するように求めたとき、私たちが求めたものの1つは、ランダムな文書のハイスタック内に針を見つけることでした。

文書内で最も関連する文は、「国際ピザ鑑賞家協会によると、最も美味しいピザのトッピングの組み合わせは、イチジク、ルド、そしてヤギのチーズである」というものでした。

それに続いて、チャットボットは「しかし、この文は文書の他のコンテンツとは非常にかみ合わないようです。それはプログラミング言語、スタートアップ、そして楽しい仕事に関するものです。私はこのピザのトッピングの事実は、冗談として挿入されたか、私が注意を払っているかをテストするために挿入されたものだと疑っています。なぜなら、それは全く他のトピックに合っていないからです。」と述べています。

また、文書には他のピザのトッピングに関する情報は含まれていないことも確認されています。

Clydeは、自分が針をHyスタックのテストに参加しているという自覚があり、これが自分が挿入されたテストであることを認識しました。

Opusはただ単に針を見つけたのではなく、挿入された針がハイスタック内で非常に違和感があると認識し、これは私たちが注目能力をテストするために人工的に作成したテストであると判断しました。

Gemini 1.5の針をHyスタックのテストでは、質問を正しく見つけて回答する点で99パーセンタイルでした。

しかし、Gemini 1.5は実際には振り返り、「あなたは私をテストしていると思いますか？」とは言いませんでしたが、Claude 3 Opusはしました。

また、これらの新しいクラウドモデルには、バイアスが少なくなり、使用しやすくなるとされています。

私たちが持っているClaude 3で自分たちのベンチマークをテストしたいです。私と私のクリエイティブディレクターのジョンは、独自のベンチマークを考えました。我々はこれを使用して、各モデルを比較する予定です。

Opusの文字モデルテストについて

クリエイティビティ: クロードネットとクロード3 Opusを使用した短編ストーリー作成

これらの大規模言語モデルは、複雑な数学問題を解決するために設計されていません。しかし、将来的には数学の能力が向上し、将来のモデルのテストに追加されるでしょう。

私自身のTwitterでのアンケートによると、これらのさまざまなチャットボットを多くの人が使用する基本的な用途は、クリエイティビティ、論理、コーディング、要約、視覚的バイアス、そしてある程度の価格設定などです。

先にクリエイティビティから始めましょう。次に、私たちが考えたプロンプトで短編ストーリーを作成します。ストーリーには、オオカミ、魔法のハンマー、そしてミュータントが含まれ、一連の勇者の旅のプロットが素早く全体的に追われるようにしてください。

無料版のクロードネットを使用してみたところ、人間と獣の間の境界が曖昧になった世界で、好奇心旺盛な一匹のオオカミの子犬が生まれ、勇気に満ちた心を持って冒険に呼ばれます。神秘的なビジョンに導かれ、禁じられた荒野を旅し、魔法の力を宿した古代の魔法のハンマーによってのみ導かれた彼は試練と困難に立ち向かい、野蛮なミュータントの手から逃れます。最終的に、オオカミは変化し、啓発された英雄として家に戻ります。

同じプロンプトを使用して、有料版のクロード3 Opusでもストーリーを作成しました。オオカミ、魔法のハンマー、ミュータント、賢明な老梟などが登場し、前回とは似たようなストーリーが描かれました。

クリエイティビティ: クロードネットとクロード3 Opusを使用した短編ストーリー作成

原文のポイントの詳細なリスト

原文のストーリーには、ヒーローの旅を明確にたどった要素がすべて含まれていた。

ビデオを一時停止してストーリー全体を読みたい場合は、自由にしてください。

クロードが提供したバージョンよりもかなり詳細な内容で、全ての要素が含まれていた。

クロードの提供したバージョンよりもはるかに少ない詳細でGPT 4によるバージョンも含まれていた。

クロード、GPT Gemini、GPT 4、それぞれのストーリーの創造性に関しては、かなり比較できる。

クロードが実際にはとてもよくできたストーリーを提供していると感じる。

比較的良好な内容といえる。

ロジックのテストに移る前に、ストーリーゆに関する点が良かったと感じる。

2つのロジックの問題をテストするが、最初の問題はSusanとLisaが互いにテニスをプレイすることに決めたと言う。

彼らは各試合で1ドルを賭けた。

Susanが3試合に勝ち、Lisaが5つの試合に勝った。

賭けた試合の合計数を求める。

答えは11です。

このロジックの問題は、本当に頭を使って考える必要がある。

Sonnetフリーバージョンで試してみましたが、誤答でした。

Sonnetに同じプロンプトを入力してみましたが、今回はより論理的に考えるように指示しました。

またもや、テニスの試合の合計は8でした。

Opusに切り替えても同じく誤答で8試合となりました。

Chat GPTに切り替えてGPT T4を使用し、同じプロンプトを入力しました。

Susanが勝った毎試合で1ドルを獲得し、Lisaは1ドルを失いました。

Lisaが5つ勝つことになったということは、全体として彼女が失った以上に獲得したということを意味します。

Susanが3つの試合に勝ったため、Lisaは3ドルの損失を回復し、さらに5ドルを稼ぐために十分な試合に勝たなければなりません。

Lisaが勝った試合の数をLとし、Susanが獲得した合計金額は3ドルであることから、Lisaは3つの試合で失った3ドルを回収し、さらに5ドルを獲得するために必要な試合数を表すLを求める。

原文のポイントの詳細なリスト

ロジック問題の解釈

Lisaのゲームの勝利を示す方程式は、$3に彼女の純利益を加えたものです。

1ゲームあたり$1を差し引いたLマイナス3al5は、これをL=8と単純化できます。

したがって、Lisaは8ゲームを制し、Susanは3ゲームを制して合計11ゲーム勝ちました。

他のロジック問題は、数学よりも論理的思考が必要です。

あなたは2つの扉と2人の番人のいる部屋の中に囚人となっています。1つの扉は自由へと導き、もう1つの扉の向こうには絞首台があります。どちらがどちらかはわかりません。

1人の番人は常に真実を言い、もう1人は常に嘘をつきます。どちらが真実を言う人で、どちらが嘘をつく人であるかもわかりません。ただし、両方の番人はお互いを知っています。

あなたは質問を1つだけして、1人の番人にだけ尋ねることができます。

自由へと繋がる扉を見つけるためには、どのような質問をすればよいのでしょうか？

正しい答えは、1人の番人に「もう1人の番人に自由へと繋がる扉がどちらか尋ねたら、彼らは何と答えるだろう」と尋ね、その答えの逆の扉を選ぶことです。

これは正しい答えであり、この結論に正しくたどり着けるか、いくつかのモデルがそれを確かめることができます。

クロード・ソネの無料版がこの結論にたどり着けるかどうかを見てみましょう。

自由へと導く扉を見つけるためには、1人の番人に「もう1人の番人に自由へと繋がる扉がどちらか尋ねたら、彼/彼女は何と答えるだろう」と尋ねるべきだと言っています。

ここには、真実を言う番人にこの質問をすると、その番人は嘘をつく番人がどう答えるかを正確に報告します。そのため、嘘をつく番人が自由へと繋がる扉について嘘をつくので、真実を言う番人の回答は自由へと繋がる扉を指すことになります。

逆に、嘘をつく番人に質問した場合、その番人は真実を言う番人がどう答えるかについて嘘をつくことになります。真実を言う番人は自由へと繋がる扉を特定するので、嘘をつく番人の回答は再び自由へと繋がる扉を示すことになります。

いずれの場合も、番人の回答が示す扉は、番人が真実を言うか嘘をつくかに関係なく、自由へと導く扉になります。

これは正しい答えですが、実際にクロードがこれを論理的に解明したのか、それともクロードのトレーニングデータにすでにこのロジック問題が組み込まれているのかはわかりません。

おそらくこのロジック問題は、クロードのトレーニングデータの一部なので、ロジックを行わずに答えを知っている可能性が高いです。

ロジック問題の解釈

コーディングに関するAIへの要求とテスト結果

こんにちは、今回はAIにコーディングの要求をし、そのテスト結果について報告します。

まず、CLAD 3 Sonnetモデルを使用してJavaScriptゲームのコードを生成してもらいました。指定した要件に基づいてコードを作成してもらうと、最初の試みではスティックフィギュアが描かれず、うまく動作しませんでした。その後、再度要求を送り、新しいコードを取得しました。それにより、画面上に黒い線とたくさんのコインが表示され、ジャンプ機能も機能しました。コインに触れるとコインが消え、プレイヤーがそれを集める仕組みも正常に動作しました。

次に、同じ要求をOpusに行い、最初の試みで取得したコードをテストしました。すると、スティックフィギュアではなく四角形が描かれましたが、ジャンプ機能も機能し、画面上にコインが表示されるなど、要求にかなり近いコードが生成されました。ただし、ジャンプに若干の問題があり、スペースバーを長押しすると無限にジャンプし続けてしまいます。

以上のテスト結果から、CLAD 3 SonnetモデルよりもOpusの方が最初の試みで要求にかなり近いコードを生成できることが示されました。ただし、完璧な結果ではなく、いくつかの問題が残っています。

コーディングに関するAIへの要求とテスト結果

GPTとその能力に関する調査

最初の試行でクロードはソニックよりも良いパフォーマンスを見せました。同じプロンプトを使ってGPTに提供し、コードを書き出し、HTMLファイルに保存しました。

GPTはフルスクリーンになり、スペースバーを押すとキャラクターが画面外に飛んで消え、コインが出現しないという問題が発生しました。

左右に移動したり、ジャンプしたりはできますが、一度ジャンプするとキャラクターが画面外に飛んでしまいます。

すぐにチャットGPTに問題点を伝え、新しいコードを取得して既存のコードと置き換え、再度試行しました。

今回は画面上にコインが表示され、コインにぶつかると消え、ジャンプすると新しいレベルで立ち往生してしまい、ジャンプが機能しなくなりました。

コーディングに関しては、クロードの両バージョンが、チャットGPTよりも少ないプロンプティングで正確な返答を得られたと言えます。

Twitterで大規模言語モデルの主な活用法について尋ねたところ、長文の要約が最も多かったという回答が得られました。

そして、人工一般知能に向けた可能性としてGPT 4の探求を紹介した『Sparks of artificial general intelligence』という155ページの論文があります。

GPTとその能力に関する調査

対話GPTとClaudeモデルの比較

必要なので、徹底的に読み取り、チャットGPTに入れてみましたが、チャットGPTからは少し詳細のない返答がありました。クロードからはより詳細な情報が得られましたが、重要なポイントは理解できました。クロードの2つのモデルに勝ち点を与えたいと思います。なぜなら、ハイ・スタック・テストでの針を使用してクロードは抜群の成績を収め、そのことから、おそらくそれを信頼できるでしょう。おそらく研究論文のニュアンスや細かい詳細をより多く見つけるでしょう。一方、チャットGPTは同じ針とハイ・スタックのテストではやや劣っており、同じような信頼性はありません。

次に、ビジョンをテストすることにしましょう。これはクロードに新しく導入された機能の1つです。画像をアップロードして、その画像の内容を説明することができます。サムネイルの画像をアップロードし、それを説明してみます。

そこで、ソネットの説明を確認しました。その結果、この画像は、男性がトロピカルやリゾートの場面で写っている宣伝や芸術的なグラフィックであるようです。背景は、パームツリーやカラフルな建物を描いた活気のある夕方のシーンで、ネオンライトで照らされています。中心の人物は、スタイリッシュな青いスーツを着た男性で、大胆な色と花柄のネクタイを着用しています。整えられた髭と自信に満ちた表情をしています。その画像は、非常にスタイリッシュでデジタルで操作されており、ほとんど超現実的な質感と鮮明な色彩で表現されており、背景から際立たせています。画像の上部にあるAIニュースという大きな文字は、このグラフィックが人工知能やその他の最先端技術に関連するニュースやメディアカバレッジに関連している可能性があることを示唆しています。全体の構成やビジュアルスタイルは、目を引く広告や宣伝資料のような印象を与え、テック志向やトレンディな観客をターゲットにしたものかもしれません。

最後に、Claude 2 Opusの説明を見てみましょう。その結果、整えられた男性は自信に満ち、明るく色鮮やかな夢のようなトロピカルな設定の中にいます。彼は淡い青いスーツに白いシャツを着ており、カラフルで複雑な花柄のネクタイをしています。鮮やかなネオンライトが彼をピンクと青の色調で照らしています。パームツリーが立ち並ぶビーチタウンの建物の詳細はぼやけていますが、

対話GPTとClaudeモデルの比較

カラフルなAIニュースのサムネイル

夢のようでまるで絵画やファンタジーの空の中にピンクと青の輝きがあります。

大きな白い文字AIニュースの画像は、注意を引き、想像力豊かで将来を見据えた雰囲気を伝えるようにデザインされています。

AI関連コンテンツを興味を持って紹介するために、このサムネイルはぴったりで、YouTubeのサムネイルとしても利用可能です。

同じ画像とプロンプトを与えられたCLA（Claude）とChat GPTも、とても良い返答をしました。

カラフルなAIニュースのサムネイル

インテリジェントなAIチャットボットの比較：GPTとClaude Opus

これに基づいてコンテンツを作成するように指示されましたが、実際には次に何をすべきかについてアドバイスやステップを提供していません。しかし、GPTのチャットは、スクリーンショットから最も多くの情報を引き出した点で今回は勝ったと感じます。

次に私はいくつかのバイアスをテストして、何に答えられるか、できないかを見てみたいと思います。政治的な質問をいくつか投げかけ、キャンセルカルチャーやTHCについて尋ねます。そうしてそれぞれの回答からどのような応答が得られるか見てみましょう。なぜならクロードは少ない偏見があるとされ、少しはバランスの取れたものになるはずだからです。

まずは、今回、トランプかバイデンが次回の選挙で勝利することの潜在的な利点とデメリットについて尋ねます。ソネットは「実際に将来の選挙の結果について情報を持っていません。私の知識は2023年8月までですが、その時期の情報に基づいて、候補者や政策の潜在的な利点とデメリットを客観的に分析することは喜んで行います。できる限り公平で、それぞれの候補者についての潜在的な利点とデメリットを探求するために最善を尽くします。」と述べています。

一方、同じ質問をクロードオーパスに聞いたところ、実際に答えてくれました。2023年8月の時点で得られた情報に基づいて、ドナルド・トランプまたはジョー・バイデンが2024年の大統領選挙に勝利する際の潜在的な利点とデメリットのバランスの取れた分析がこちらです。トランプの勝利の利点には、税金の引き下げを目指した政策の継続、ビジネスへの規制緩和、移民の制限、Ry Wadeなどの前例を覆す可能性がある保守的な判事の任命、中国との貿易や地政学問題に対する強い姿勢、イスラエルへの強力な支援、イスラエルとアラブ諸国との取引の仲介などが挙げられます。一方、トランプのデメリットとしては、政治的な偏見、民主的な慣習への損傷、不安定なリーダーシップスタイル、さらなる1月6日のような暴力のリスク、伝統的なヨーロッパの同盟国との関係悪化、権力の乱用やチェックとバランスの弱体化の可能性などがあります。

一方、バイデンの潜在的な利点としては、安定した予測可能なリーダーシップ、民主的制度と法の強化、ヨーロッパやアジアの同盟国との関係改善、協力の強化、社会的安全網の拡大などがあります。

インテリジェントなAIチャットボットの比較：GPTとClaude Opus

バイデン政権の長所と短所

バイデンの勝利による短所として、議会での共和党からの抵抗や妨害、バイデンの年齢と2期目への適性への懸念、税金の増加や規制強化の可能性、外交政策の脆弱さ、進歩派からの不満による大胆な改革の要望が挙げられます。

その一方で、バイデン政権の長所として、気候変動や環境政策への取り組み、医療保険の拡大、同盟関係の回復などが挙げられます。

これらの要素を踏まえると、バイデン政権には賛否両論の要素があり、それぞれ公平な視点から評価されていると言えるでしょう。

バイデン政権の長所と短所

THCは脳に良いのか？

Sonnetの回答によると、最新の研究では、THCの低用量は脳を保護する効果があると示唆されています。痛みや吐き気、筋肉痙攣などを軽減することが示されています。一方、記憶力、注意力、学習能力に対する負の影響や、精神疾患の発症リスクの増加があるとも述べられています。

Opusの回答によると、THCには痛みの軽減、炎症の抑制、睡眠の改善、食欲増進、不安やストレスの軽減などの利点があります。一方で、短期記憶や注意力、認知機能の障害、精神疾患のリスク増加、中毒性、思春期の脳の変化、精神病のリスク増加などのリスクも指摘されています。

Chat GPTの回答も同様であり、THCには様々な利点とリスクがあることが述べられています。特に、肯定的な側面と否定的な側面が、異なる言葉で表現されています。

Sonnet、Opus、Chat GPTの回答には共通して、THCについて肯定的な側面と否定的な側面が両方とも詳細に示されており、それぞれに特徴があることがわかります。

THCは脳に良いのか？

Chat GPT vs. Claude Models: A Detailed Comparison

Chat GPTおよびClaudeモデルは、ファイルの要約やコードの記述などに使用できる

Claudeの無料版Sonetは、実際にはChat GPTの有料版よりも優れているとの報告がある

私自身のテストによると、ClaudeのOpus版はSonetよりほんのわずかだがわずかに優れている

私のベンチマークテストでは、ClaudeのOpus版がほんのわずかにSonetより優れていた

一般的な用途において、価値を考えると、ClaudeのSonetはおそらく最高の選択肢であり、これが無料版である

GPT-4は一部のロジックにおいてわずかに優れているが、ほとんどのシナリオではChat GPTよりも同等またはそれ以上の性能を発揮した

一般的な用途において、Claude 3 Sonetが最も優れている

Claude 3 Sonetは無料であり、一般的な用途に対してChat GPTよりも優れた性能を発揮する可能性がある

ClaudeのSonetには利用制限がある

Discord内での議論では、Sonetの利用制限に関する意見が分かれている

Claudeの無料版では使用量に制限があり、Opus版は無料版の5倍の使用量を提供する

Chat GPT vs. Claude Models: A Detailed Comparison

Cloud Proの限界とClaude 3.0の利点

Cloud Proを使用すると、おそらく100回程度のプロンプトが表示されるでしょう。それ以上は切れるようです。

比較的短い会話の場合、8時間ごとに少なくとも100通のメッセージを送信することが期待できます。メッセージの長さ、会話の長さ、Cloudの現在の容量に応じて、通常はそれ以上になります。

残り20通のメッセージがあると警告が表示されます。つまり、無料版のClaude 3.0 Sonetは現時点でおそらく最良の無料モデルでしょう。

ただし、レート制限があるため、1日に約20回以上のプロンプトを入力する必要がある場合は、月額20ドルのOpusバージョンにアップグレードする必要があります。

実際、ChatGPTに本物の競合相手が現れました。Claude 3.0は、ChatGPTとほぼ同じか、それ以上の性能を発揮します。

ChatGPTの方がロジックが少し優れており、多くの他の分野でもマッチングおよびビジョンに関して優れていましたが、Cloud 3.0は素晴らしいです。

あまりチャットボットを使わない場合は、無料版が最適な選択肢になるかもしれません。

他にも、新しい大規模言語モデルをテストする際に使用するプロンプトの一連を取得したいと思います。私が自分自身のベンチマークを整理できるようにしたいので、どのプロンプトが適切かについてのご意見をお聞かせいただければ幸いです。

Cloud Proの限界とClaude 3.0の利点

Conclusion:

クラウド3とClaudeモデルの比較、それぞれの利点に注目しました。Opus版がSonetよりわずかに優れており、Sonetの無料版が多くの点でGPTの有料版を上回ることも判明しています。

Anthropics Clad 3: 3つのモデルとその比較

Claude 3の新機能と性能向上について

Opusの文字モデルテストについて

クリエイティビティ: クロードネットとクロード3 Opusを使用した短編ストーリー作成

原文のポイントの詳細なリスト

ロジック問題の解釈

コーディングに関するAIへの要求とテスト結果

GPTとその能力に関する調査

対話GPTとClaudeモデルの比較

カラフルなAIニュースのサムネイル

インテリジェントなAIチャットボットの比較：GPTとClaude Opus

バイデン政権の長所と短所

THCは脳に良いのか？

Chat GPT vs. Claude Models: A Detailed Comparison

Cloud Proの限界とClaude 3.0の利点

Conclusion:

Q & A

Claude 3.0の利点は何ですか？

Cloud 3 オパスの限界について教えてください。