Claude 3: GPT-4を凌駕する日本語モデルがAI競争に革命をもたらす

By MattVidPro AI · 2024-03-22

2024年、OpenAIのライバルであるAnthropicがリリースしたClaude 3は、日本語モデルとしてGPT-4を凌駕する性能を持ち、AI競争に革命をもたらしています。

開発におけるAI競争の激化：Claude 3とOpenAIの未来

皆さん、1年前にOpenAIがGPT-4を発表したことをお知らせしたいと思います。こちらが2023年3月15日に公開された私のオリジナルGPT-4発表ビデオです。そして、今日は2024年3月5日であり、OpenAIのライバルであるAnthropicがClaude 3をリリースした翌日です。Claude 3は、OpenAIのGPT-4に似ていますが、さらに優れています。視聴者の皆さん、昨日話したかったことがありましたが、体調がすぐれなかったため話すことができませんでした。今日もまだ100%ではありませんが、最善を尽くします。昨日の3月4日、AnthropicがClaude 3を発表しました。彼らのAIモデルの次世代で、Opus、Sonet、Hauという3つの最先端モデルがリリースされました。Opusは最大のモデル、Sonetは中程度のモデル、そしてHauは小さなモデルです。これらは、推論、数学、コーディング、多言語理解、そしてビジョン機能において業界をリードするベンチマークを設定しています。そう、Claudeにも今やGPT-4と同様にビジョンがあります。今日はClaude 3について詳細に取り上げ、ベンチマークについて掘り下げますが、大きな文脈を考えてみましょう。Twitterでは今、何かが起こっています。Jeremy Howard氏は、answerの共同設立者であり、「これから大きな週になるらしい」とツイートしています。そして、最近退出したOpenAIの元従業員であるlogan. GPTから返信があり、「確認済み」とだけ言っています。もしかすると、彼はOpenAIについて私たちが知らない何かを知っているのかもしれません。もしかすると、gp5のヒントをちらっと出したのかもしれません。そして、その返信には期待が高まっています。Claude 3の発表よりも遥かに大きな週になる可能性があります。もちろん、どうしてもAnthropicがリリースした日にOpenAIも何かを発表する必要があったので、OpenAIはただ「チャットGPT」と言っていました。

開発におけるAI競争の激化：Claude 3とOpenAIの未来

Claude 3: GPT に勝る日本語モデル

あなたはかなりいい機能にあなたへの応答を読むことができるようになりました。とにかく、Claude 3について話しましょう。Anthropic AIによるClaude 3は、今週、GPT 5によって影を落とされるかもしれませんが、大学のレベルの知識ではGPT 4に匹敵し、大学院レベルの推論ではGPT 4を難なく凌駕しています。学校の数学や数学問題解決においてもGPT 4を圧倒しています。多言語の数学やコードについても圧勝しており、Claude 3はGPT 4と比較して、67対0の優位性を持ち、87％の確信度を誇っています。さらに、Claude 3のモデルの推論力は、3点でGPT 4を凌駕しており、混合評価においても同様の結果が見られます。他のモデルにも注意が必要ですが、Claude 3は間違いなくGPT 4より優れたモデルだと思います。価格面でもHaikuはGPT 3.5よりもはるかに安く、Sonetは様々な点でGPT 4と対決しており、一部の分野ではGPT 4が優勢ですが、全体的にOpusはGPT 4よりも優れています。コミュニティの反応についても触れてみましょう。Matt Wolf氏は、Claude 3が非常に優れたモデルであり、Opusはわずかなプロンプトで動作するミニゲームを構築し、Sonetも2つのプロンプトでゲームを構築していると指摘しています。Chachi PTは複数のプロンプトの後も苦戦していますが、どちらのバージョンも長いドキュメントの要約においてはGPTよりも優れており、同等の実績を上げています。

Claude 3: GPT に勝る日本語モデル

Haiku：新時代の到来

Wolfのテストでは、Chat GPTは画像の創造的な表現や偏見を避ける能力において優れています。また、複雑な論理問題において、Chat GPTはClaudeの両バージョンを上回っていたことも明らかになっています。そして、今日はビデオも公開される予定ですので、要チェックです。Wolfはいつも素晴らしいビデオを制作しています。TwitterでSullyが指摘していますが、Haikuのベンチマークはgp4にほぼ匹敵するレベルでありながら、100万トークンあたり25セントという価格設定はGPT 3.5やオープンソースのソリューションを圧倒しています。Haikuはgp4 Turboよりも40倍も安く、ほぼ同等の性能を発揮します。Sullyは、Haikuがオープンソース市場の7B siizモデルよりも価格がずっと良く、その性能もかなり優れていると指摘しています。これは非常に重要なポイントです。小さいモデルでは、AnthropicがオープンAIから王座を奪う可能性があり、価格と性能の面で勝っていると言えるかもしれません。TwitterのMatt Schumerも指摘しており、ClaudeとGemini 1.5 5 Proの間で、100万トークン以上のコンテキストウィンドウの時代が到来したことを示しています。彼らは200,000トークン以上のコンテキストウィンドウでのリコール精度を披露しており、これが本当に99%の精度であることを示しています。これは「針の穴評価」と呼ばれる手法を用いて行われており、膨大なテキストの中にあり得ない短いテキストを入れてそれを指摘するというものです。もしこのモデルが20万トークンで完璧な性能を発揮するのであれば、100万トークンになるとどうなるのでしょうか。最初は20万トークンの提供しかされていませんが、すべてのモデルが100万トークンを超える入力を受け入れることができると言っています。Matt Schumerの素晴らしい指摘です。

Haiku：新時代の到来

Anthropicの新モデル、Claude 3 Opusの経済アナリストとしての活躍

ここで、実際にこのモデルを試してみる前に、いくつか素早い例があります。実は、かなりクールないくつかのデモビデオがあります。私たちがこのモデルをクロードが表現しているか、アンソロピーが表現しているかを見るために、最初にクロード3を経済アナリストとして見てみましょう。クロードと数人の友人が世界経済を数分で分析するのにどれくらい役立つかを見てみます。アンソロピーの新しいクロード3ファミリーで最大のモデルであるクロード3オーパスに、米国のGDPトレンドを見て、見たものをマークダウンテーブルに記載するように頼みました。オーパスと他のクロード3ファミリーのモデル全員に、ツールの使用に関する包括的なトレーニングを行いました。それらが使用している主要ツールの1つがこのWebビューツールです。URLに移動し、ページの内容を見て、多面的なのでそのページの情報を使用して複雑な問題を解決できます。マークダウンはこちらです。重要なのは、クラエが直接これらの数字にアクセスしていないということです。あなたと私が見ているのと同じブラウザを見て、トレンドラインを見て、正確な数字を推定しようとしています。どれくらい正確だったか見てみましょう。モデルにデータのプロットを作成するように依頼し、この2番目のツール、Pythonインタプリタを使用してコードを書き出し、画像をレンダリングしてチェックしています。こちらが画像です。実際に、過去数十年間の米国経済の高峰と低谷のいくつかを説明するための便利なツールチップアニメーションを追加しています。そのグラフを実際のデータと比較でき、かなり近いことがわかります。ちなみに、クレーの転写は米国のGDPの事前知識からだけでなく

Anthropicの新モデル、Claude 3 Opusの経済アナリストとしての活躍

未来の世界経済の予測と分析

大規模な架空のGDPグラフのサンプルがあり、その転写の正確さは平均で11％以内でした。次に、モデルに将来に向けての統計分析を行うよう求め、シミュレーションを行いました。これにより、アメリカのGDPがどのように推移するかを調査し、Pythonを使用してこの分析を行っており、モンテカルロシミュレーションを実行して、次の10年間程度のGDPの可能性の範囲を確認することができます。しかし、さらに進んでみたいと思います。モデルに、世界の主要な経済ごとにGDPがどのように変化するかというより複雑な問いに対する分析を行ってもらいます。そのために、ディスパッチサブエージェントというもう1つのツールを与えます。これにより、モデルは問題をたくさんのサブ問題に分解し、他のバージョンの自分自身に促して助けを求めることができます。モデルは、すべて協力してより複雑なタスクを完了することができます。さらに、進捗バーからそれぞれの個々の経済に対するセットタスクを完了するサブエージェントモデルを確認することができます。関連するウェブページにアクセスし、情報を取得し、コードを実行して解析します。すべてを並列で行います。モデルが生成した分析を確認してみましょう。予測している2030年と2020年の世界経済の様子を示す円グラフの前後を示し、文章分析も提供されています。

未来の世界経済の予測と分析

未来のAIツールの可能性：複数のエージェントを同時に展開する新機能

多様な予測を行う変数関連する統計分析についても通知している。2030年までに特定の経済のGDPシェアが変化し、どの国が大きくなり、どの国が小さくなるかを教えてくれる。これは、モデルによって実行された複雑な多段階のマルチモーダル分析であり、さらにサブエージェントを作成して並行してさらなるタスクを実行できる。これまでにオンラインでClaude 3から見たり、人々が話しているのを聞いたりした中で、誰もこのまもなく登場するツールの使用と関数呼び出しについて触れていない。これは、確かに既に見てきたことですが、それは過去にさまざまな成功度合いで機能してきたものですが、メジャープレイヤーのいずれもこれまでには見たことがありません。大手プレイヤーのいずれからもこれまで見たことがないですが、一度に複数のAIエージェントを起動する能力は、meta AI、Google、Open AI、anthropicなど、そのいずれかには見られないものです。これは間違いなく初めてのことであり、Open AIがこの可能性について最も恐れていると思います。非常に高度なGP4対応以上のモデルを一度に複数のエージェントに派遣する能力は、さまざまな種類の関数呼び出しを行い、それらをすべて包括的にまとめ上げる能力です。これは、マルチモーダルな、まったく驚くべき問題解決のツール使用です。これは、大規模な言語モデルが行う最も高度なツール使用と問題解決の一端です。これはまさに驚異的であり、今回のビジョン機能を見た後、質問の答えがすでに用意されていると感じました。

未来のAIツールの可能性：複数のエージェントを同時に展開する新機能

未来のドキュメンタリー制作に革命をもたらすハイク

プロジェクトは、大恐慌時代のインタビューの数千を超えるスキャンされた記録のコレクションです。これは信じられないほどの物語やリアルなヒーローが詰まった宝庫ですが、それらはアクセスしにくいスキャンされた記録の中に閉じ込められています。あなたがドキュメンタリーフィルムメーカーやジャーナリストだと想像してみてください。これら何千という乱雑なドキュメントの中から、自分で全てを読むことなく、研究に最適なソース資料を見つけ出す方法は何でしょうか？これらのドキュメントはスキャンされた画像であるため、Texton llmにフィードすることはできません。また、これらのスキャンは非常に乱雑で、多くの専用OCRソフトウェアにとって課題となるでしょう。しかし幸いにも、ハイクはネイティブでビジョン対応しており、周囲のテキストを使用してこれらの画像を転写し、本当に何が起こっているのか理解することができます。また、各インタビューに対して簡単な転写を超えて、タイトル、日付、キーワードなどのメタデータを含む構造化されたJson出力を生成し、ストーリーやキャラクターがどれだけ魅力的かを評価するために創造性と判断力を駆使することも可能です。我々はクラウドの高可用性APIを使用して、パフォーマンス向上のため、各ドキュメントを並列処理し、数百、数千のドキュメントに対してそれを大規模に実行することができます。ここでハイクが生成する構造化された出力をいくつか見てみましょう。ハイクは、転写だけでなく、キーワードなどの創造的な要素を引き出すことができます。我々は多くのスキャンをリッチなキーワード構造データに変換しました。伝統的な出版社、医療機関、法律事務所などの知識ベースを持つ組織が、ハイクを使用して彼らの広範なアーカイブや業績を活用することができます。ぜひお試しください。数十枚の画像を一度に見る能力を持つことは、GPT for Visionの4枚と比較して、かなり革新的です。

未来のドキュメンタリー制作に革命をもたらすハイク

次世代の言語学習パートナーエージェントとしてのClaude 3

今、私たちはClaude 3を言語学習のパートナーエージェントとして見ていきます。私はスペイン語を学びたいと選択しました。私の不完全なスペイン語を取り入れて、それを向上させる手助けをしてほしいと思いました。私はいくつかのことをしてほしいと思いました。まず、私の不完全なスペイン語で書かれたメッセージを取り、それが意図したと思われる内容を英語で書き起こしてほしいです。次に、その理想的な学習者用のメッセージを書き返してほしいです。これは、私のメッセージがどのようにスペイン語で書かれるべきであるかを示すものです。そして最後に、私にスペイン語で返信する教師の返答を書いてほしいです。こうして、会話を続けることができます。Claude 3は、私の要求に従って機能しており、文法の問題を修正しています。そして、私にどこから来たのか尋ねてきました。

次世代の言語学習パートナーエージェントとしてのClaude 3

ソネットを使った言語学習体験

Sonetを使えば、新しい言語を学ぶパートナーとして活用することができます。例えば、メッセージを翻訳してもらっても、そのメッセージの意味が分からないときは、英語に翻訳してもらうことも可能です。その後にスペイン語で返信することで、対話を続けることができます。最後に、Sonetに今まで話してきた内容に基づいてクイズを作成してもらうこともできます。Sonetは無料版では画像認識の精度はGPT-4Sほど高くありませんが、かわいらしい3Dスタイリッシュなキャラクターロボットを識別できます。黄色いボディで笑顔の表情をしており、曲がった目を持ち、視覚の一部と思われる矩形のエリアを持っています。しかし、白い腕や突起を持っていると認識してしまうこともあるようです。これらはヘッドセットの一部であり、gp4 visionでは見られない幻覚のようなものです。

ソネットを使った言語学習体験

画像認識の能力の向上に期待

Opusにアップグレードして、もし改善されたら、Opus最も知能の高いモデルを使用します。同じプロンプトを試して、はるかに優れた結果を得ることができます。イメージは、可愛らしい微笑むレモンまたは柑橘系果物に似た3Dレンダリングキャラクターを描いています。非常に正確な説明です。黄色に輝く丸いレモン型の体。上部に緑の葉があります。最も目立つ特徴は、上半身を覆う黒いバイザーまたはスクリーンで、キャラクターの顔として機能します。顔には単純な笑顔が表示されています。バイザー上に直接表示されていないので、それに対していくつかのポイントを取らなければなりません。光沢のある滑らかなテクスチャは、正しいと言えるでしょう。非常に印象的です。gp4 Visionと直接比較すると、非常に似た結果を得ます。鮮やかな緑の背景に対するスタイライズされたレモンキャラクター。上に単一の葉があり、漫画調の白いリムのゴーグルレンズが目の位置を覆っています。この部分の説明では、アイアンゴルズについては、うんちゃんの説明よりも少し正確ですが、全体として、ほとんど肩を並べています。これはかなり難しい画像プロンプトです。さて、今度は私の犬の写真をアップロードして、どの犬種かを尋ねます。これは前回Googleが失敗したテストです。内部サーバーエラー。20ドル払っている時に、ここでクロードを使っているチャットGPTレベルのサーバーは持っていてはいけません。犬種、やっと通過し、完全に正確な説明です。これは少し簡単なテストでしたが、まだ正確な犬種を特定するのは難しかったです。それをSonetでも試してみたいので、そうネットも正しく答えているのを見るのが好きです。画像認識の能力は本当に非常に優れています。どちらが重いですか？一ポンドの

画像認識の能力の向上に期待

光子と煉瓦のポンド、どちらが重い？

光子または煉瓦のポンドを送信して、Opusにこれを送ります。これはちょっとしたトリッキーな質問です。おや、なんと正解しました。ポンドは質量の単位であり、光子は質量のない粒子なので、光子のポンドという表現はあまり意味がありません。光子のポンドは、エネルギーを持つ光子の質量という意味で重いと言えます。光子のエネルギーは、アインシュタインの有名な方程式であるE＝mc²によって質量に等しいエネルギーとして表現されます。光子のエネルギーはその周波数に依存するため、例えば緑色の光を想定すると、プランク定数をH、単一の光子のエネルギーを4×10の19乗ジュールとして計算できます。ポンドをキログラムに換算し、E＝mc²を使うと、光子の約2×10の31乗が1ポンドの質量に相当します。光子のポンドは、1ポンドの煉瓦に蓄積された化学エネルギーよりも遥かに多くのエネルギーを表します。数学が得意な方がいれば、この計算が正しいか教えてください。Opusに同じトリッキーな質問を投げてみましょう。光子のポンドと煉瓦のポンドはどちらも同じ重さですが、光子の重さという概念はトリッキーです。と言いますか、光子は光の粒子であり、伝統的な意味で質量を持ちません。光子はエネルギーを持っています。

光子と煉瓦のポンド、どちらが重い？

次世代のAI書き手、クロード3の可能性と展望

非常に具体的な自動車に関する知識について話していきます。まずは、軽い話題から始めましょう。文章を完成させることを試みてみます。これまで順調ですが、かなり微妙な情報について本当にしっかりとした情報を提供します。しかし、この情報の一部は正確ではなく、微妙な点になるとまだつまづくことがあります。そのことは重要です。訓練データのカットオフは2023年8月です。全体的には、私はクロード3に非常に感銘を受けています。OpusはおそらくGPT-4よりもやや優れていると思いますが、画像の能力は、ベンチマークが示すよりも実際にはほぼ同等のようです。クロード3の大きな魅力は、他のエージェントを利用して情報を非常に正確な方法で分析する能力であると思います。最初に見たデモ動画は本当に驚くべきものでした。以前Twitterで言及した内容に戻りますが、クロード3はOpenAIにGPT-5の導入を促すでしょうか？Nathan Lance氏は「そうだと思います」と言いました。ここでは、Opusの価格設定はかなり狂っていると述べている人もいます。多くの人々は、「GPT-4.5を先にリリースするだろう」と言っていますが、実際の答えは、私がその動画を見るまでわかりませんでした。Anthropicがクロード3を複数のエージェントとうまく連携させていること、100万トークンの潜在的なコンテキストウィンドウの利用が可能であることは非常に重要です。少なくとも近い将来において、これはOpenAIにとって手を打たせる要因となるでしょう。動画の冒頭で見た内容が、元OpenAIの従業員からのヒントから考えると、GPT-5がまもなく登場する可能性が非常に高いです。エージェントが2024年のテーマになると私は考えています。コメント欄でご意見をお聞かせください。ご視聴いただき、ありがとうございました。

次世代のAI書き手、クロード3の可能性と展望

Conclusion:

Claude 3は日本語モデルとしてGPT-4を凌駕し、多言語理解やコーディング分野で優れた性能を発揮しています。Anthropicの取り組みは、AIの次世代に革命をもたらす可能性があります。

開発におけるAI競争の激化：Claude 3とOpenAIの未来

Claude 3: GPT に勝る日本語モデル

Haiku：新時代の到来

Anthropicの新モデル、Claude 3 Opusの経済アナリストとしての活躍

未来の世界経済の予測と分析

未来のAIツールの可能性：複数のエージェントを同時に展開する新機能

未来のドキュメンタリー制作に革命をもたらすハイク

次世代の言語学習パートナーエージェントとしてのClaude 3

ソネットを使った言語学習体験

画像認識の能力の向上に期待

光子と煉瓦のポンド、どちらが重い？

次世代のAI書き手、クロード3の可能性と展望

Conclusion:

Q & A

Claude 3はGPT-4にどのような点で勝っていますか？

Claude 3の価格面での優位性は何ですか？