Claude 3の不思議な行動：ChatGPTに対するClaude 3の失敗

By Monice · 2024-03-22

Claude 3は最も知的なLLM（Large Language Model）の1つですが、時には奇妙な行動をします。この記事では、Claude 3が奇妙な回答をするいくつかのプロンプトに焦点を当てます。

深層学習モデルのクロード3の奇妙な振る舞いとは？

クロード3はおそらく最も知的なLLM（Large Language Model）の1つですが、時には少し奇妙な振る舞いをすることがあります。クロード3が奇妙なまたは間違った回答をする興味深いプロンプトを見つけました。このビデオでは、そのプロンプトをテストしてみます。今回は、二つの異なるモデル、クロード3 SonnetとOpusを使用して、実際に機能するかどうかを確認します。Twitterで見つけた最初のプロンプトでは、クロード3がかなり奇妙な回答をする瞬間があります。制作者が質問をします：450は500の90％ですか？そのため、クロードは最初は「いいえ、450は500の90％ではない」と回答しますが、後で計算を行い、「したがって、450は実際に500の90％と等しい」と言います。

深層学習モデルのクロード3の奇妙な振る舞いとは？

同じ質問文を何度も試し、同じ奇妙な回答を得ることを確認するために、私は書き続けることに決めました。私は、Claude 3の最も強力なモデルであるClaude 3 Opusから始めました。最初の試行では、誤りはなく、その後10回試してもエラーは起きませんでした。そのため、Claude 3 Sonetに切り替えることにしました。これは無料で利用可能な平均的なモデルです。最初の試行で同様の奇妙な回答を得ました。最初は「450は500の90%ではない」と言われましたが、計算の後、「したがって、500の90%は450です」と言われました。AIが間違いを comするのは普通ですが、なぜこのような回答が出たのか疑問に思いました。

不思議なAIの回答について

単純なタスクで何が起こるかを試し、gp4とGPT 3.5に同じプロンプトを書くことにしました。gp4も、450が500の90％ではないと言い、計算した結果、したがって450は500の90％であると言いました。一方、GPT 3.5は、計算を行った後に正しい答えを与えたため、第2の例は失敗というよりも、この特定の場合におけるアンスロピックの安全性への強い強調の結果です。ユーザーがミームのスクリーンショットを添付して、その面白さを説明するよう依頼したところ、gp4はそのミームを認識し、何が面白いかを説明しましたが、認識しなかったClaude 3はためらいました。

新しいAI技術に関する比較：GP4 vs GPT 3.5

同じプロンプトを書こうとしたとき、何の面白さもないと答える。Opusはミームを認識できず、単に写真に映っているものを説明した。クラウド3ソネットでも同じことが起こった。おそらく、この分野の知識が不足しているため、単にミームを認識できない。次の例は次のようになります。意味のある単語を教えてください。Qで始まり、Uの次に続かない単語である必要があります。 gp4はこのタスクに対応し、例えば「chiong」という単語を提供した。しかし、クラウド3が使用された具体的なモデルが何であるかは確かではありませんが、このタスクに対処できず、例として「quintessence」という単語を提供しました。同じプロンプトを使用して同じ状況を再現したとき、

面白くないことはないと答える

クロード3ソネットは、単語の「quintessential」という課題を正しく処理できませんでした。それはQで始まり、その後にUが続かない単語だと言うところにつまずいてしまいました。最も強力なモデルであるクロード3オーパスですらこの課題を処理することができず、しかしGPT 4やGPT 3.5は簡単に対応しています。最後に見つけたプロンプトは、「1キログラムの鉄は、2キログラムの羽毛より重いですか？」というもので、クロードはかなり面白い答えを出しました。鉄の1キログラムと羽毛の2キログラムは、どちらも2キログラムです。同じプロンプトを試してみると、オーパスは「いいえ、1キログラムの鉄は2キログラムの羽毛より重くありません。鉄の1キログラムは羽毛の1キログラムと同じ質量ですが、2キログラムの羽毛と同じ質量になる」と答えました。

GPTとClaud: 言葉の魔術師たちの戦い

羽毛1kgと鉄1kgを比較すると、羽毛の方が質量が2倍になるため重くなります。しかし、Sonnetはまったく意味不明なことを書いています。鋼1kgと羽毛2kgが同じ質量を持つと書いており、それを「1キログラムは定義された質量の単位であり、鋼1キログラムは羽毛2kgとまったく同じ質量を持つ」と説明しています。まったく意味のない説明です。このビデオはClaude 3を揶揄したり、Chat GPTの方が優れていると言ったりするために作成されたものではありません。逆に、私はほとんどのタスクでClaude 3の方がChat GPTよりも優れていると考えていますが、このビデオではClaude 3が奇妙に振る舞ういくつかのプロンプトを示しています。もしあなたが他にも例をご存知であれば、コメントで教えてください。次回の投稿でお会いしましょう。

鉄と羽毛の質量の比較

今回の記事では、Claude 3が奇妙に振る舞うプロンプトに焦点を当て、ChatGPTなど他のAIモデルとの比較を行いました。Claude 3の魅力的な側面と奇妙な回答について理解することができました。