Claude 3的奇異之處：測試Opus和Sonnet模型

By Monice · 2024-03-22

儘管Claude 3是強大的人工智能模型之一，但它在某些情況下仍可能出現錯誤。本文將探討Claude 3在回答問題時所表現出的奇怪之處，特別是在與GPT-4進行比較時的驚人結果。

Claude 3：強大的人工智能模型卻會出錯？

雖然Claude 3可能是最聰明的人工智能模型之一，但它仍然可能出現一些怪異的地方。我找到了一些有趣的提示，讓Claude 3給出奇怪甚至錯誤的答案，所以在這段視頻中，我們將用Claude 3的兩個不同模型Sonnet和Opus來進行測試，看看它們是否真的有效。第一個提示是我在Twitter上找到的，Claude 3給出了一個相當奇怪的答案，創作者問了它一個問題：450是否是500的90%。Claude 3回答說不，450不是500的90%，但後來它進行了計算並說因此450不是500的90%。實際上，450其實等於500的90%，所以我

Claude 3：強大的人工智能模型卻會出錯？

我決定嘗試同一個提示，確保我得到相同奇怪的答案。我從最強的Claude 3 Opus模型開始，試了十次都沒有出錯，所以我決定轉嘗試免費使用的平均模型Claude 3 Sonet。令我意外的是，第一次使用Sonet時，也得到一個類似奇怪的答案，一開始表示450不是500的90%，然後經過計算後才表示90%的500為450。儘管人工智能犯錯是正常的，但我不禁好奇為何會出現這種情況。

奇怪的人工智能答案：愛的表達？

當我試著讓Claude 3和GPT-4進行一個簡單的任勞任怨任務時，結果讓我大吃一驚。GPT-4表示450不是500的90%，經過計算後指出450實際上就是500的90%，而GPT-3.5則更聰明，在給出答案之前進行了計算，因此給出了正確答案。第二個例子並不算是失敗，而是Anthropic對Claude 3安全性的強調。在這個案例中，用戶附上了一張迷因的截圖，並要求解釋其中的笑點。GPT-4辨識了迷因並解釋其中的笑點，而Claude 3卻未能辨識迷因，有些猶豫不決。

Claude 3對GPT-4的挑戰

回答問題時，我嘗試重寫同一提示，但Opus不能認出模因，只是描述照片中所看到的內容。同樣，Claud三的十四行詩也出現了這種情況，也許他們只是在這個領域缺乏知識以簡單辨識出模因。接下來的例子是這樣的，告訴我一個有意義的字，它應該以字母q開頭，並且不能接在字母u之後。正如你所看到的，gp4通過提供例子詞“炅”完成了這個任務，但Claud三出錯了，我不確定在這裡使用了哪個具體的模型，他未能處理這個任務，提供了例子詞“精華” 。當我使用相同的提示重新創建了相同的情況時。

探討Opus和Claud三對於模因的辨識能力

Claud 3 Sonet無法正確處理寫入詞“quintessential”的任務，並聲稱這個詞以Q開頭，在此後沒有U，即使最強的模型Claude 3 Opus也無法應對這個任務。然而，GPT 4甚至GPT 3.5輕鬆應對。最後一個提示是一個這樣的問題：鋼的1公斤比羽毛的2公斤重嗎？Claude給了一個相當有趣的答案：鋼的1公斤和2公斤的羽毛重量都一樣，都是2公斤。當我嘗試寫出相同提示時，得到了稍微不同的答案。Opus回答說：“不，一公斤的鋼並不比2公斤的羽毛重，1公斤的鋼和1公斤的羽毛具有相同的質量，然而2

GPT大幅超越Claude 3：閃亮香港作家的新寶庫

羽毛的重量與鋼鐵相比，1公斤的羽毛將擁有兩倍的質量，因此將更重，這是正確的答案。然而，某人卻寫下了完全胡說八道的言論，說鋼鐵的1公斤和2公斤的羽毛具有相同的質量，並解釋道：一公斤是一個定義的質量單位，1公斤的鋼鐵將與2公斤的羽毛具有完全相同的質量，它們的質量是相等的，這完全是胡說八道。請注意，這段視頻並不是要嘲笑克勞德3或說GPT對話模型更好，相反，我相信克勞德3在大多數任務中比GPT更好，但這段視頻展示了一些不那麼容易找到的提示，克勞德3的反應很奇怪。如果你知道更多例子，請在評論中分享。我們下次見。

重量與質量的關係：鋼鐵和羽毛的重量比較

本文著重探討了Claude 3人工智能模型在回答問題時可能出現的奇異之處，並將其與其他模型如GPT-4進行比較。透過這些比較，我們更能了解人工智能模型在不同任務上的表現差異。