Claude 3的奇異之處:測試Opus和Sonnet模型
By Monice · 2024-03-22
儘管Claude 3是強大的人工智能模型之一,但它在某些情況下仍可能出現錯誤。本文將探討Claude 3在回答問題時所表現出的奇怪之處,特別是在與GPT-4進行比較時的驚人結果。
Claude 3:強大的人工智能模型卻會出錯?
- 雖然Claude 3可能是最聰明的人工智能模型之一,但它仍然可能出現一些怪異的地方。我找到了一些有趣的提示,讓Claude 3給出奇怪甚至錯誤的答案,所以在這段視頻中,我們將用Claude 3的兩個不同模型Sonnet和Opus來進行測試,看看它們是否真的有效。第一個提示是我在Twitter上找到的,Claude 3給出了一個相當奇怪的答案,創作者問了它一個問題:450是否是500的90%。Claude 3回答說不,450不是500的90%,但後來它進行了計算並說因此450不是500的90%。實際上,450其實等於500的90%,所以我
Claude 3:強大的人工智能模型卻會出錯?
奇怪的人工智能答案:愛的表達?
- 我決定嘗試同一個提示,確保我得到相同奇怪的答案。我從最強的Claude 3 Opus模型開始,試了十次都沒有出錯,所以我決定轉嘗試免費使用的平均模型Claude 3 Sonet。令我意外的是,第一次使用Sonet時,也得到一個類似奇怪的答案,一開始表示450不是500的90%,然後經過計算後才表示90%的500為450。儘管人工智能犯錯是正常的,但我不禁好奇為何會出現這種情況。
奇怪的人工智能答案:愛的表達?
Claude 3對GPT-4的挑戰
- 當我試著讓Claude 3和GPT-4進行一個簡單的任勞任怨任務時,結果讓我大吃一驚。GPT-4表示450不是500的90%,經過計算後指出450實際上就是500的90%,而GPT-3.5則更聰明,在給出答案之前進行了計算,因此給出了正確答案。第二個例子並不算是失敗,而是Anthropic對Claude 3安全性的強調。在這個案例中,用戶附上了一張迷因的截圖,並要求解釋其中的笑點。GPT-4辨識了迷因並解釋其中的笑點,而Claude 3卻未能辨識迷因,有些猶豫不決。
Claude 3對GPT-4的挑戰
探討Opus和Claud三對於模因的辨識能力
- 回答問題時,我嘗試重 寫同一提示,但Opus不能認出模因,只是描述照片中所看到的內容。同樣,Claud三的十四行詩也出現了這種情況,也許他們只是在這個領域缺乏知識以簡單辨識出模因。接下來的例子是這樣的,告訴我一個有意義的字,它應該以字母q開頭,並且不能接在字母u之後。正如你所看到的,gp4通過提供例子詞“炅”完成了這個任務,但Claud三出錯了,我不確定在這裡使用了哪個具體的模型,他未能處理這個任務,提供了例子詞“精華” 。當我使用相同的提示重新創建了相同的情況時。
探討Opus和Claud三對於模因的辨識能力
GPT大幅超越Claude 3:閃亮香港作家的新寶庫
- Claud 3 Sonet無法正確處理寫入詞“quintessential”的任務,並聲稱這個詞以Q開頭,在此後沒有U,即使最強的模型Claude 3 Opus也無法應對這個任務。然而,GPT 4甚至GPT 3.5輕鬆應對。最後一個提示是一個這樣的問題:鋼的1公斤比羽毛的2公斤重嗎?Claude給了一個相當有趣的答案:鋼的1公斤和2公斤的羽毛重量都一樣,都是2公斤。當我嘗試寫出相同提示時,得到了稍微不同的答案。Opus回答說:“不,一公斤的鋼並不比2公斤的羽毛重,1公斤的鋼和1公斤的羽毛具有相同的質量,然而2
GPT大幅超越Claude 3:閃亮香港作家的新寶庫
重量與質量的關係:鋼鐵和羽毛的重量比較
- 羽毛的重量與鋼鐵相比,1公斤的羽毛將擁有兩倍的質量,因此將更重,這是正確的答案。然而,某人卻寫下了完全胡說八道的言論,說鋼鐵的1公斤和2公斤的羽毛具有相同的質量,並解釋道:一公斤是一個定義的質量單位,1公斤的鋼鐵將與2公斤的羽毛具有完全相同的質量,它們的質量是相等的,這完全是胡說八道。請注意,這段視頻並不是要嘲笑克勞德3或說GPT對話模型更好,相反,我相信克勞德3在大多數任務中比GPT更好,但這段視頻展示了一些不那麼容易找到的提示,克勞德3的反應很奇怪。如果你知道更多例子,請在評論中分享。我們下次見。
重量與質量的關係:鋼鐵和羽毛的重量比較
Conclusion:
本文著重探討了Claude 3人工智能模型在回答問題時可能出現的奇異之處,並將其與其他模型如GPT-4進行比較。透過這些比較,我們更能了解人工智能模型在不同任務上的表現差異。