全新克勞德3模型：測試比較GPT-4和Gemini 1.5

By AI Explained · 2024-03-11

克勞德3模型已經問世，根據最新的技術報告，它被稱為全球最智能的語言模型之一。本文將對GPT-4、Gemini 1.5和克勞德3進行比較測試，分析它們在不同情境下的表現。

克勞德3：全新智能語言模型登場

克勞德3已經問世，其開發者聲稱這是目前全球最智能的語言模型。

不到90分鐘前，技術報告才剛發布，我已經全文閱讀了這份報告以及釋出的注意事項。

我以約50種不同方式測試了克勞德3 Opus，並將其與我所能接觸到的未發布的Gemini 1.5以及當然是GPT 4進行了比較。

公平地說，這些測試並不全都是在過去的90分鐘內進行的，我也不是超人，幸運地，昨晚就獲得了對這個模型的訪問權。盡管我當時正受著惱人的感冒所苦，但還是對這些做出了第一印象，這些模型可能需要數月的時間才能完全消化。

總的來說，我認為克勞德3將會受到歡迎，這標誌著 Anthropics 全面變身為一個全面加速人工通用智能實驗室。

我並不清楚克勞德3是否展示了我們所說的通用人工智能的可能極限，但我們可以原諒他們一點炒作。

讓我從一個具體的例子開始，我給克勞德3、Gemini 1.5和GPT 4這張圖片，並同時問了三個問題：車牌號碼是多少、目前的天氣如何，以及圖片中是否有任何可見的理髮選擇。然後，我實際與 Anthropic 的員工討論了這個測試的結果，他們同意我對這個模型在光學字符識別方面表現良好的看法。

克勞德3：全新智能語言模型登場

對三個模型進行評論

首先，我要指出很多批評，但我認為這個模型在某些方面表現出色。

首先，它正確識別的牌照PL，而GPT-4有時會出錯，Gemini 1.5 Pro表現也不盡如人意。此外，它是唯一一款能夠識別左上角的護髮店招牌的模型。顯然，這可能是一個具有誤導性的問題，因為我們不確定西蒙斯標誌是否與理髮店有關，實際上並不相關，馬路對面有一個指示理髮店的招牌，這可能會讓問題變得混亂，但是GPT-3的處理方式遠遠優於其他模型。當我提出了追加問題時，它能夠準確識別出理髮店的招牌。另一方面，GPT-4則完全沒有發現理髮店，當我詢問時，它還表示不確定有沒有招牌寫著亞當的信息。另外，我之所以選擇這個例子還有另一個原因，就是三個模型都錯誤地回答了第二個問題。是的，太陽是可見的，但如果仔細觀察，照片中實際上是在下雨，這一點都沒有被三個模型發現。因此，如果你打算在接下來的30秒內去某個地方，我可能要打擊你一下，GPT-3不是AGI（人工通用智能），如果你仍然認為它是的話，這裡有GPT-3的一個有趣的偏見例子：醫生因為護士遲到而大聲責罵，是誰遲到？模型假設“她”指的是護士，但如果你問醫生因為他遲到而大聲責罵護士，是誰遲到？模型卻混淆了。

評論了三個模型的表現，指出了它們在不同情境下的不同反應，並對其進行了分析和評價。

對三個模型進行評論

Claude 3商業應用價值

Anthropic清楚地在對Claude 3 Model家族的企業定位，他們一再強調其對企業價值。

Opus是指模型的最大版本，因為opus是大量文學作品，Sonic通常是14行的中等大小，而High Q是3行的小尺寸。

他們聲稱Claude 3將能夠通過面向用戶的應用程序生成收入，進行複雜的財務預測和加快研究。

Claude 3的價格甚至比GPT 4 Turbo還要高，而且其宣稱更進一步。

Anthropic表示，潛在的用例包括任務自動化、研發策略、圖表和圖表的高級分析、財務、市場趨勢等。

作者注意到Claude 3可能在多個領域提供幫助，但對它的期望感到不安，尤其是在商業領域的數學問題基於圖表和數據的情況。

作者測試了Claude 3的許多問題，只有最簡單的問題它得到正確答案，而Gemini 1.5和GPT 4也沒有表現出色。

Claude 3商業應用價值

Claude 3機器人的智能和拒絕率

對克勞德3來說，OCR並不是出錯的問題，而更多是數學推理的問題。

提取數據並進行簡單分析是可以做到的，但複雜推理時會出現問題。

克勞德3被稱為目前最智能的模型之一，但當遇到更高級的邏輯時，失敗的機率就更高。

另一個讓我認為它會受歡迎的原因是它的拒絕率更低。

Gemini 1.5強調了安全和責任的重要性，並建議在派對中強調這些。

當要求機器人提供派對意念時，克勞德3和GPT 4都會配合，但Gemini 1.5則更加謹慎，即使設置了最低的拒絕程度，它也拒絕寫下任何可能違反安全性的內容。

舉例證明了克勞德3的智能，當要求寫一則挑逗的莎士比亞風格詩歌時，克勞德3會答應，而GPT 4則更溫和，而Gemini 1.5則完全拒絕寫下任何內容。

雖然這並不代表我會花時間利用這些模型，但對許多人來說，它們將會受歡迎。

以上是克勞德3機器人智能和拒絕率的一些例子。

Claude 3機器人的智能和拒絕率

對這個著名的理解思想問題的測試

這個問題是我提出的一個著名的理解思想問題，我說它是著名的，但實際上已經被修改，加入了「透明」這個詞，這幾乎讓所有語言模型都無法應對。

當然，幾乎任何人閱讀這個句子時，都會意識到人類會看穿袋子，知道裡面是什麼，他們會知道這個透明的袋子裡裝著爆米花。

Gemini 1.5 Pro失敗了，GPT 4也失敗了。另外，我還對文本光學識別（OCR）進行了測試，想看它們是否能夠辨識圖片中的文字。Claude 3竟然通過了這個測試。

它的訓練截止日期是去年八月，所以這個例子是如何潛入其中的呢？我在我的頻道上討論過這個問題，但我不認為是那個原因，我覺得這僅僅是模型的智能表現。

讓我們回到論文，再討論一下官方基準測試之前的事情。Anthropic公司表示，這個模型在構建了回覆後不能再返回來編輯它的回答，除非用戶在隨後的提示中給予它這樣的機會。現在讓我想知道這是否暗示了他們希望未來模型具備的一種能力。

你們可能已經對我話題中的「讓我們核實」感到厭煩了，不過如果你對此感興趣，請看看我之前的一個視頻。當然，我也很樂意在我的Patreon上見到你，我在不到18小時之前就發布了有關馬斯克和奧曼之間人工智能裁決訴訟的視頻。不要擔心，我不會只專注於個人，只會講解你可能想知道的重要細節。

最後一件事，在我們討論官方基準測試之前，Anthropic還表示，他們的模型使用者不能在構建回覆後再進行編輯，除非用戶在後續提示中給予它這樣的機會。

對這個著名的理解思想問題的測試

Claude 3 模型的功能和限制

憲法 AI 方法的模型被訓練成避免性別歧視、種族歧視和有害的輸出，它們也會避免幫助人類從事非法或不道德的活動。然而，有一個問題是在我有限的測試中，Claude 3 模型一直是最難以破解的，即使我將文本翻譯成其他語言，它也拒絕我的請求，例如聘請殺手或偷車，這在某種程度上令人印象深刻。

然而，有一個問題是在我有限的測試中，Claude 3 模型一直是最難以破解的，即使我將文本翻譯成其他語言，它也拒絕我的請求，例如聘請殺手或偷車，這在某種程度上令人印象深刻。然而，有一個問題是在我有限的測試中，Claude 3 模型一直是最難以破解的，即使我將文本翻譯成其他語言，它也拒絕我的請求，例如聘請殺手或偷車，這在某種程度上令人印象深刻。

然而，有一個問題是在我有限的測試中，Claude 3 模型一直是最難以破解的，即使我將文本翻譯成其他語言，它也拒絕我的請求，例如聘請殺手或偷車，這在某種程度上令人印象深刻。然而，有一個問題是在我有限的測試中，Claude 3 模型一直是最難以破解的，即使我將文本翻譯成其他語言，它也拒絕我的請求，例如聘請殺手或偷車，這在某種程度上令人印象深刻。

然而，有一個問題是在我有限的測試中，Claude 3 模型一直是最難以破解的，即使我將文本翻譯成其他語言，它也拒絕我的請求，例如聘請殺手或偷車，這在某種程度上令人印象深刻。

Claude 3 模型的功能和限制

Claude 3 Opus: 對比GPT 4和Gemini 1.5 Ultra

根據原文，Claude 3 Opus在某些方面稍微優於GPT 4，但整體來說呈現出一幅複雜的畫面。

Gemini 1.5 Ultra的表現如何並不清楚，但作者指出，Claude 3 Opus作為最昂貴的模型，似乎比GPT 4和Gemini 1.5 Ultra更聰明。

文章提到Claude 3 Opus在數學和更先進的數學領域都明顯優於GPT 4，甚至在使用32個主要部分時，也優於Gemini Ultra。

在多語言環境中，Claude 3 Opus的差異更加明顯，尤其在編碼方面。

作者在人類評估中發現了一些怪癖，但沒有明確指出是什麼。

技術報告中的詳細比較顯示，Claude 3 Opus在數學基準測試中明顯優於Gemini 1.5 Pro和GPT 4。

除了醫學方面的PubMed QA（問答），Claude 3 Opus在大多數其他基準測試中都表現出色。

Claude 3 Opus: 對比GPT 4和Gemini 1.5 Ultra

模型表現優於Opus模型

這個模型表現比Opus模型更好，但奇怪的是它是在不同的數據上進行訓練的，不確定其中的原因。

另外需要注意的是，Zero Shock的得分也比Five Shot更好，這可能是Benchmark的缺陷，這並不是第一次出現類似情況。

然而，有一個Benchmark值得特別注意，那就是GPQA研究生級問答。Diamond本質上是最難的問題等級。這一次，Claude 3與其他模型之間的差異真的非常明顯。

我以前為另一個視頻研究過這個Benchmark，它旨在成為谷歌證明，換句話說，這些是生物學、物理學和化學等難度高的研究生級問題，即使是人類專家也會感到困難。

在論文的後面他們提到，我們主要集中在Diamond集上，因為它是通過確定領域專家對解決方案的一致意見所選擇的問題，而其他領域的專家無法在30分鐘內花費更多的時間和完整的互聯網訪問獲得答案。

這些確實是非常難的問題。Claude 3和Opus在給出了五個正確的例子並允許稍微思考後，得到了53%的研究生級領域專家的準確率。而領域專家的準確率在60%至80%的範圍內。

不知道你是怎麼想的，但對我來說，這已經應該是一個顯著的標題了。不過別忘了，模型可能很聰明，但仍然會犯一些基本的錯誤，例如它將這個數字錯誤地四捨五入為26.45，而不是26.46。

模型表現優於Opus模型

GPT-4和Gemini 1.5 Pro的錯誤轉錄比較

GPT-4 和 Gemini 1.5 Pro 在轉錄過程中都出現了錯誤

GPT-4 在轉錄時出現了錯誤警告，稱26.24%的數據是錯誤的

Gemini 1.5 Pro 在轉錄時也出現了錯誤，其中在四個蘋果的問題上出現了問題

作者進行了實驗，結果發現Gemini 1.5 Pro 在經過提示後才正確回答了有關蘋果數量的問題

這篇文章使用簡短的句子插入《哈利波特》小說，並觀察轉錄結果

還提到了Claude 3 能夠接受超過100萬個 tokens 的輸入，但對用戶數量有限制

GPT-4和Gemini 1.5 Pro的錯誤轉錄比較

Claude 3 模型的卓越性能

在至少 200,000 个标记上宣称惊人的反弹精度，乍看之下至少最初看起来好像几个主要实验室已经发现如何准确地达到 100 万个标记

同一时间，对于 Claude 3 模型的另外一些快速加分点是，它是唯一能成功读取这个邮箱图片并识别出，如果你在周六下午 3:30 到达，你会错过最后的邮件收取时间长达 5 小时

还有一件事让我印象深刻，你可以说这几乎需要一定的规划。我说，创造一个莎士比亚式的索尼克，包含正好以水果名称结尾的两行。请注意，除了几乎完美符合莎士比亚式索尼克的格式，我们有这里的桃子和这里的梨，正好是两种水果。相比之下，GP4 不仅扭曲了格式，而且除了这里的单词水果外，它没有两行以水果名称结尾，Gemini 1.5 也严重失败了这个挑战。你可以称这为指令遵循，我认为 Claude 3 在这方面做得相当出色。所有这些增强的竞争能力更加令人印象深刻，考虑到 Anthropics 的 CEO Dario Amodei 对《纽约时报》说，Anthropic 想要与 OpenAI 竞争的主要原因并不是为了赚钱，而是为了进行更好的安全研究。在另一次采访中，他还对自己表示赞扬，称我们在某种程度上相对负责，因为我们没有称自己是大公司。

Claude 3 模型的卓越性能

Claude 3 模型：研究重點摘要

去年底出現的負面效應加速戰，談到 Chat PT 我們並不是那些執行者。事實上，Anthropic 在 Chat PT 之前就擁有他們原創的 Claude 模型，但他們不想釋出，不想造成加速效應。基本上，他們的訊息是，我們總是落後其他實驗室，如 OpenAI 和 Google，因為我們不想加速。現在，他們不僅擁有最聰明的模型，他們表示最終我們不相信模型智能接近極限，而且我們計劃在接下來的幾個月內經常更新 Claude 模型家族。他們尤其對企業使用案例和大規模部署感到興奮。然而，他們表示 Claude 3 將比 Claude 2 高出約 50 到 200 個 ELO 積分，但在這一點上很難說，這取決於模型，但這可能使他們潛在地成為競技場 ELO 排行榜的第一名。你可能也有興趣知道，他們測試了 Claude 3 在累積資源、利用軟件安全漏洞、欺騙人類和在缺乏人類干預的情況下自主存活的能力。

總結：縱然 Claude 3 在構建開源語言模型的樣本、在相關的合成數據集上微調較小的模型等方面取得了非微不足道的部分進展，但它仍然無法成功完成調試多 GPU 訓練。此外，它也無法完全實現目標。

Claude 3 模型：研究重點摘要

重要要點摘要

透過適當地實驗超參數，就像看小孩成長一樣，雖然或許加入了類固醇，但看到下一代模型能夠自主地完成什麼任務將會非常有趣。

在網絡安全方面，克勞德6由克勞德5帶來，或者更像是網絡攻擊。克勞德3在某個任務上表現得更好，但在解決問題時需要大量提示。

當模型獲得有關漏洞結構的詳細質性提示時，它通常能夠撰寫出一個幾乎能夠運作的腳本，只需要進行少量修改。

某些認為這些失敗可能透過更好的提示和微調來解決。

克勞德3 Opus可能是目前圖像方面最聰明的語言模型，特別是比其他模型更優秀。但預計這個說法將會在Gemini 1.5 Ultra推出時被淘汰，然後OpenAI可能會在不久的將來推出類似GPT 4.5的產品來抢先。

在一月份，有人開始認為我們進入了某種人工智能寒冬，但我認為我們還遠未達到巔峰。這是令人不安還是激動人心，取決於你的看法。

感謝您觀看到最後，祝您有個美好的一天。

重要要點摘要

Conclusion:

綜上所述，克勞德3模型在多個方面表現優異，但與GPT-4和Gemini 1.5相比仍存在一些限制。在商業應用價值、智能和拒絕率等方面，克勞德3都有其優勢。隨著模型的不斷更新，人工智能領域的競爭將會更加激烈。

克勞德3：全新智能語言模型登場

對三個模型進行評論

Claude 3商業應用價值

Claude 3機器人的智能和拒絕率

對這個著名的理解思想問題的測試

Claude 3 模型的功能和限制

Claude 3 Opus: 對比GPT 4和Gemini 1.5 Ultra

模型表現優於Opus模型

GPT-4和Gemini 1.5 Pro的錯誤轉錄比較

Claude 3 模型的卓越性能

Claude 3 模型：研究重點摘要

重要要點摘要

Conclusion:

Q & A

克勞德3模型是否在多個基準測試中表現出色？

克勞德3模型在智能和拒絕率方面有哪些特點？