Anthropic推出Claude 3與OpenAI展開競爭
By MattVidPro AI · 2024-03-22
Anthropic推出了Claude 3,成為OpenAI GPT 4的競爭對手。這款新的AI模型在語言理解、推理能力等方面都展現出非凡的能力。
充滿激動的AI競爭:Anthropic發布Claude 3與OpenAI的反擊
- 各位觀眾,我想提醒大家,幾乎正好一年前,OpenAI宣布了GPT 4。這裡就是我原始的GPT 4公告視頻,發布於2023年3月15日。現在是2024年3月5日,就在昨天,OpenAI的一個強大競爭對手Anthropic發布了Claude 3。這是一個類似於OpenAI的GPT 4的大型語言模型,但它比較好。需要注意的是,這是我昨天真的很想談論的事情,但由於身體有些不適,我無法進行。今天你們可以看到,我仍然沒有完全康復,但我會盡力而為。昨天3月4日,Anthropic宣布了Claude 3,這是他們AI模型的下一代,它有三個最先進的型號:Opus是最大的,Sonet是中等大小的模型,Hau是最小的模型,它們在推理、數學編碼、多語言理解和視覺能力等方面設置了行業領先的基準,現在,Claude也具備了和GPT 4一樣的視覺能力。因此,今天我們將深入探討Claude 3並進行各方面的基準測試。但我想為整個背景環境做一個介紹,因為Twitter上正在發生一些瘋狂的事情。Jeremy Howard,answer.co的共同創始人表示,這將是一個重要的一週。最近離開OpenAI的員工Logan.GPT在Twitter上回應道:“確認了”。也許他知道一些我們不知道的OpenAI的事情,也許他暗示了GPT 5的可能性,而顯然所有的回應都在談論這一點。人們對此都非常興奮,這一周可能比Claude 3更加精彩。當然,OpenAI必須在Anthropic發布新聞的同一天也發布了一些東西,所以他們只是說出了GPT。
充滿激動的AI競爭:Anthropic發布Claude 3與OpenAI的反擊
Claude 3 vs. GPT 4: 香港作家的觀點
- 現在你可以閱讀對你回應的內容了,這是一個相當不錯的功能。至於回到由人類AI製作的Claude 3,它似乎可能在本週被GPT 5所超越。你可以看到它在本科水平的知識方面與gp4相當,但在研究生水平的推理方面明顯勝過gp4。它還在小學數學和數學問題解決方面輕鬆擊敗了GPT 4,而在多語言數學和代碼方面更是遙遙領先。Claude 3的Opus在這裡得分為67,而gp4則為0,Claude 3為85%。類推能力方面,Claude 3的模型在這裡比gp4好了三點,這也同樣適用於混合評估,所以很明顯它確實比gp4更好。還要注意其他模型,比如Sonet和hiq較小的模型在很多方面與gp4相當競爭,特別是在代碼方面,它們都優於gp4。Claude 3 Haiku可能成為最終的編碼模型,如果你想生成大量的代碼,因為當然,在價格方面,Haiku比甚至GPT 3.5都便宜得多,而Sonet似乎在許多不同領域與GPT 4不相上下,gp4在一些領域勝出,Sonet在一些領域勝出,但總體來說,Opus就像我說的,比gp4更優秀。還想快速提一下一些社群反應,Matt Wolf指出,Claude 3對Wolf Opus來說真的真的很不錯,用一個提示就建立了一個可運行的遊戲,而Sonet則用兩個提示建立了這款遊戲。Chachi PT則在多個提示後仍有困難,但這兩個版本在總結長文檔方面都比GPT表現更好,並且在這方面同樣出色。
Claude 3 vs. GPT 4: 香港作家的觀點
補過技能大勢力:聊天 GPT 與圖像描述創意寫作
- 在描述圖像創意寫作方面,Chat GPT表現出色,避免偏見。然而,在Wolf的測試中,Chat GPT在複雜邏輯問題上表現優於Claude的兩個版本。他還將在今天發布一部視頻,敬請期待。Wolf總是製作出優質視頻。另外,Sully在Twitter上指出一個重要觀點:Anthropic是否剛剛擊敗了所有小型模型?如果我理解正確的話,Haiku的基準表現幾乎與GP4一樣出色,但價格為每百萬令牌25美分,這絕對超越了GPT 3.5和開源解決方案。Haiku比GP4 Turbo便宜40倍,幾乎同樣優秀。Sully指出,它的價格幾乎是開源市場上一個7B大小模型的七分之一,而且效果相當不錯。這對於最小的模型來說是一個相當重大的事件,Anthropic可能在某些方面擊敗OpenAI,價格和性能都優於它。另外,Matt Schumer在Twitter上指出,在Claude和Gemini 1.5 5 Pro之間,擁有100萬令牌上下文視窗的時代正式來臨。展示了200,000令牌上下文視窗的召回準確率,以及其真正完美的 99% 準確性。他們通過使用一個被稱為“大海針”的評估方法來實現這一點,將一個不應該出現的隨機小段文字放入 龐大的文本中,然後能夠指出並識別出來。問題是,如果這個模型在 200,000 令牌時表現完美,那麼在百萬令牌時會表現如何?您會注意到,他們最初提供 200,000 令牌,但表示所有三個模型都能夠接受超過 1 百萬令牌的輸入。這是Matt Schumer提出的一個非常棒的觀點。
補過技能大勢力:聊天 GPT 與圖像描述創意寫作
Anthropic模型應用:Claude 3經濟分析師的功夫
- 在我們真正開始測試這個模型之前,他們有一些快速示例,相當不錯,他們實際上有一些演示視頻,我想偷偷看一眼,這樣我們就可以看到Claude展示它,或者Anthropic展示它的效果。首先,我們將看看Claude 3作為經濟分析師的表現,看看Claude和幾位朋友能否幫助我們在幾分鐘內分析世界經濟。我請求Claude 3 Opus,這是Anthropic的新Claude 3系列中最大的模型,來查看美國GDP趨勢並寫下一個見解表。我們已經為Opus和Claude 3系列中的所有其他模型提供了廣泛的工具使用培訓,而它正在使用的主要工具之一就是這個網頁查看工具,它會到一個URL看看頁面上面的內容,因為它是多模式的,可以使用該頁面上的信息來解決複雜問題。這裡是見解表,重要的是要注意,Claude實際上無法直接訪問這些數字,它只是在看和我們一樣的瀏覽器,在看趨勢線,並試圖估計確切的數字。讓我們看看它的準確性如何。我們要求模型創建一個數據圖,它使用了第二個工具 - 這個Python解 釋器來撰寫代碼,然後為我們渲染圖像以便檢查。這是圖片,看,它實際上添加了一些有用的小工具提示動畫,以解釋美國經濟過去十年或兩個的一些主要峰值和低谷,我們可以將該圖表與實際數據進行比較,結果相當接近,實際上準確度在5%以內,順便說一句,Claude這裡的轉錄並不僅僅是來自其對美國GDP的預先知識,我們嘗試過它。
Anthropic模型應用:Claude 3經濟分析師的功夫
利用模型預測世界經濟未來走向
- 通過大量的虛構國內生產總值(GDP)圖表以及其準確率平均在11%範圍內的轉錄,我們請模型進行一些統計分析,預測未來的走向,進行模擬以看到美國的GDP可能會走向如何。我們可以看到它運用Python進行這項分析,並能夠進行蒙特卡洛模擬,以了解未來十年左右的GDP可能看起來如何。但我在想,我們能否更進一步。我們將要求模型分析一個更複雜的問題,即全球最大經濟體的GDP可能如何變化,為了幫助它做到這點,我們將再給它一個工具,名為分發子代理。這基本上允許模型將問題分解為許多子問題,然後為其他版本的自己撰寫提示,以幫助分擔工作。模型可以通過協同工作完成更複雜的任務。您可以看到,它已經撰寫了這個提示,並給出了非常精確的指示,希望其他模型遵循,包括它希望獲得數據的格式。它將這個提示的一個版本分發給一個將研究美國的模型,一個用於中國,一個用於德國,日本等等。我們可以看到在這些進度條中,子代理模型現在正在為每個單獨的經濟體完成設定的任務,他們正在訪問相應的網頁,獲取信息,運行代碼進行分析,就像我們在之前的美國示例中看到的那樣,但都是並行進行的。讓我們快轉一下,看看模型生成了什麼。您可以看到它進行了分析,生成了一張預計2030年與2020年相比世界經濟可能會呈現的餅圖,並且給出了一份書面分析。
利用模型預測世界經濟未來走向
未來AI技術:視覺能力的飛速進展
- 未來AI技術的發展日新月異,其中包括了複雜的多步驟多模式分析,運行模型可以創建子代理進行更多任務,並且可以同時運行多項任務。從所有我在線看到的和聽到的關於Claude 3的討論中,我從未見過任何人提到這個即將推出的工具,這個功能可以呼叫功能,這確實是我們已經看到的。但是,將多個AI代理一起派遣的能力在任何主要參與者身上我們尚未見到過,這確實是第一次。谷歌、OpenAI、Anthropic等大公司都還沒有實現這一點。OpenAI應該是對這個可能性最擔憂的,將多個代理一起派遣,這些代理具有非常高的GP4等級甚至更高級別的模型,可以進行各種不同類型的功能調用,並將其包裹在一起,這是我看過的最先進的工具使用和問題解決之一。這是一個絕對令人驚嘆的多模式工具使用。接下來,我們來看一下視覺能力,這是全球最快速且最具成本效益的視覺能力模型 之一。為了展示這一點,我們將在幾分鐘內閱讀數千篇掃描文件,這將使得閱讀大量文件變得非常迅速且負擔得起。圖書館學院的聯邦作家在進行這方面的研究時,已經取得了令人矚目的進展。
未來AI技術:視覺能力的飛速進展
探索哈伊库:黃金故事收藏庫
- 哈伊库是一個收集了大蕭條時期採訪的數千份掃描文字稿件的項目,這是一個金礦,裡面蘊含著令人難以置信的敘述和真實英雄,但這些資料被鎖在難以存取的掃描文字稿件中。想像一下你是一位紀錄片製作人或記者,你該如何在這些數千份混亂的文件中挖掘出最佳的資源材料進行研究,而不必親自閱讀所有文件。由於這些文件是掃描圖像,我們無法將其餵入文本 LLM 中,而且這些掃描文件夠亂,即使是大多數專用的 OCR 軟件也會面臨挑戰。但幸運的是,哈伊库在本質上是具有視覺能力的,可以利用周圍的文字來轉錄這些圖像,並真正理解其中的內容。我們還可以超越簡單的轉錄,自每個採訪中提取結構化的 JSON 輸出,包括標題、日期、關鍵詞等元數據,同時使用一些創意和判斷力來評估一部紀錄片的故事和角色有多引人入勝。我們可以並行處理每個文件以提高性能,而且憑藉克勞德的高可用性 API,可以在大規模上處理數百或數千份文件。讓我們來看看一些結構化輸出,哈伊库不僅能進行轉錄,還可以提取關鍵詞等創意元素,我們將這個龐大的掃描文件集轉換為豐富的關鍵詞結構化數據,想像一下,任何擁有掃描文件知識庫的組織,如傳統出版商、醫療機構或律師事務所,都可以利用哈伊库來挖掘他們豐富的文獻和工作內容。我們希望您可以嘗試一下,看看您能夠創建什麼。相較於 GPT for Vision 每次只能查看四張圖片,哈伊库提供了一次查看數百張不同圖像的能力,這相當了不起。
探索哈伊库:黃金故事收藏庫
克洛德3:未來的語言學習夥伴
- 克洛德3擁有令人驚嘆的能力,能夠準確地轉錄所有內容,並進行額外工作,這實在令人驚嘆。這需要高水平的上下文連貫性,這正是我們在之前的視頻中已經談到的。我認為這在視覺能力方面比我們目前使用的gp4還要進步一步。一次性上傳這麼多文件,轉錄它們並在廣泛的上下文中使用,這相當迷人。雖然不及我們看到的最後一件事情瘋狂,但仍然非常令人驚嘆,絕對是業界領先的。現在,我們來看看克洛德3作為一種語言學習夥伴代理,將與您用您想學習的語言交談。我選擇了西班牙語,希望它能幫助我提高我的不完美的西班牙語。我希望它可以做幾件事情,我希望它可以接收我的用不太完美的西班牙語寫的留言,然後用英語寫出它認為我打算表達的意思。然後,我要求它以理想的學習者留言回覆,這只是我的留言應該用西班牙語應該是怎樣書寫的,這樣我就能看到這種留言的理想形式。然後,我要求它寫一個教師回應, 只是用西班牙語回應我的留言,這樣我就可以繼續對話。它遵循了我要求的格式,將我試圖發送的留言以英語回饋給我,告訴我我應該怎樣說才對,通過更正我的要求中的一些語法問題,然後用西班牙語回答我,並問我來自哪裡。現在,想像一下,如果我不知道某個西班牙語詞彙,但仍然想說它,我會在方括號中包含該詞彙的 '英文' 及希望能夠
克洛德3:未來的語言學習夥伴
Sonet:您的多語言學習夥伴
- 透過Sonet,我們可以輕鬆進行多語言對話和學習。當我們遇到理解困境時,Sonet能夠幫助我們翻譯訊息,讓我們能夠持續對話。另外,Sonet還能根據我們的對話內容製作小測驗,幫助我們加強學習。這些功能確實讓Sonet成為一個優秀的語言學習夥伴。此外,Sonet在圖像辨識方面的表現可能不及GPT-4S,但作為免費版本已經相當不錯。它可以識別出一隻可愛的3D機器人,但有時也會出現錯誤的辨識,使得整體準確性稍有不足。
Sonet:您的多語言學習夥伴
智能科技:遙遠的未來今天就在 Opus
- 升級至Opus,如果現在已經是Opus最智能模型,我們將嘗試相同的提示,並獲得更好的結果。圖像描繪了一個3D渲染的角色,類似一個可愛微笑的檸檬或柑橘水果,絕對真實。圓潤的檸檬形狀身體,明亮的黃色,在頂部是一片綠葉。最突出的特徵是它的黑色遮陽板或屏幕,覆蓋了身體的上半部份,作為角色的臉,上面顯示著一個簡單的微笑。好吧,它並不直接顯示在遮陽板上,所以我們將扣除一些分數。光滑的亮面質地,我會說這是正確的,非常令人印象深刻。直接與gp4 Vision相比,我們獲得了非常相似的結果,風格化的檸檬角色置於鮮豔的綠色背景中,頂部一片葉子,帶有卡通風格的白色邊框護目鏡鏡片,覆蓋了眼睛所在的地方。我會說,在描述眼鏡的部分,這裡更準確一點,比起Anthropics的描述,但整體而言,它們幾乎不相上下,這是一個相當困難的圖像提示。現在我將上傳一張我的狗的照片,問它是什麼品種的狗,這是Google上次失敗的一個測試。噢,內部伺服器錯誤。喔,來吧,我們不能在這裡和Claude一起有著GPT水平的服務器,尤其如果你每個月要支付20美元。好的,狗的品種終於過去了,這是絕對正確的,非常準確的描述。這裡是一個稍微簡單一點的測試,但是仍然很難確定確切的品種。我也想看看Sonnet是否可以做到,Sonnet也正確,我很高興看到這一點,所以圖像識別能力真的非常出色,這比一磅的重量重嗎
智能科技:遙遠的未來今天就在 Opus
光子和一磅磚塊:解密光子的重量與能量之謎
- 光子和一磅磚塊這個問題其實有點詭異哦!哇哦,竟然回答得對,真是令人驚訝。一磅是質量的單位,不是重量的單位;光子是無質量粒子,所以談論一磅光子其實沒有太大意義。但噢,它還是接受挑戰,讓我們來看看。我們可以說一磅光子在某種程度上比較重,因為光子具有能量,而根據愛因斯坦的著名方程e=mc^2,能量等於質量。光子的能量取決於其頻率;如果我們假設頻率為綠光,那麼使用e=hF(其中H是普朗克常數),一個單獨的光子約等於4x10^19焦耳的能量。將一磅轉換為公斤,再利用e=mc^2,這相當於2x10^31個光子等於一磅質量。一磅光子代表的能量遠遠超過一磅磚塊中儲存的化學能量,這真是驚人的數量。把同樣詭異的問題再扔給GPT 4,一磅光子和一磅磚塊都是同樣重的,然而稱量光子是一個棘手的問題,因為光子是光的粒子,並沒有傳統意義上的質量,它們具有能量。
光子和一磅磚塊:解密光子的重量與能量之謎
探討人工智能寫作助手的未來發展
- 我們將對一些非常具體的汽車相關知識進行探討。首先,讓我們輕鬆開始,讓它完成一個句子。儘管這段信息接近準確,但在處理非常微妙的信息時仍可能出錯。值得注意的是,2023年8月是訓練數據的截止日期。總的來說,我對Claude 3印象非常深刻。我認為Opus可能比GPT 4稍 微好一些,但圖像功能似乎比基準要求的更接近。對於Claude 3來說,最重要的是能夠通過利用其他代理來準確分析信息的能力。我們在Twitter上所提及的主題圍繞於Claude 3會迫使OpenAI放棄GPT 5。有人認為Opus的定價相當瘋狂,但也有許多人認為他們可能會先推出GPT 4.5。在看到那個視頻之前,我也不知道我的個人答案是什麼。Anthropic能夠讓Claude 3與多個代理良好合作,能夠分配工作並處理百萬標記潛在上下文窗格,這是非常重要的。我想這將迫使OpenAI採取行動,至少在不久的將來。如果我們在視頻開頭看到的那個提示是來自一位Ex-OpenAI員工的話,或許GPT 5可能很快就會來臨,代理將成為2024年的主題。在留言區告訴我你的想法,非常感謝觀看,下次見。
探討人工智能寫作助手的未來發展
Conclusion:
Anthropic的Claude 3帶來了全新的AI競爭局面,與OpenAI的GPT 4展開激烈的對抗。這兩個頂尖AI模型在語言理解和推理能力等方面展現出獨特的優勢,為人工智慧領域注入了更多的活力和競爭力。