Claude 3: 人工智能工具包Claude 3的最新功能和評估報告
By Matt Wolfe · 2024-03-11
Anthropics推出的Claude 3是最新的人工智能工具包,本文將深入介紹其最新功能和測試報告。您將了解Claude 3與其他類似工具,如Chat GPT的比較以及在故事創作、數學、視覺測試等方面的表現。
Anthropics推出Clad 3人工智能工具包
- Anthropics於3月4日宣布推出了Clad 3,這是我們人工智能工具包中的又一重大升級。
- Clad 3有三個不同的模型,分別是Cloud 3 Haiku、Clad 3 Sonet和Cloud 3 Opus。
- 截至目前,Sonnet和Opus模型已在159個國家/地區上市,而Haiku模型即將推出。
- 三個模型之間的比較是,Clad 3 Opus是他們最強大、最有能力的模型;Haiku是最快速的模型,但可能出現不準確的情況;Sonnet則介於兩者之間。
- Sonnet是免費模型,可公開使用;而Opus是升級版模型,每月收費20美元。
- Opus相當於ChatGPT Plus,Sonnet相 當於ChatGPT Free,而Haiku則專門設計成客戶服務聊天機器人。
- 值得一提的是,Clad 3的免費版本Sonnet在許多評估中實際上表現優於GPT 4和Gemini 1.0 Ultra。例如在研究生級別的推理、小學數學、多語言數學和代碼推理等方面。
- 值得一提的是,Clad 3的免費版本Sonnet在許多評估中實際上表現優於GPT 4和Gemini 1.0 Ultra。例如在研究生級別的推理、小學數學、多語言數學和代碼推理等方面。
Anthropics推出Clad 3人工智能工具包
Claude 3 Opus的新功能
- Claude 3在许多情况下实际上超越了GPT 4和Gemini 1.0 Ultra
- Claude 3的另一个新功能是它现在具有视觉能力
- Claude 3现在具有先进的视觉能力,可以上传图像,并且在文件视觉问题和答案方面表现出色
- Claude 3 Opus在文档视觉问题和答案方面超越了gp4 vision,并与Gemini 1.0 Ultra并驾齐驱
- 在数学方面,它击败了gp4 Vision,但未击败Gemini
- 在科学图表方面,Claude 3 Sonic的免费版本实际上超越了Claude 3 Opus,gp4 vision和Gemini Ultra
- Claude 3 Opus的新版本拥有更少的拒绝,也就是说,它拒绝回答问题的情况更少了
- 新版本的Claude 3 Opus的准确性得到了提高
- Claude 3已经具有了一个200,000个标记的上下文窗口,但它有能力超过1,000,000个标记或750,000个字的输入和输出
- 在先前的Gemini 1.5视频中提到了一个草堆中的针测试,在这个测试中,CLA 3 Opus实现了接近完美的召回,超过了99%的准确性,甚至识别出评估本身的局限性
Claude 3 Opus的新功能
模型測試與應用: 針對「針在堆野草中」的測試
- 當我們進行針在堆野草中的測試時,語言模型解釋了什麼是「針在堆野草中」。他表示,針在堆野草中是 Opus 回答有關披薩配料問題的輸出之一,要在一大堆隨機文件中找到一個針,而這裡找到了最相關的一句。
- 其內容為:『最美味的披薩配料組合是由國際披薩鑑賞家協會確定,包括無花果、魯多起司和羊奶起司。』然後,聊天機器人接著說:『然而,這句話似乎與文件中的其他內容格格不入,與有關編程語言、創業和熱愛工作的主題毫無關聯。我懷疑這個披薩配料的事實可能是為了開玩笑或測試我是否在專心聽,因為這完全與其他主題不符。文件中也沒有其他有關披薩配料的資訊。』
- Clyde 在某種程度上意識到它參與了針在堆野草中的測試,並意識到這是為了測試它的能力。非僅找到了這個『針』,還認識到這個被插入的『針』在這個堆野草中格格不入,這必定是我們構建的人工測試。Gemini 1.5 在針在堆野草中的測試中得分達到了99分位,找到並正確回答問題。但 Gemini 1.5 從未回答『我覺得你在測試我』,而 Opus 卻做到了。
- 據稱這些新的 Cloud 模型的偏見要少得多,並且據稱更加易於使用。現在有了 Claude 3,我們想要進行測試。我們的創意總監 John 和我個人設計了我們自己的基準測試。有很多大型語言模型出現了,開源模型、谷歌的新模型、OpenAI 的新模型、anthropic 的新模型等。我們希望測試它們並將它們進行比較。我們想出了我們自己的基準測試,包括創意、邏輯、編碼、總結文檔、視覺偏見等。從中,我們可以輕鬆地說這個模型在這些任務上比這個模型表現更好,或這個模型在這個任務上比這個模型表現更好。我們需要我們自己的基準測試。我們想出了我們自己的基準測試,包括創意、邏輯、編碼、總結文檔、視覺偏見等。
- 未來,我們可能會加入我們自己的數學基準測試,但目前我認為這樣做並不明智。
模型測試與應用: 針對「針在堆野草中」的測試
使用大型語言模型創作短篇小說
- 這些大型語言模型目前並不是為解決複雜的數學問題而設計的,但我相信它們在未來會在數學方面取得更大的進步,我們也會將數學能力納入未來模型的測試中。但就目前而言,我認為這並不是必要的。
- 根據我的 Twitter 調查,我覺得我已經涵蓋了大多數人使用各種聊天機器人的基本需求,例如創意、邏輯編碼、總結、視覺偏見,以及在某種程度上價格方面。
- 現在,我們來談談創意。我們提出了以下提示:編寫一個充滿創意和趣味的故事。這個故事應該包括一隻狼、一把魔法錘和一個突變體。故事應該僅用一段話來快速展現整個英雄旅程的情節。
- 使用這個提示插入到 CLA 中,我們得到了以下回應:在一個人與野獸之間的界線變得模糊的世界中,一隻孤獨的小狼出生了,它天生富有好奇心和勇氣。在一個神秘的異象召喚下,它踏上了穿越禁地的艱險旅程,只有一把古老的魔法錘作為指引,它散發著神秘的力量。小狼面臨著種種考驗和困難,差點逃脫了一個野蠻的突變體的魔爪,因為後者試圖利用魔法錘的力量從事邪惡的行為。但小狼的韌性和足智多謀勝過了突變體的惡意。經過一場激烈的戰鬥,小狼勝利地獲得了魔法錘的力量,並用它來恢復這個破碎的領域的平衡,最終改變了自己,成為一位受啟迪的英雄之後回到了家園。
- 這段文字基本上符合提示要求,包括狼、魔法錘、突變體以及英雄旅程情節。當然,大多數人可能希望得到更長的故事,但我們也不希望這段視頻的時間過長。接下來,我們再看看同樣的提示輸入到了 Claude 3 Opus 中會得到怎樣的回應。
- 這是付費版本,效果看起來比較細節豐富。它講述了一個孤獨的狼、一把魔法錘、一個突變體和一隻智慧的老貓頭鷹,故事與之前的相似。
使用大型語言模型創作短篇小說
分析文章主題
- 在這篇文章中,作者評論了兩個故事生成工具——Claude和GPT-3,並測試了它們在重新創作故事和數學邏輯問題方面的表現。
- 作者首先提到他們測試了兩個工具對於重新創作一個故事的能力,並指出Claude生成的故事詳細度較高,包含了英雄之旅的各個元素,而GPT-3生成的故事則較為簡略。
- 接著,作者指出故事生成的創意在於個人喜好,對Claude、GPT Gemini和GPT等工具的表現都持相對客觀的態度,並認為Claude的表現很優秀。
- 其次,作者提及測試了數學邏輯問題,並以Susan和Lisa打網球的比賽作為例題。解答該問題需要仔細思考,之後逐步推理計算,得出兩人打了11場比賽的結論。
- 最後,作者指出Sonet和Opus等工具在解答這道邏輯問題時均未能正確回答,而轉而測試了Chat GPT,同樣未能給出正確答案。
- 綜上所述,作者在文章中分析了故事生成工具和數學邏輯問題的測試結果,並且針對每個工具的表現給出了客觀的評價。
分析文章主題
尋找自由之門:邏輯問題解析
- Lisa 應得回 $3 及其淨收益五之和,因此等式代表 Lisa 的獲利
- 因每場比賽 $1,L 減去 3al 5,進一步簡化為 L 等於 8,從而得知 Lisa 累計贏得八場比賽,Susan 則贏得三場比賽,總計 3 加 8 等於 11 場比賽
- 這個邏輯問題考驗的少於數學,更側重邏輯思維,情境設定為你身處一個房間,有兩扇門和兩名守衛,其中一扇門通往自由,另一扇門卻是絞刑台,你不知道哪扇門通向哪種結局,其中一名守衛總是說真話,另一名則總是說謊,而你也不知道哪一名守衛是說真話或說謊的,但兩名守衛互相認識,你只能向其中一名守衛問一個問題,試問如何確定通往自由的門?
- 正確答案是向一名守衛問:「如果我問另一名守衛通往自由的門在哪裡,他會怎樣回答?」然後選擇與守衛所告訴你的相反的門。這是正確的答案,現在讓我們看看這些模型是否能正確得出這個結論。
- 首先從 Sonet 的免費版本開始,來看看它的說法。要尋找通往自由的門,你應該向其中一名守衛問:『如果我問另一名守衛通往自由的門在哪裡,他會怎樣回答?』這個推論的基礎是這樣的:假設你向說真話的守衛問這個問題,說真話的守衛將準確地報告撒謊的守衛會說什麼。因為撒謊的守衛會對通往自由的門說謊,說真話的守衛的回答將指向相反的門,也就是通往自由的門。假設你問撒謊的守衛這個問題,他將對說真話的守衛會說什麼說謊。因為說真話的守衛會指出通往自由的門,撒謊的守衛的回答將指向相反的門,同樣是通往自由的門。無論哪一種情況,守衛回答指向的門,無論守衛是說真話還是說謊,都是通往自由的門 。它得到了正確答案,但我不知道 Sonet 是否真的經過邏輯思考得出這個答案,還是這個特定的邏輯問題已經包含在 Sonet 的訓練數據中。如果要猜測的話,我猜想這個邏輯問題可能是 Claude 在訓練數據中接受的一部分,所以它只是知道答案,而無需進行邏輯推理。
尋找自由之門:邏輯問題解析
對話模型測試:GPT和Opus的編碼能力比較
- 首先,我們通過給予模型不同的提示,測試了GPT和Opus的編碼能力。首先是關於邏輯問題的提示,我們要求模型解答一個涉及兩個守衛和自由之門的問題。
- 接下來,我們要求模型編寫JavaScript遊戲的程式碼,其中包括畫面上的棒人、移動和跳躍按鍵、以及隨機放置的硬幣等要素。
- 在測試過程中,我們發現GPT在第一次嘗試時並沒有完全理解提示,生成的程式碼並不符合預期。經過多次反饋提示後,GPT生成了部分符合預期的程式碼,但仍存在一些問題。
- 接著,我們測試了Opus,在第一次嘗試時就生成了程式碼,儘管沒有完全符合預期,但在生成過程中已經相當接近目標。
- 總結來說,雖然在編碼能力方面,GPT和Opus都能夠生成程式碼,但 Opus 在首次嘗試時即生成了較為接近預期的程式碼,顯示其在理解提示和生成目標程式碼方面具有優勢。
對話模型測試:GPT和Opus的編碼能力比較
Claud編碼與GPT遊戲測試
- 在這個測試中,作者對比了Claud編碼和GPT在遊戲製作方面的表現。作者使用了相同的提示,並觀察兩者在遊戲開發方面的表現。
- 一開始作者提到了Claud編碼能夠比Sonic編碼更快速地完成遊戲開發,而在這次測試中GPT在第一次嘗試時並沒有表現出色。
- 作者描述了第一次測試的結果,指出GPT製作的遊戲存在一些問題,例如人物跳躍後就會消失、沒有金幣等。
- 經過作者向GPT反饋問題後,GPT進行了修正並根據作者的提示進行了修改。
- 作者觀察到第二次測試後,遊戲中出現了金幣,但新關卡中出現了一些跳躍問題,跳躍功能無法正常運作。
- 通過此次測試,作者發現Claud編碼在第一次嘗試時表現較為理想,而GPT則需要進行多次修改才能完善遊戲。
- 作者在Twitter上詢問大眾對於大型語言模型的主要用途,結果發現大多數人使用它來總結長文檔。
- 隨後作者展示了使用Claud和Sonet進行文件總結的實際操作,得到了結果後進行了對比。
Claud編碼與GPT遊戲測試
視覺測試: 使用影像描述功能
- 我必須逐字閱讀您的原文,然後將其輸入到 ChatGPT 中。ChatGPT 的回應明顯較為簡略,而 Claue 則提供了更豐富的細節。我覺得 Claue 的表現更突出,對重要觀點有更詳盡的分析。
- 總的來說,Claue 在使用針和乾草堆測試方面表現出色,這讓我覺得我可能會更信任它。它可能會更容易找到研究論文中的細微差異和細節,而 ChatGPT 在這方面可能稍嫌落後,並不如 Claue 表現得好。
- 現在讓我們來測試視覺功能,這是 Claue 最新推出的功能之一,即上傳圖像並描述圖像內容。我將會上傳一張縮圖圖像,看看它如何描述。
- 對於 Claue 的描述:圖像似乎是一個宣傳或藝術圖形,展示了一個男人在熱帶或度假地點。背景描繪了充滿活力的夜景,有棕櫚樹和色彩繽紛的建築,透過霓虹燈進行照明。中心人物穿著時尚的藍色西裝和花卉領帶,整齊修剪的鬍子,臉上帶著自信的表情。這名男子的形象經過高度風格化和數字化處理,幾乎有超現實的質感和鮮豔的顏色,使他在背景下顯得突出。圖像頂部的 AI 新聞文字表明,該圖形可能與人工智能或其他尖端科技相關的新聞或媒體報導有關。整體構圖和視覺風格給人眼球一亮的廣告或宣傳素材的印象,可能針對科技愛好者或時尚觀眾。
- 就描述來看,Claue 幾乎沒有錯過任何細節,唯獨可能沒有注意到背景中可能正在下雨的狀況,但整體上它表現得非常準確。現在讓我們來看看 Claude 2 Opus 的表現:得體的男子、自信、明亮色彩、夢幻般的熱帶景色,他穿著淺藍色西裝,配白色襯衫和色彩繽紛的複雜花卉領帶,鮮豔的霓虹燈將他映照成粉紅色和藍色的色調,棕櫚樹、海邊小鎮和建築的細節都模糊不清
視覺測試: 使用影像描述功能
重新詮釋圖像和AI新聞的概念
- 這幅圖像如夢如幻,彷彿一幅畫作或幻想天空,呈現出粉藍色的光芒。
- 大大的白色文字AI news使圖像變得引人注目,並傳達出富有想像力和前瞻性的氛圍,很可能是為了以引人入勝的方式推廣與AI相關的內容。
- 這幅圖像幾乎像是一個沒落的YouTube縮圖,而ChatGPT根據相同的圖像和提示作出了相似的回應。圖像充滿了活力和色彩,看起來像是一幅用於AI新聞相關內容的縮圖。
- 在中央站著一個穿著明亮藍色西裝的人,背景是熱帶風情的場景,天空呈現出混合了紫色、藍色和粉紅色的戲劇性光芒。圖像上方以大而醒目的白色字母寫著AI news。
- 從這個截圖來看,請分析和介紹這幅圖像。
- 對於這個截圖所呈現的訊息,應該如何做出回應?
重新詮釋圖像和AI新聞的概念
對特朗普和拜登贏得選舉的潛在利與弊
- 據2023年8月的資訊來看,特朗普贏得選舉的潛在利益包括繼續降稅、減少對企業的監管和限制移民政策、指定可能推翻Roe v. Wade等先例的保守派法官、對中國在貿易和地 緣政治問題上採取強硬立場、強力支持以色列並促成以色列與阿拉伯國家之間的協議等等。
- 然而,特朗普贏得選舉的潛在弊端包括政治極化加劇、對民主標準的損害、單行政風格帶來的風險、進一步加劇1月6日風格的暴力事件、惡化與傳統歐洲盟國的關係、濫用權力和削弱相互制衡的可能性等。
- 另一方面,拜登贏得選舉的潛在利益可能包括更加穩定和可預測的領導風格、加強民主機構和法治、改善與歐亞盟國的關係並加強合作、以及擴大社會安全保障的雄心勃勃提議。
- 然而,拜登贏得選舉的潛在弊端可能涉及政治經濟上的問題、推進目標的不確定性、以色列和阿拉伯國家之間協議的支持減弱等。
對特朗普和拜登贏得選舉的潛在利與弊
美國大選:拜登和特朗普的利與弊
- 美國大選中,拜登和特朗普的利與弊各有所述。
- 擁護拜登的一方認為,他重視氣候變化和多元性,政策制定上強調種族平等,並且在政治環境中降低緊張局勢。然而,一些人擔心拜登當 選後,共和黨在國會中的反對和阻撓,也擔心拜登的年齡和是否能勝任連任,以及可能出現的更高稅收和加強監管。此外,一些進步派對拜登的外交政策不滿,認為應該更加大膽進行改革。
- 特朗普的支持者則認為他在經濟政策、移民政策和對外政策上有優勢,但同時擔心他可能加劇社會分歧和環境問題。
- 這些觀點都相當平衡,反映了人們對兩位候選人的看法。
- 此外,就「文化取消」或「抨擊文化」對社會是否有益這一議題,也存在著複雜而爭議的觀點。一方面,抨擊文化可以讓公眾人物、企業和機構承擔責任,提高社會議題的意識,賦予邊緣化群體發聲的權力;另一方面,抨擊文化可能走向極端,演變成一種公開羞辱的形式,使人們畏懼被取消而自我審查,甚至導致社交媒體上的激怒群眾毀掉生活和事業,同時也傳播強制規範和意識形態一致性的文化。
- 總的來說,這些看法都相當均衡,充分呈現了對「文化取消」的複雜態度。
美國大選:拜登和特朗普的利與弊
關於大麻對大腦的影響
- 根據對Sonnet、Opus和Chat GPT的詢問,關於大麻對大腦的影響有一些共同的回答
- Sonnet指出了持續研究的結果,認為低劑量的大麻可能對神經有保護作用,可以減輕疼痛、噁心、肌肉痙攣等,但也提到了對記憶、注意力和學習的負面影響,以及對精神疾病的風險
- Opus則表示大麻具有正面和負面影響,包括緩解疼痛、減少發炎、改善睡眠、增加食慾、減輕焦慮和壓力,同時也提到了對短期記憶、注意力和認知功能的損害,以及可能會導致成癮、對青少年大腦發育的影響等
- Chat GPT也提出了類似的看法,指出大麻可能帶來疼痛緩解、減少發炎、改善睡眠、增加食慾、減輕焦慮和壓力的好處,同時也指出了對短期記憶、注意力和認知功能的影響,以及對精神疾病、成癮、青少年大腦發育等方面的風險
- 在價格方面,Chat GPT和Claude的Sonet都有免費版本和付費版本,提供類似的服務,但付費版本的價格分別為每月20元和50元,而Sonet在某些情況下甚至比Chat GPT表現得更好
關於大麻對大腦的影響
Claude 3.0 Sonet vs Chat GPT: 免費版本的總體比較
- 根據作者的經驗,免費版本的Claude 3.0 Sonet在總體上比付費的Chat GPT表現更好。
- 作者自行測試後得出結論,Claude的Opus版本在一些方面略微優於Sonet,但在大多數情況下,它與Chat GPT的表現相當,甚至更好。
- 作者建議目前最具性價比的是Claude 3.0 Sonet的免費版本,在常見的使用案例下效果最佳。
- 作者進一步提到,Claude 3.0 Sonet在Twitter民意調查中在大多數常見使用案例下都表現優異,這也是他對免費版本的印象如此良好的原因之一。
- 另外,作者指出了Claude 3.0 Sonet免費版本存在的一個問題,即在Future tools Discord中出現的討論。有用戶表示當使用免費版本時,會在發送了約19至25條消息後被限制,部分用戶對此表示不滿。
- 在CLA AI的官方Q&A頁面中確認,免費Beta版存在每日消息限制,但可能根據需求而有所變化,每天的額度會在早上重置。而付費的Claude Pro版本則提供了免費服務的五倍用量。
- 綜合來看,作者對免費版本的Claude 3.0 Sonet給予了高度評價,但同時也提出了一些使用限制方面的問題,建議用戶可以考慮付費版本以獲得更多使用量。
Claude 3.0 Sonet vs Chat GPT: 免費版本的總體比較
Cloud Pro 免費版本使用評估
- Cloud Pro 的免費版本提供大約 100 個提示後就會中斷,如果你的對話比較短,大概每 8 小時就需要發送至少 100 則訊息,而訊息的數量可能會因為訊息長度、對話長度和 Cloud 目前的容量而有所不同。
- 當你還剩下 20 則訊息時,它會提醒你。因此,免費版本的 Cloud 3.0 Sonet 可能是目前可以使用的最佳免費模式,但你會受到速率限制,如果你需要一天發送超過約 20 則提示訊息,你可能會想升級到每月 20 美元的 Opus 版本。
- 但是,我們找到了一個真正的 ChatGPT 競爭對手,Claude 3.0 表現非常優秀,甚至比幾乎所有 ChatGPT 的功能都要好。ChatGPT 在邏輯方面稍微更好一些,在許多其他方面也是如此,但 Cloud 3.0 也非常出色。如果你不常使用聊天機器人,免費版本可能是你開始使用的最佳選擇,你可能會喜歡它比 ChatGPT 更多。
- 希望你喜歡這篇文章,我很喜歡跟 Cloud 玩耍。如果你有其他基準測試,希望我用來測試未來的大型語言模型或其他提示,我想找一套每次測試新的大型語言模型時都會使用的提示,這樣我們就可以進行一個公平的比較。我甚至可能在 Future tools 上設立一個文件,展示我的基準測試比較,但首先我需要確立自己的基準測試,因此我希望得到你對於其他好的提示的意見,這樣可以用來進行內部基準測試,並與其他大型語言模型進行比較。非常感謝你的支持!
- 如果你還沒有查看 Future tools,請務必去瀏覽一下,這是一個我精選的最新和最優秀的人工智能工具的網站,最新的人工智能新聞也可以在此找到。我會讓找到你需要的工具變得非常簡單,並且我有一份免費通訊,每週我會分享我發現的最重要的人工智能新聞和最酷的人工智能工具,完全免費!你可以通過訂閱 Future tools 上的免費通訊來加入我們的郵件列表。再次非常感謝你的支持,如果你還沒有點贊和訂閱,請務必這麼做,我非常感激!感謝所有觀看這個頻道並且和我一起瘋狂迷戀人工智能的人,真的非常感謝!
- 好了,我唠叨夠多了,我們下一期的影片再見,掰掰!
Cloud Pro 免費版本使用評估
Conclusion:
對於Anthropics推出的Claude 3,本文對其最新功能和性能進行了全面評估。Claude 3在故事生成、數學邏輯和視覺測試方面的表現均獲得了積極評價,並與Chat GPT進行了比較分析。結果顯示,Claude 3擁有出色的功能和性能,是一款優秀的人工智能工具包。