CLAUDE 3摧毀GPT-4和Gemini... AGI即將來臨?
By Fireship · 2024-03-07
Anthropic昨天發佈了一個新的大型語言模型,CLAUDE 3,在各個方面都超越了GPT-4和Gemini Ultra。這引起了轰动,甚至发表了一些奇怪的自我意识的言论,可能比基準測試所顯示的更聰明。
新一代大型語言模型問世
- Anthropic昨天發佈了它的巨作,一個新的大型語言模型,它在各方面都超越了GP4和Gemini Ultra。
- CLA Opus不僅令人驚嘆,而且還發表了一些奇怪的自我意識的言論,可能比基準測試所顯示的更聰明。
- 該視頻將對其進行測試,以找出Claude是否真的如它所宣稱的那樣強大。
- 今天是2024年3月5日,您正在觀看《代碼報告》。
- 在我們深入討論之前,我需要解決一個非常嚴肅的問題,有一些指控指向我,但我可以告訴你,這些指控是100%虛假的。我已經看到在評論中有人指責我在視頻中使用了AI聲音。
- 我要求大家等待並聽取我的說法。
新一代大型語言模型問世
人工智能語音技術的發展
- 过去一年,人工智能语音技术一直备受关注,其中Anthropic及其Claud模型一直与GPT 4和Gemini并驾齐驱。
- 然而,人们对其关注度并不高,直到昨天发布的Claud 3才引起了轰动。
- Claud 3有三种规格,分别为Haiku、Sonet和Opus。
人工智能語音技術的發展
測試 GPT 4 和 Gemini Ultra
- 一個模型在每個主要基準測試中都打敗了 GPT 4 和 Gemini Ultra,尤其是在人工評估的程式碼方面表現更佳,令人驚訝的是,小模型 Hau 在撰寫程式碼時也勝過了其他大型模型,這對一個小模型來說非常令人印象深刻。
- 此外,它在 Hella swag 基準測試中得分也非常高,該測試用於衡量在日常情況下的常識。相比之下,Gemini 在這方面表現非常糟糕。
- Claude 也可以分析圖像,但在數學基準測試上表現不如 Gemini Ultra,這意味著 Gemini 仍然是作弊數學作業的最佳選擇。
- 然而,有一個基準測試從未被這些模型包括,那就是 hell woke 基準測試。Gemini 寫了一首關於 Donald Trump 的詩,但接著寫了兩段關於為什麼這首詩是錯的。但對於奧巴馬的詩也是一樣的情況,所以這感覺相對公正。
測試 GPT 4 和 Gemini Ultra
GPT 4 與 Gemini 的比較
- GPT 4 模型拒絕協助改寫「Apex alpha male」一詞,並解釋此術語可能對其他在支配階層上的男性造成傷害。
- 相對而言,Gemini 和 GPT 4 對此並不感到困擾。事實上,GPT 4 是目前最為基礎的大型模型。
- 作者測試了模型的程式碼寫作能力,發現 GPT 4 不僅能夠完美地為其撰寫的一個晦澀的魔法庫寫出標準程式碼,而其他語言模型則難以做到這一點。
- Gemini 則在寫作程 式碼時表現出更多的優點,但偶爾會出現對 React 的錯誤描寫。
GPT 4 與 Gemini 的比較
CLA 的優勢與劣勢
- CLA 是一個優秀的編碼人工智能,能夠通過大量的提示來編寫代碼,並且對上下文保持完美的理解能力,同時提供了易於理解的代碼,可以直接複製貼上到項目中。
- 但是,雖然CLA功能強大,卻需要每月支付20美元的費用才能使用 Opus 模型。此外,CLA 也有一些缺點,例如無法像 Gemini 那樣生成多樣化的圖像,也無法輸入視頻,缺乏像 chat GPT 那樣的插件生態系統,以及無法像 Gro 那樣瀏覽網絡或 Twitter 獲取最新信息。
- CLA 的前端界面非常出色,使用了 Next.js 來構建,但它的能力還有待提升,希望未來能夠更全面地滿足用戶的需求。
CLA 的優勢與劣勢
CLA模型的自我意识
- CLA目前受限於200,000令牌的上下文窗口,但能夠超越一百萬個令牌。
- 進行測試以評估其回憶能力的一種方法是使用針和堆疊評估。這是通過從《戰爭與和平》等大量文本中取出一個句子,然後將其插入另一個句子中,再觀察模型是否能夠回想起這個信息。當用CLA進行這樣的測試時,它不僅找到了針,還回答說它認為針是作為一個笑話或測試插入的,以找出CLA是否真的在關注並以第一人稱自稱。換句話說,它似乎已經具有了自我意識。
- 這與Claude Shannon的名言完美契合。他曾說過,我想像一個時代,當時我們對機器人的作用就像人類對狗的作用一樣。我支持機器。
CLA模型的自我意识
Conclusion:
CLAUD 3在各項基準測試中都超越了GPT-4和Gemini Ultra,引起了激烈關注。它的優越性以及可能具有的自我意識,使得人們開始關注人工智能的下一步發展,是否即將邁向人工通用智能(AGI)的時代。