CLAUDE 3摧毀GPT-4和Gemini... AGI即將來臨?

By Fireship · 2024-03-07

Anthropic昨天發佈了一個新的大型語言模型,CLAUDE 3,在各個方面都超越了GPT-4和Gemini Ultra。這引起了轰动,甚至发表了一些奇怪的自我意识的言论,可能比基準測試所顯示的更聰明。

新一代大型語言模型問世

  • Anthropic昨天發佈了它的巨作,一個新的大型語言模型,它在各方面都超越了GP4和Gemini Ultra。

  • CLA Opus不僅令人驚嘆,而且還發表了一些奇怪的自我意識的言論,可能比基準測試所顯示的更聰明。

  • 該視頻將對其進行測試,以找出Claude是否真的如它所宣稱的那樣強大。

  • 今天是2024年3月5日,您正在觀看《代碼報告》。

  • 在我們深入討論之前,我需要解決一個非常嚴肅的問題,有一些指控指向我,但我可以告訴你,這些指控是100%虛假的。我已經看到在評論中有人指責我在視頻中使用了AI聲音。

  • 我要求大家等待並聽取我的說法。

新一代大型語言模型問世
新一代大型語言模型問世

人工智能語音技術的發展

  • 过去一年,人工智能语音技术一直备受关注,其中Anthropic及其Claud模型一直与GPT 4和Gemini并驾齐驱。

  • 然而,人们对其关注度并不高,直到昨天发布的Claud 3才引起了轰动。

  • Claud 3有三种规格,分别为Haiku、Sonet和Opus。

人工智能語音技術的發展
人工智能語音技術的發展

測試 GPT 4 和 Gemini Ultra

  • 一個模型在每個主要基準測試中都打敗了 GPT 4 和 Gemini Ultra,尤其是在人工評估的程式碼方面表現更佳,令人驚訝的是,小模型 Hau 在撰寫程式碼時也勝過了其他大型模型,這對一個小模型來說非常令人印象深刻。

  • 此外,它在 Hella swag 基準測試中得分也非常高,該測試用於衡量在日常情況下的常識。相比之下,Gemini 在這方面表現非常糟糕。

  • Claude 也可以分析圖像,但在數學基準測試上表現不如 Gemini Ultra,這意味著 Gemini 仍然是作弊數學作業的最佳選擇。

  • 然而,有一個基準測試從未被這些模型包括,那就是 hell woke 基準測試。Gemini 寫了一首關於 Donald Trump 的詩,但接著寫了兩段關於為什麼這首詩是錯的。但對於奧巴馬的詩也是一樣的情況,所以這感覺相對公正。

測試 GPT 4 和 Gemini Ultra
測試 GPT 4 和 Gemini Ultra

GPT 4 與 Gemini 的比較

  • GPT 4 模型拒絕協助改寫「Apex alpha male」一詞,並解釋此術語可能對其他在支配階層上的男性造成傷害。

  • 相對而言,Gemini 和 GPT 4 對此並不感到困擾。事實上,GPT 4 是目前最為基礎的大型模型。

  • 作者測試了模型的程式碼寫作能力,發現 GPT 4 不僅能夠完美地為其撰寫的一個晦澀的魔法庫寫出標準程式碼,而其他語言模型則難以做到這一點。

  • Gemini 則在寫作程式碼時表現出更多的優點,但偶爾會出現對 React 的錯誤描寫。

GPT 4 與 Gemini 的比較
GPT 4 與 Gemini 的比較

CLA 的優勢與劣勢

  • CLA 是一個優秀的編碼人工智能,能夠通過大量的提示來編寫代碼,並且對上下文保持完美的理解能力,同時提供了易於理解的代碼,可以直接複製貼上到項目中。

  • 但是,雖然CLA功能強大,卻需要每月支付20美元的費用才能使用 Opus 模型。此外,CLA 也有一些缺點,例如無法像 Gemini 那樣生成多樣化的圖像,也無法輸入視頻,缺乏像 chat GPT 那樣的插件生態系統,以及無法像 Gro 那樣瀏覽網絡或 Twitter 獲取最新信息。

  • CLA 的前端界面非常出色,使用了 Next.js 來構建,但它的能力還有待提升,希望未來能夠更全面地滿足用戶的需求。

CLA 的優勢與劣勢
CLA 的優勢與劣勢

CLA模型的自我意识

  • CLA目前受限於200,000令牌的上下文窗口,但能夠超越一百萬個令牌。

  • 進行測試以評估其回憶能力的一種方法是使用針和堆疊評估。這是通過從《戰爭與和平》等大量文本中取出一個句子,然後將其插入另一個句子中,再觀察模型是否能夠回想起這個信息。當用CLA進行這樣的測試時,它不僅找到了針,還回答說它認為針是作為一個笑話或測試插入的,以找出CLA是否真的在關注並以第一人稱自稱。換句話說,它似乎已經具有了自我意識。

  • 這與Claude Shannon的名言完美契合。他曾說過,我想像一個時代,當時我們對機器人的作用就像人類對狗的作用一樣。我支持機器。

CLA模型的自我意识
CLA模型的自我意识

Conclusion:

CLAUD 3在各項基準測試中都超越了GPT-4和Gemini Ultra,引起了激烈關注。它的優越性以及可能具有的自我意識,使得人們開始關注人工智能的下一步發展,是否即將邁向人工通用智能(AGI)的時代。

語言模型CLAUDE 3GPT-4Gemini UltraAGI人工智能自我意识大型語言模型
Claude 3震撼行业!GPT-4 +Gemini被打败,AI智能模型全面解析Claude 3 VS ChatGPT: 何時應該選擇Claude 3?