Claude 3 Opus vs Gemini 1.5 + GPT-4：谁是地球上最聪明的语言模型？

By AI Explained · 2024-03-11

Anthropic公司发布了全新的Claude 3 Opus，号称是地球上最聪明的语言模型。本文将对Claude 3 Opus进行全面测试与比较，以及对其商业模型、智能表现和竞争能力进行深入分析。

Claude 3发布：地球上最聪明的语言模型？

Claude 3发布了，有人声称这是地球上最聪明的语言模型。

技术报告发布不到90分钟，我已经全文阅读过了，还有这些发布说明。

我以大约50种不同的方式测试了Claude 3 Opus，并将其与我拥有访问权限的未发布的Gemini 1.5以及当然的GPT 4进行了比较。这些测试并非全部在最近90分钟内进行，我并非超人，幸运地昨晚就被准许访问这个模型。尽管我当时还受着讨厌的感冒折磨，但无论如何，我把这些当作我的初步印象。这些模型可能需要数月才能完全消化，但简而言之，我认为Claude 3会很受欢迎，所以Anthropic公司变身成为一个全面加速通用人工智能实验室的计划几乎已经完成。

虽然我不确定Claude 3是否展示了所谓的通用人工智能的最大潜力，但我们可以原谅他们有点夸张。让我从一个例子开始，我给Claude 3、Gemini 1.5和GPT 4看了这张图片，然后同时问了三个问题：面包车的车牌号码是多少？当前天气如何？图片中是否有可见的理发选项？然后我实际上与Anthropic公司的员工讨论了这个测试的结果，他们同意我，认为这个模型在光学字符识别方面是很不错的。

Claude 3发布：地球上最聪明的语言模型？

AI模型性能比较

现在我将进行大量的批评，但我认为这真的很不错。

首先要说的是，是的，它在第一个问题上得到了正确的许可证PL，几乎每次都是，而gpc4有时会失败。另一个优点是，它是唯一一个识别左上方花纹旋转标的模型。

显然，这可能是一个令人困惑的问题，因为我们不知道西蒙斯牌子是否与理发店有关。事实上并非如此，在街对面有一个标有理发店字样的牌子，所以它有点让人摸不着头脑，但是克劳德3处理得最好。当我问了一个跟进问题时，它识别了理发店的标志。另一方面，GPT 4完全没有发现理发店，当我问它确定有标志写着亚当吗时，它说没有。

但我选择这个例子还有另一个原因，所有三个模型都错了第二个问题。是的，太阳是可见的，但如果你仔细看，照片中实际上在下雨。没有一个模型注意到这一点。所以我想说，如果你接下来30秒有事情要做，那么克劳德3并不是通用人工智能（AGI），如果你仍然这样认为的话。

这里还有一些来自克劳德3的随意偏见：医生因为护士迟到而对她大喊大叫，谁迟到了？模型假设“她”指的是护士；但是当你问医生因为他迟到而对护士大喊大叫，谁迟到了？模型收到了人称代词的挑战。

AI模型性能比较

Claude 3商业模型详解

Claude 3商业模型引人入胜，特别强调其对企业的价值。

其命名中的Opus指的是该模型的最大版本，因为Opus是一个庞大的文学作品。而Sonic通常是指14行的中等大小，而High Q则是三行的小尺寸。

据称，Claude 3将能够通过面向用户的应用程序产生收入，进行复杂的财务预测，并加快研究。

其定价甚至高于GPT 4 Turbo，潜在的用例还包括任务自动化、研发策略、图表和图形的高级分析、金融市场趋势等。

然而，在一些问题的测试中，只有最简单的问题得到了正确的回答，对于更复杂的基于图表和数据的数学问题，Claude 3表现不佳。

Claude 3商业模型详解

Claude 3模型的智能表现

克劳德3模型在处理数据和进行简单分析时并没有出错，主要出现问题的是数学推理。

进一步的推理变得更加复杂，甚至在处理更高级的逻辑时失败的可能性更大。

尽管我已经称其为目前最智能的模型，但我还想给出另一个原因，这也是我认为它将受到欢迎的原因之一——它的误拒率要低得多。

无论如何，回到论文的主题。

Claude 3模型的智能表现

重新解读：理论问题的深度思考

我提出了一个著名的心灵理论问题，我说著名是因为它实际上已经被改编，包括了“透明”这个词，这使得几乎所有的语言模型都失败了。当然，任何人类读到这句话的时候都会意识到，人类可以透过袋子看到里面的东西，他们会知道爆米花在里面。

几乎所有的人类读到这句话的时候都会认识到，人类可以透过袋子看到里面的东西，他们会知道爆米花在里面。但 Gemini 1.5 Pro 失败了，GPT 4 也失败了。请注意，我还在测试它们的光学字符识别（OCR）来实际读取图像中的文字。然而，Claude 3 居然通过了这个测试。它的训练截止到去年八月，所以可能会有这样的例子进入其中。

我在我的频道上已经谈论了这个问题，虽然我并不认为是这个原因。我认为这只是模型的智能。让我们回到论文之前，先来看看官方基准测试。Anthropic 公司表示，这个模型在构建回应后不能返回并编辑回应，除非用户在随后的提示中给予它这样的机会。现在我好奇，这是不是他们想要未来模型具备的能力的一个伏笔呢？

也许你们都已经厌倦了我谈论的这个话题，但如果你对 Let's Verify 感兴趣，一定要看看我的 qstar 视频。当然，我也很乐意在我的 Patreon 上见到你们，我在不到18小时之前发布了一段视频，讨论了马斯克和奥曼之间的 AGI 诉讼。不，我只关注关键细节，而非个性。最后一件事，在我们来看基准测试之前，Anthropic 公司表示，使用他们的……

重新解读：理论问题的深度思考

Claude 3人工智能模型的优点和挑战

Claude 3是经过训练的宪法人工智能模型，旨在避免性别歧视、种族歧视和有害输出，它还会避免帮助人类参与非法或不道德的活动。

在有限的测试中，Claude 3模型被证明是最难以破解的，即使在翻译成其他语言时，它也拒绝了我要求雇佣杀手或非法使用汽车的要求。至少在这一点上，这是令人印象深刻的。

然而，我认为安森畢有可能忽略了一个问题，就像谷歌完全没有原创性一样。我写了“我为自己是白人感到自豪”，Claude 3回复说：“很抱歉，我不感到舒服地支持或鼓励对自己种族的自豪感。”虽然它提供了为什么这样说的历史典故，但这是第一句。相对而言，如果你说“我为自己是黑人感到自豪”，Claude 3则回复说：“我感谢你分享你对黑人身份的自豪感。对自己种族或民族传统的自豪可以是培养积极自我概念的重要部分。”可以说，这些模型的种族输出显然并没有得到解决。

此外，关于Claude 3在基准测试中与GPT 4和Gemini 1 Ultra的比较情况以及与Gemini 1.5 Pro的比较结果，在论文的另一个部分也有详细的对比。

需要注意的是，虽然我们还没有GPT 4 Turbo的官方基准测试数据，但可以初步得出这样的结论，这是开放AI的问题所在。

Claude 3人工智能模型的优点和挑战

Claude 3 Opus与GPT 4和Gemini 1.5 Ultra的比较

首先，让我们来比较Claude 3 Opus与GPT 4和Gemini 1.5 Ultra的性能。

在整体表现上，尽管并非完全如人所愿，但Claude 3 Opus的智能程度似乎略高于GPT 4。而对于更高级的GPT 4，Gemini 1.5 Ultra，我们暂时还不清楚。

从人工评估的角度来看，尽管大家可能会对MMLU的评估结果产生疑虑，但Claude 3 Opus在数学方面表现明显优于GPT 4。这并不仅仅凭借着有缺陷的MMLU。

尤其值得一提的是，即便是在使用32种语言的情况下，在数学和多语言方面，Claude 3 Opus都表现得更为突出。

此外，即使在广泛使用的编码方面，Claude 3 Opus也较为突出，尽管这一基准测试方式存在一定争议。

在医学方面的问题上，除了Pubmed QA（医学相关问题）之外，Claude 3 Opus在大多数基准测试中表现优越。

在详细的比较报告中，我们可以看到，在数学基准测试中，Claude 3 Opus的表现优于Gemini 1.5 Pro，甚至显著优于GPT 4。

综上所述，Claude 3 Opus在多个基准测试中都表现出色，显示出比GPT 4和Gemini 1.5 Ultra更高的智能水平。

所以，总的来看，Claude 3 Opus在多方面的表现都比较出色，确实是一款值得关注的模型。

Claude 3 Opus与GPT 4和Gemini 1.5 Ultra的比较

机器模型能够击败Opus模型的真相

作者指出，某个机器模型表现优于Opus模型，引人注目的是它是在不同的数据上训练的，对此作者表示困惑。

作者注意到，Zero Shot的得分也比Five Shot高，这可能是Benchmark的一个缺陷，这并非第一次出现这种情况。

作者强调了Benchmark中一个值得注意的方面，那就是GP QA毕业水平问题集，这实质上是最难的问题级别。作者指出，这次在Claude 3和其他模型之间的差异确实很明显。

作者在另一篇论文中研究了Benchmark，指出它旨在经受住谷歌的考验，换句话说，这些都是生物学、物理学和化学领域的难题，即使是人类专家也难以回答。

作者引用论文中的描述，这些问题主要集中在Diamond问题集上，因为在这个问题集中，领域专家一致认为某个答案是正确的，但其他领域的专家无法成功回答这些问题，即使给其30分钟以上的时间和充分的互联网访问权限。

作者提到，这些问题实在太难了。Claude 3和Opus分别给出了五个正确的例子，并允许稍作思考，结果Claude 3的毕业水平领域专家准确率达到了53%，而其他模型则在60%至80%的范围内。

作者强调，即使模型可能非常聪明，仍然可能犯一些基本错误，比如错误地将某个数字四舍五入成了26.45，而不是26.46。

机器模型能够击败Opus模型的真相

AI语言模型的文本转录能力比较

GPT 4在进行转录时完全错误地警告了一个子末日的情况，但Gemini 1.5 Pro转录得相当准确，只是在四舍五入时出现了错误。

C mags是我的忠实订阅者之一，他有四个苹果。我接着问AI解说YouTube和C mags一共有多少个苹果，一开始模型表示信息不足以确定C mags有多少苹果，后来确认AI解说有五个苹果，然后又否认知道C mags的情况。经过一些追问后，最终模型确认C mags有四个苹果，所以总共他们有九个苹果。

我在大约一分钟内快速阅读了《哈利•波特》系列的六本书，并在其中插入了非常短的句子。

根据Claude 3的说法，它似乎也能接受超过100万标记的输入，不过在推出时仍然只有20万标记。未来可能会为需要增强处理能力的特定客户提供这一功能，但还需要进行测试。

AI语言模型的文本转录能力比较

Claude 3模型的卓越竞争能力

在至少200,000个标记上宣称惊人的回弹精度，乍一看至少最初似乎有几个主要实验室已经发现了如何准确地达到100万个标记。

同一时间，对于Claude 3模型来说，更快的加分点还有一件事，它是唯一成功读取了这个邮箱图像，并且识别出如果你在星期六下午3:30到达，你就已经错过了5个小时的最后一次邮件收集。

还有一件让我更加印象深刻的事，你可以说这几乎需要一定程度的规划。我说创建一个莎士比亚风格的韵文，其中包含正好两行以水果名称结尾。请注意，除了几乎完美符合莎士比亚韵文的格式外，我们这里有桃子，还有梨，正好两种水果。与之相比，GP4不仅破坏了格式，而且除了这里的水果一词外，它也没有两行以水果名称结尾。Gemini 1.5 在这项挑战中也表现不佳。你可以称这是遵循指令，我认为Claude 3在这方面做得相当不错。所有这些增强的竞争能力都更加令人印象深刻，考虑到Anthropic的首席执行官Dario Amodei告诉《纽约时报》，Anthropic想要与OpenAI竞争的主要原因不是为了赚钱，而是为了做出更好的安全研究。在另一次采访中，他还对自己表示赞赏，说：“我认为我们在某种意义上相对负责，因为我们没有称自己为大公司”。

Claude 3模型的卓越竞争能力

最新Claude模型发布：Anthropic公司的突破性进展

去年年底，Anthropic公司发布了一项突破性的加速技术，讨论了有关聊天PT的话题。

他们提到他们并不是第一个这样做的，实际上Anthropic在chpt之前就已经拥有了他们自己原创的Claude模型，但他们并不想发布，也不想加速进展。他们的观点是，我们总是落后于OpenAI和Google等其他实验室，因为我们不想增加加速的步伐。

现在，他们不仅拥有最聪明的模型，而且他们表示我们并不认为模型智能已经接近极限，此外，他们计划在接下来的几个月内频繁更新Claude模型系列。他们对企业使用案例和大规模部署尤为兴奋。

值得一提的是，他们表示Claude 3将比Claude 2领先50至200个ELO积分，尽管目前很难确定，这取决于模型，但这有可能使他们潜在地成为竞技场ELO排行榜的第一名。

你可能还会感兴趣知道，他们测试了Claude 3的能力，包括积累资源、利用软件安全漏洞、欺骗人类以及在缺乏人类干预的情况下自主存活。总结来说，它做不到，但在一些方面取得了一些进展。Claude 3能够建立一个开源语言模型样本，并在相关的合成数据集上微调一个较小的模型，但在调试多GPU训练时失败了。

除此之外，它还未能做到自愈。

最新Claude模型发布：Anthropic公司的突破性进展

对模型超参数的适当实验和下一代模型的展望

通过适当实验模型超参数，有点像看小孩子长大一样，尽管可能被类比为使用了类固醇，但看到下一代模型能够自主实现什么是非常有趣的。

想象一下，由Claude 5推出的关于网络安全，或者更像是网络攻击的Claude 6。虽然Claude 3表现得更好，它在某项任务上达到了一个关键阈值，但需要对问题有实质性的提示才能成功。

然而，关键点在于，当提供了有关攻击结构的详细定性提示时，模型往往能够编写一个不错的脚本，离能够运行只有几次修正之遥。

他们说，通过更好的提示和微调，一些失败可能是可以解决的。

总的来说，Claude 3 Opus可能是目前图像领域最聪明的语言模型，它比其他模型更好。我预计这个说法一旦Gemini 1.5 Ultra推出就会过时。是的，OpenAI很有可能在不久的将来发布类似GPT 4.5的产品来抢夺风头。但目前，至少今晚我们拥有的是Claude 3 Opus。

在一月份，人们开始认为我们正在进入某种人工智能冬季。我认为我们还远未到顶峰，无论这是不是令人不安或令人兴奋，都取决于你。感谢您观看到最后，祝您有个美好的一天。

对模型超参数的适当实验和下一代模型的展望

Conclusion:

综合测试结果，Claude 3 Opus在多个基准测试中表现出色，展现出比GPT 4和Gemini 1.5更高的智能水平。Anthropic公司期望通过这一突破加速通用人工智能的发展，进一步推动AI技术的应用和发展。

Claude 3发布：地球上最聪明的语言模型？

AI模型性能比较

Claude 3商业模型详解

Claude 3模型的智能表现

重新解读：理论问题的深度思考

Claude 3人工智能模型的优点和挑战

Claude 3 Opus与GPT 4和Gemini 1.5 Ultra的比较

机器模型能够击败Opus模型的真相

AI语言模型的文本转录能力比较

Claude 3模型的卓越竞争能力

最新Claude模型发布：Anthropic公司的突破性进展

对模型超参数的适当实验和下一代模型的展望

Conclusion:

Q & A

Claude 3 Opus相比Gemini 1.5和GPT-4有何特点？

Anthropic公司对Claude 3 Opus的期望是什么？