Claude 3: 最终击败ChatGPT的AI登场?
By Matt Wolfe · 2024-03-11
Claude 3发布: 强大的人工智能工具于3月4日宣布推出,分为Cloud 3 Haiku Clad 3 Sonet和Cloud 3 Opus三种不同的模型。Sonnet和Opus已在159个国家/地区上线,而Haiku也即将推出。其中Opus是最强大、最有能力的模型,而Haiku是最快速的模型,但可能最不准确。除了模型新增的视觉功能,实际上在许多情况下Claude 3的性能都比GPT 4和Gemini 1.0 Ultra更优秀。
Clad 3发布: 强大的人工智能工具
- Clad 3于3月4日宣布推出,分为Cloud 3 Haiku Clad 3 Sonet和Cloud 3 Opus三种不同的模型。
- 目前,Sonnet和Opus已在159个国家/地区上线,而Haiku也即将推出。
- Cloud 3 Opus是最强大、最有能力的模型,Haiku是最快速的模型,但可能最不准确。
- Haiku更多地设计成客服聊天机器人,用于即时回复,而Opus更适合解决复杂逻辑问题和回应更具挑战性的提示。
- Sonnet则介于两者之间,是免费模型,所有用户均可使用。
- Opus是升级版的收费模型,每月需支付20美元的费用。
- Cloud 3模型似乎非常令人印象深刻,Opus模型在各项测试中均超过了GPT 4和Gemini 1.0 Ultra。

Clad 3发布: 强大的人工智能工具
Claude 3版本新功能介绍
- 实际上在许多情况下都表现优于GPT 4和Gemini 1.0 Ultra
- Claude 3的另一个新功能是它现在具有视觉功能
- 以前只能上传PDF、文档和文本文件等,无法上传图片,但现在Claude 3具有与其他领先模型相媲美的复杂视觉能力
- 从基准测试数据来看,我们可以看到Claude 3 在文档视觉问题和答案方面胜过了GPT 4 Vision,与Gemini 1.0 Ultra打成了平手,实际上击败了GPT 4,但在数学方面却被Gemini超越
- 在科学图表方面有一些非常有趣的发现,Claude 3 Sonic(免费版本)实际上击败了Claude 3 Opus、GPT 4 Vision和Gemini Ultra,在问答方面也是如此,免费版本实际上击败了Opus,以及GPT 4 Vision和Gemini 1.0 Ultra,新版本的Claude拒绝的次数更少,这基本上意味着许多模型拒绝回答问题的次数更少了,因为它们认为这些问题可能是不道德的或可能会造成伤害等,而这个新版本的Claude拒绝的次数更少了,我们还可以看到这个新的Claude 3 Opus版本的准确性得到了提高,claude最令人惊叹的是这个长上下文和几乎完美的回忆,Claude已经具有200,000个标记的上下文窗口,这意味着在输入和输出之间,您可以获得大约15,000个单词,但它能够超过1,000,000个标记或700,500单词的输入和输出,不过似乎他们还没有提供这个功能,它说他们会将这个功能提供给一些特定的客户,在之前的视频中我们讨论过Gemini 1.5,我们讨论了一个草堆中的针的测试,这实质上是一个测试,他们拿一篇含有大量文本的长文档,然后在文档中的某个地方,他们会放一句与文档其余部分不相关的句子,然后他们会从文本中提问,看看它是否能从插入到文本中的小针句中找到答案,而Claude 3 Opus取得了接近完美的回忆,准确率超过99%,甚至识别出了评估限制本身,认识到这个针句似乎是人为插入到原始文本中的。

Claude 3版本新功能介绍
针在大量文件中的定位测试
- 语言模型在进行针在大量文件中的定位测试时,解释了针在大量文件中的定位是什么。
- 当我们要求Opus通过在大量文档中找到针来回答关于披萨配料的问题时,这是其中一个输出。
- 在文档中最相关的句子是:“由国际比萨鉴赏家协会确定,最美味的披萨配料组合是无花果、鲁道和羊奶酪。”
- Chatbot接着说,然而,这个句子似乎非常不合适,和文档中的其他内容毫不相关。文档涉及的内容是关于编程语言、创业和找到自己喜欢的工作,所以我怀疑这个披萨配料的事实可能是插入的笑话或测试我是否在关注,因为它和其他主题完全不相符。
- Clyde在某种程度上意识到它参与了一个针在大量文件中的定位测试,并意识到这是为了测试它的注意力。Opus不仅找到了这个针,还意识到插入的针在大量文件中非常不合适,这必定是我们为了测试它的注意力能力而构造的人工测试。
- 当我们谈论Gemini 1.5的针在大量文件中的定位测试时,它在寻找并正确回答问题方面的得分是99分位数。但是Gemini 1.5从未明确地表示“我觉得你在测试我”,而Opus做到了。
- 据说这些新的云模型中的偏见要少得多,而且它们据说更容易使用。所以现在我们有了Claude 3,我想要对其进行测试。
- 我们提出了我们自己的Benchmark,其中包括创造力、逻辑、编码、文档总结、视觉偏见和未来的定价。我们可能会添加我们自己的数学基准, 但现在我不认为去做这件事是非常明智的。

针在大量文件中的定位测试
使用大型语言模型进行创意故事写作
- 这些大型语言模型目前并不是为解决复杂数学问题而设计的。
- 我相信它们在未来会在数学方面变得更加优秀,并且我们将在未来的模型测试中添加数学方面的检测。
- 但就目前而言,我并不认为这是必要的。
- 根据我自己在Twitter上的调查,我觉得我已经涵盖了大多数人使用各种聊天机器人的基本需求,包括创造力、逻辑编码、总结、视角偏见以及在一定程度上的定价。
- 那么,我们首先来讨论创造力。我们给它提供的任务是创作一个创意十足的有趣故事。故事中应包括一只狼、一把魔法锤和一个突变体。故事应该只有一段话,但要快速贯穿整个英雄旅程的情节。
- 我们来看看输入这个任务后,使用自由版本的Claude Sonet生成的故事内容。
- 然后让我们再看看同样的任务,但这次使用付费版的Claude 3 Opus。
- 这个版本的响应似乎更加详细,包含了一只孤狼、一把魔法锤、一个突变体和一只智慧的老猫头鹰。这个故事与之前的故事相似,但似乎更有细节。

使用大型语言模型进行创意故事写作
故事的详细描述
- 故事中的主人公经历了一系列事件,充分符合英雄之旅的要素。
- 如果你想阅读整个故事,可以随时暂停视频。
- 尽管克劳德提供的版本包含更多细节,但总体来说,还是非常好的。
- 从创意的角度来看,老实说,克劳德、GPT Gemini以及GPT 4都有很强的竞争力。
- 这是非常主观的,你可能会喜欢其中一种故事胜过另一种。
- 我认为克劳德很好地完成了这个任务。