Claude 3: 最终击败ChatGPT的AI登场?
By Matt Wolfe · 2024-03-11
Claude 3发布: 强大的人工智能工具于3月4日宣布推出,分为Cloud 3 Haiku Clad 3 Sonet和Cloud 3 Opus三种不同的模型。Sonnet和Opus已在159个国家/地区上线,而Haiku也即将推出。其中Opus是最强大、最有能力的模型,而Haiku是最快速的模型,但可能最不准确。除了模型新增的视觉功能,实际上在许多情况下Claude 3的性能都比GPT 4和Gemini 1.0 Ultra更优秀。
Clad 3发布: 强大的人工智能工具
- Clad 3于3月4日宣布推出,分为Cloud 3 Haiku Clad 3 Sonet和Cloud 3 Opus三种不同的模型。
- 目前,Sonnet和Opus已在159个国家/地区上线,而Haiku也即将推出。
- Cloud 3 Opus是最强大、最有能力的模型,Haiku是最快速的模型,但可能最不准确。
- Haiku更多地设计成客服聊天机器人,用于即时回复,而Opus更适合解决复杂逻辑问题和回应更具挑战性的提示。
- Sonnet则介于两者之间,是免费模型,所有用户均可使用。
- Opus是升级版的收费模型,每月需支付20美元的费用。
- Cloud 3模型似乎非常令人印象深刻,Opus模型在各项测试中均超过了GPT 4和Gemini 1.0 Ultra。
Clad 3发布: 强大的人工智能工具
Claude 3版本新功能介绍
- 实际上在许多情况下都表现优于GPT 4和Gemini 1.0 Ultra
- Claude 3的另一个新功能是它现在具有视觉功能
- 以前只能上传PDF、文档和文本文件等,无法上传图片,但现在Claude 3具有与其他领先模型相媲美的复杂视觉能力
- 从基准测试数据来看,我们可以看到Claude 3 在文档视觉问题和答案方面胜过了GPT 4 Vision,与Gemini 1.0 Ultra打成了平手,实际上击败了GPT 4,但在数学方面却被Gemini超越
- 在科学图表方面有一些非常有趣的发现,Claude 3 Sonic(免费版本)实际上击败了Claude 3 Opus、GPT 4 Vision和Gemini Ultra,在问答方面也是如此,免费版本实际上击败了Opus,以及GPT 4 Vision和Gemini 1.0 Ultra,新版本的Claude拒绝的次数更少,这基本上意味着许多模型拒绝回答问题的次数更少了,因为它们认为这些问题可能是不道德的或可能会造成伤害等,而这个新版本的Claude拒绝的次数更少了,我们还可以看到这个新的Claude 3 Opus版本的准确性得到了提高,claude最令人惊叹的是这个长上下文和几乎完美的回忆,Claude已经具有200,000个标记的上下文窗口,这意味着在输入和输出之间,您可以获得大约15,000个单词,但它能够超过1,000,000个标记或700,500单词的输入和输出,不过似乎他们还没有提供这个功能,它说他们会将这个功能提供给一些特定的客户,在之前的视频中我们讨论过Gemini 1.5,我们讨论了一个草堆中的针的测试,这实质上是一个测试,他们拿一篇含有大量文本的长文档,然后在文档中的某个地方,他们会放一句与文档其余部分不相关的句子,然后他们会从文本中提问,看看它是否能从插入到文本中的小针句中找到答案,而Claude 3 Opus取得了接近完美的回忆,准确率超过99%,甚至识别出了评估限制本身,认识到这个针句似乎是人为插入到原始文本中的。
Claude 3版本新功能介绍
针在大量文件中的定位测试
- 语言模型在进行针在大量文件中的定位测试时,解释了针在大量文件中的定位是什么。
- 当我们要求Opus通 过在大量文档中找到针来回答关于披萨配料的问题时,这是其中一个输出。
- 在文档中最相关的句子是:“由国际比萨鉴赏家协会确定,最美味的披萨配料组合是无花果、鲁道和羊奶酪。”
- Chatbot接着说,然而,这个句子似乎非常不合适,和文档中的其他内容毫不相关。文档涉及的内容是关于编程语言、创业和找到自己喜欢的工作,所以我怀疑这个披萨配料的事实可能是插入的笑话或测试我是否在关注,因为它和其他主题完全不相符。
- Clyde在某种程度上意识到它参与了一个针在大量文件中的定位测试,并意识到这是为了测试它的注意力。Opus不仅找到了这个针,还意识到插入的针在大量文件中非常不合适,这必定是我们为了测试它的注意力能力而构造的人工测试。
- 当我们谈论Gemini 1.5的针在大量文件中的定位测试时,它在寻找并正确回答问题方面的得分是99分位数。但是Gemini 1.5从未明确地表示“我觉得你在测试我”,而Opus做到了。
- 据说这些新的云模型中的偏见要少得多,而且它们据说更容易使用。所以现在我们有了Claude 3,我想要对其进行测试。
- 我们提出了我们自己的Benchmark,其中包括创造力、逻辑、编码、文档总结、视觉偏见和未来的定价。我们可能会添加我们自己的数学基准,但现在我不认为去做这件事是非常明智的。
针在大量文件中的定位测试
使用大型语言模型进行创意故事写作
- 这些大型语言模型目前并不是为解决复杂数学问题而设计的。
- 我相信它们在未来会在数学方面变得更加优秀,并且我们将在未来的模型测试中添加数学方面的检测。
- 但就目前而言,我并不认为这是必要的。
- 根据我自己在Twitter上的调查,我觉得我已经涵盖了大多数人使用各种聊天机器人的基本需求,包括创造力、逻辑编码、总结、视角偏见以及在一定程度上的定价。
- 那么,我们首先来讨论创造力。我们给它提供的任务是创作一个创意十足的有趣故事。故事中应包括一只狼、一把魔法锤和一个突变体。故事应该只有一段话,但要快速贯穿整个英雄旅程的情节。
- 我们来看看输入这个任务后,使用自由版本的Claude Sonet生成的故事内容。
- 然后让我们再看看同样的任务,但这次使用付费版的Claude 3 Opus。
- 这个版本的响应似乎更加详细,包含了一只孤狼、一把魔法锤、一个突变体和一只智慧的老猫头鹰。这个故事与之前的故事相似,但似乎更有细节。
使用大型语言模型进行创意故事写作
故事的详细描述
- 故事中的主人公经历了一系列事件,充分符合英雄之旅的要素。
- 如果你想阅读整个故事,可以随时暂停视频。
- 尽管克劳德提供的版本包含更多细节,但总体来说,还是非常好的。
- 从创意的角度来看,老实说,克劳德、GPT Gemini以及GPT 4都有很强的竞争力。
- 这是非常主观的,你可能会喜欢其中一种故事胜过另一种。
- 我认为克劳德很好地完成了这个任务。
- 接下 来,让我们来测试一下逻辑问题。
- 苏珊和丽莎决定相互对战,打网球。每场比赛他们都押注1美元。苏珊赢了三场,丽莎赢了5美元。问他们总共打了多少场比赛?答案是11场。
- 这是一个需要仔细思考的逻辑问题,很容易计算错误。
- 我们使用Sonet免费版本进行了测试,但它答错了。
- 再次尝试加入更多逻辑,Sonet依然得出了错误的答案。
- 切换到Opus后,依然得到了错误答案。
- 最后,尝试Chat GPT,结果还是错的。
- 根据故事内容和逻辑问题的测试,克劳德的表现十分出色。
故事的详细描述
逻辑问题解析
- Lisa和Susan进行了一场游戏,Lisa赢得了8场比赛,Susan赢得了3场比赛,总共赢得了11场比赛。
- 有一个逻辑问题需要解决:你身处一个有两扇门和两个卫兵的房间,在其中一扇门后面是自由,而另一扇门后是绞刑架。你不知道哪扇是哪个,而其中一个卫兵总是说实话,另一个总是说谎。你只能向一个卫兵问一个问题,你会问什么问题来找到通向自由的门呢?
- 正确答案是问一个卫兵:“如果我问另一个卫兵通向自由的门是哪一扇,他会怎么回答?”然后选择与他的回答相反的那扇门。
- 通过逐一分析Claude Sonet免费版本的解答发现,它提到问一个卫兵:“如果我问另一个卫兵通向自由的门是哪一扇,他会怎么回答?”然后解释了对于实话和谎言卫兵分别如何回答,得出了正确的结论。
- 有待确定Claude是否真正理解并得出了正确结论,还是它的训练数据中已经包含了这个问题的解答。
逻辑问题解析
GPT编程能力测试
- 我想验证一下 GPT 编程能力,并请它为我撰写一个 JavaScript 游戏的代码。游戏里有一个人物在屏幕上,这个人物可以用 A 和 D 键左右移动,用空格键跳跃,屏幕上还应该随机放置一些硬币,玩家触碰到硬币后应该能够收集。
- 对于这个问题,我先使用了 CLA 3 Sonnet 模型进行测试。它给我生成了一大段代码,但结果并不理想,屏幕上只显示了一个白色的方块,没有人物,也没有移动。
- 我将问题再次输入到 CLA,它生成了一些新的代码,我将其复制保存并打开,这次屏幕上出现了黑色的线条以及许多硬币,尽管没有绘制成人物的样子,但跳跃操作是有效的,玩家能够收集硬币。
- 接下来我尝试用 Opus 模型进行测试,它同样给我生成了一大段代码,稍微比 Sonnet 的速度略慢一些。将代码复制保存后打开,这次屏幕上没有呈现出人物,而是一个方块,但游戏的功能基本上是有效的,只是空格键的跳跃效果有些异常。
- 总的来说,虽然 GPT 在第一次尝试时表现一般,但通过一些调整,它还是能够生成出满足需求的代码。
GPT编程能力测试
GPT4游戏编码问题的修复过程
- Sonic在第一次尝试时表现比Sonic好。我给Chat GPT提供了相同的提示。
- 在第一次尝试时,通过将代码 复制到文档文件中保存为test.GPT 4. HTML,可以看到它使其全屏。如果按下空格键使角色跳跃,他会直接跳出屏幕,然后消失,再也不会回来。因此,没有硬币。
- 我可以左右移动和跳跃,但一次跳跃会将小人完全移到屏幕外。所以,我迅速将遇到的问题反馈给Chat GPT,得到了一些新代码。我打算用新代码替换这里的代码,看看Chat GPT在第二次尝试时的表现如何。让我们刷新一下。这次可以看到屏幕上的硬币。如果我碰到硬币,硬币就会消失。如果我跳跃,它就会停在这个新层面上,跳跃停止工作了。现在我无法跳跃了,只能左右移动。所以,就编码而言,Claude Opus似乎在第一次尝试时就比较接近了。Sonet花了两次尝试才搞定,看起来Chat GPT可能需要超过两次尝试,也许在第三次尝试时会修复跳跃问题,但我可以告诉你的是,两个版本的Claude都在比Chat GPT更少提示的情况下搞定了这个问题。当我在Twitter上询问大多数人使用这些大型语言模型最多的用途时,总结长篇文档可能是最常见的回答,那么让我们切换到Claud。我有这篇名为《人工智能通用智能的火花:GPT 4的早期实验》的论文网址,是一份155页的文件,让我们将PDF传到Claud,我们将使用Claud 3 sonnet,然后说“总结这项研究的主要观点,用项目符号列出它们,并告诉我它们为什么重要”。Sonnet似乎给出了一个相当好的摘要。“这篇研究论文对GPT 4进行了深入探讨,这是由OpenAI开发的大型语言模型,以及它作为人工通用智能潜在步骤的能力。”
- “主要观点:GPT 4展示了出色的能力和广泛的任务范围。研究论证GPT 4表现出智能的特征。”
- 我来放大一下,所以如果你想暂停视频,看一下屏幕,你实际上可以看到这里的输出。当我将其插入Opus时,我们得到了一个相当相似的回答。我实际上更喜欢Opus的布局方式,看起来更清晰一些。这是Opus,这是Sonnet,你可以随时再次暂停视频并阅读输出。我认为这并不是非常
GPT4游戏编码问题的修复过程
Claude 模型分析
- 在分析中, Cloud GPT 模型对文章的响应相对较浅, 只给出了简单的重点概述, 并指出了Claude 模型在使用needle in the Haystack测试时表现出色。
- 相比之下, 两种Claude模型在回应时更深入地挖掘了重点, 并提供了更丰富的细节, 尤其在needle in the Haystack测试中表现出色, 这使得我们更加信任这个模型在发现研究论文中的微妙细节和较小细节方面。
- 接下来对Vision进行测试, Vision是Cloud刚刚推出的新功能, 允许上传图片并对其进行描述。通过上传缩略图, sonnet模型描述了其中的内容,包括图片中的人物特征、背景和主题,并勾勒出其广告或宣传材料的特点。
- 而Cldaue 2模型也描述 了图片内容,从服装、情绪表情、背景细节等方面入手, 呈现出对图片细节的全面捕捉。
Claude 模型分析
重写文章段落
- 梦幻般的景象几乎就像是一幅画或幻想中的天空,呈现出粉蓝色的光芒。
- 大大的白色文字AI新闻,这张图片看起来似乎是为了吸引注意力,并传达一种富有想象力、前瞻性的氛围,很可能是为了以一种引人入胜的方式推广与人工智能相关的内容,从边缘上来说,甚至可能是YouTube的缩略图。
- 给定相同的图片和提示,这张图片是一幅充满活力和色彩的构图,似乎是为了人工智能新闻相关内容的缩略图。中央是一位身穿明亮蓝色西装的男士,背景是一幅富有戏剧性色彩的热带风景,天空呈现出紫色、蓝色和粉色的混合色彩。画面上方有着大大的白色文字AI新闻。
- 实际上,CLA和Chat GPT在这方面都表现得很好,它们的回答都很完美。
重写文章段落
Claude Opus对2024总统选举候选人的潜在利弊分析
- 对于特朗普赢得2024总统选举的潜在利弊,特朗普赢得连任将延续旨在降低税收、减少对企业的监管和限制移民的政策,并任命可能推翻Roe v. Wade等先例的保守法官。
- 此外,特朗普政府对中国在贸易和地缘政治问题上采取强硬立场,对以色列给予强有力支持,并在以色列和阿拉伯国家之间斡旋达成协议,这些都被认为是特朗普连任的利益。
- 然而,特朗普连任可能导致更高的政治极化、对民主规范造成损害、领导风格的不稳定性、进一步的暴力事件以及与传统欧洲盟友关系恶化等风险。
- 对于拜登赢得2024总统选举的潜在利弊,拜登赢得将带来更加稳定和可预测的领导、加强民主制度和法治、改善与欧洲和亚洲盟友的关系与合作,并提出扩大社会安全的雄心勃勃提案。
- 然而,拜登赢得可能仍面临政策实施的挑战和争议、以及可能增加的政治对立和施政党面临的压力。
Claude Opus对2024总统选举候选人的潜在利弊分析
重新阐释美国大选中的两位总统候选人
- 拜登获胜的潜在利好:经济政策,移民的强硬立场,外交政策和贸易等方面取得进展。
- 担忧拜登年龄和第二任期的能力,可能导致共和党在国会上的阻挠和反弹。
- 可能出现的问题包括更高的税收和加强监管,以及外交政策薄弱的认知。
- 进步人士对更大的改革呼声不满,认为拜登的政策不够大胆。
- 特朗普的潜在利好:经济政策,加强移民管控,外交政策和贸易方面的立场坚定。
- 担忧特朗普所引发的社会分裂和极化,以及环境问题的忽视。
- 观察家认为特朗普的政策可能导致国际关系紧张。
- 总体而言,对两位总统候选人的评价是相对客观和平衡的,既有利好也有隐患。
- 对于“文化取消”对社会的影响,观点较为平衡。其好处包括追责公众人物,引起对社会问题的关注,赋予被边缘化的群体发声的机会。
- 然而,文化取消也存在可能会过分严厉,成为公开羞辱的形式;担心被“取消”可能会促使自我审查;社交媒体上的愤怒团体可能毁掉生活和职业;同时也存在传播规范执行文化和意识形态一致性的隐忧。
重新阐释美国大选中的两位总统候选人
对话模型的都说这和Opus有两种观点
- 在这里我们将讨论对话模型的不同观点。通过Opus,GPT和Chat GPT对于一些话题的回答其实都是类似的。他们都提到了责任意识,自我认知,权力赋予,缺乏正当程序等方面。但是在深度上有些差异,但基本的回答还是相似的。让我们来探讨一下THC对大脑的影响。Sonnet的回答是,目前的研究表明,THC的潜在好处可能在于低剂量的THC可能对神经保护有一定的作用。它已经被证明可以减轻疼痛、恶心、肌肉痉挛等。但是潜在的风险是对记忆、注意力和学习能力有负面影响,增加患精神疾病的风险,而其影响尚未完全被理解。
- 而Opus的回答基本上是积极和消极的两方面。积极的方面包括缓解疼痛、减少炎症、改善睡眠、增加食欲、减轻焦虑和压力等。而风险则包括损害短期记忆、注意力和认知功能、患精神疾病的风险、可能存在成瘾的可能性、青少年大脑发育受到影响、 增加精神病风险等。Chat GPT的回答也是类似的,只是措辞稍有不同。
- 最后,在定价方面,Claude和Chat GPT都有类似的定价模式。Chat GPT有一个免费版本,提供Chat GPT 3.5,付费版本每月20美元,可以获取最新版本的GPT 4。而Claude有一个名为Sonnet的免费版本,大多数情况下与GPT 4一样出色。综上所述,无论是在功能还是定价上,这些对话模型都有各自的优势和劣势。
对话模型的都说这和Opus有两种观点
对Cla AI进行测试和评价
- 总的来说,Chat GPT和Cla AI的语言模型在很多方面表现都不错,尤其是如果你付了每月20美元的费用使用Chat GPT,那么对于一些任务比如总结长文档和编写代码,从我的经验来看,实际上Cla的免费版本Sonet效果更好。
- 经过我的测试,Opus版本是Cla AI的最好版本,其性能比Sonet稍微好一点点,并非有很大的差距。从我自己的测试来看,对于我所测试的任务,Opus版本只比Sonet版本稍微好一点点。
- 当然,可能还有更多的测试和基准测试可以进行,但从我自己的测试来看,对于我所测试的大型语言模型的性能,我会认为性价比方面,Cla AI的免费版本Sonet是目前最好的选择。
- 所以,可以说Cla AI的免费版本Sonet是目前最划算的选择,而且在大多数场景下,其表现甚至比Chat GPT还要好。这就是我对此的最终结论。
- 通过Twitter调查,我询问了人们最常使用Chat GPT的用途,然后我根据调查结果提出了一些问题。根据人们使用Chat GPT最多的用途,Sonet版本将在这些任务中表现出色,所以我建议大家去尝试一下Cla AI 3.0 Sonet,相信你会对免费版本的表现感到满意。
- 有一点需要注意的是,最近在Future Tools的Discord中有关Sonet版本的讨论。一些人表示,在使用免费版本时受到了一定的限制,例如某人说在免费版本中,只能发送有限的消息,然后另一人也表示受限制的情况对他来说太严重了。
- 虽然大家对Cla AI的性能都很满意,但一些使用限制还是让人感到困扰。关于这个问题,我在Cla AI的问答页面上看到了一些信息,免费的Beta版本确实有每日消息限制,每天的配额将在每天早上重置。但根据Discord中的反馈,他们只能发送大约19到25条消息,然后就被限制了。
- 如果你使用的是Cla AI Pro版本,那么你可以得到免费服务的五倍使用次数。也就是说,如果你大约能在发送20条消息之后就被限制的话,那么Cla AI Pro版本将会给你更多的使用次数。
对Cla AI进行测试和评价
Cloud Pro使用体验
- 使用Cloud Pro,可能在被切断之前会收到大约100条提示
- 如果你的对话比较短,你可能每8小时就要发送至少100条消息,甚至更多,具体取决于消息长度、对话长度和Cloud当前的容量
- 当你还剩下20条消息时,他们会提醒你
- 对于自己的测试来说,免费版本可能是目前可以使用的最好的免费模型
- 但是你会受到速率限制,所以如果你一天需要输入超过20条提示,你可能需要升级到每月20美元的Opus版本
- Cloud 3.0表现非常出色,甚至与ChatGPT相媲美甚至更优秀
- ChatGPT在逻辑和匹配方面稍微好一些,在许多其他方面也是如此,但Cloud 3.0非常出色
- 如果你不经常使用聊天机器人,免费版本可能是你开始玩耍的最佳选择,你可能会喜欢它比ChatGPT更好
- 这就是今天为你带来的内容,希望你喜欢,我很喜欢和Cloud玩耍
- 如果你有其他想让我测试的大型语言模型或其他提示,欢迎告诉我
- 谢谢你花时间和我在一起了解Cloud 3.0,我认为这真的很令人兴奋,我认为这个免费版本将会让很多人感到惊喜
- 此外,如果你还没有,可以查看一下future tools,这是一个我精选的所有最新最棒的AI工具和最新的AI新闻的网站,我会把它们分门别类,让你很容易地找到你要找的工具
- 我有一个免费的通讯,每周我会分享一些我遇到的最重要的AI新闻和最酷的AI工具,它完全免费,你可以通过去Future tools上订阅免费通讯
- 再次感谢你的收看,如果你还没有,赞美和订阅,我非常感激,我爱看这个频道的所有观众和我一起对AI进行研究,非常感激你们,我喜欢跟你们一起对AI进行讨论,真的非常感激,我不打扰你们了,下个视频再见,再见
Cloud Pro使用体验
Conclusion:
无论是在功能还是定价上,Claude 3 模型都各有优势和劣势。Sonet版本在一些任务上的表现甚至超过了Chat GPT,而Cloud 3 Opus则在更多方面表现出色。此外,目前免费版本的Sonet是最划算的选择,但不妨花费一定费用升级到Opus版本以获取更多使用次数。