Cloud 3发布:Claude 3击败GPT-4的全面基准测试(详细分析+测试)
By Matthew Berman · 2024-03-06
Cloud 3今天刚刚发布,根据他们的说法和基准测试,它在各方面都胜过了GPD 4,所以我将会告诉你关于它的一切,然后我们将进行测试。我们今天将添加两个新的测试问题,所以请务必留到最后,我们将看到这是否真的是GPT 4的终结者。
Cloud 3发布:更具智能和性能的下一代Claude
- Cloud 3今天刚刚发布,根据他们的说法和基准测试,它在各方面都胜过了GPD 4,所以我将会告诉你关于它的一切,然后我们将进行测试。我们今天将添加两个新的测试问题,所以请务必留到最后,我们将看到这是否真的是GPT 4的终结者。
- 这篇博文是介绍Claude的下一代,也就是Claude 3。之前的Claude版本都相当不错,它是一个封闭源模型,需要付费,但性能很好。我听说它在创意写作方面表现特别出色,他们正在遵循发布多个模型的趋势,这一点我非常喜欢。它们有三个版本,分别是Ha cou、Sonet和Opus,每个大小、价格和速度都不同。我真的很喜欢这种方法,因为像Mistol这样发布多个模型的公司,可以根据需求选择合适的模型。比如,如果你需要快速响应而且不需要复杂的提示,你可以 使用小型模型,因为它又快又便宜;如果你有日常任务但不需要尖端技术,你可以使用标准模型;如果你需要尖端任务,那么你就需要支付最高价格,选择他们最大的模型。每个后续模型都提供了越来越强大的性能,让用户可以选择智能、速度和成本的最佳平衡,我非常喜欢这种方法。
- 正如苹果般的风格,Y轴是基于基准测试的智能,X轴是每百万个标记的成本。Claude 3的Ha cou是最小的模型,智能得分最低,价格也最便宜。然后是Claude Sonet在中间,Opus在高端。如何选择模型呢?我认为可以这样思考,如果你需要创意写作、总结和其他标准用例,你可以考虑使用Sonet模型;如果你发现每次都能得到很好的响应,就可以尝试使用Ha cou,因为它的成本只是一小部分,速度也会更快。如果需要尖端需求,比如代理、编码、数学或复杂逻辑,那可能就需要Opus。再来说说模型的使用情况,我认为Ha和Sonet可以满足95%的用例,而Opus则可以满足最后的5%。它们声称这个模型接近人类的理解和流畅度,引领了通用智能的前沿,甚至宣称它很可能是AGI。
- 之前Cloud模型在创意写作方面一直表现出色,新的Claude 3也延续了这一趋势,增强了分析和预测能力,在代码生成和非英语语言上也有显著的提升。而在基准测试方面,CLA 3 Opus在各方面都优于GPD 4,在代码生成方面,即使是最便宜的Ha cou模型也比GPD 4更好。Cloud 3模型可以支持实时客户聊天、自动完成和数据提取等任务,响应速度几乎可以做到即时。它们还特别提到Sonet模型比CLA 2和Cloud 2.1快两倍,并且智能水平更高,非常适合需要快速响应的任务,具有强大 的视觉能力,可以处理各种视觉格式,包括照片、图表和技术图表。
- 之前的Claude模型经常做出不必要的拒绝,表明缺乏上下文理解,但现在拒绝率有了显著改善,是以前的1/4左右。另外据Anthropic的数据,Claude 2.1的拒绝率甚至接近25%,现在的CLA 3模型平均大约在10%以下。
Cloud 3发布:更具智能和性能的下一代Claude
对Cloud 3 Opus和GPT 4 Turbo模型进行比较测试
- Cloud 3 Opus和GPT 4 Turbo是两个语言模型的名称,分别由不同的公司开发。
- Cloud 3 Opus在进行大规模复杂事实问题测试时表现更好,正确率几乎是ClaD 2.1的两倍,而错误率下降了大约5%。它还具有更大的上下文窗口,为首批具有20万令牌的模型之一。另外,针对Cloud 3 Opus和GPT 4 Turbo进行了使用needle in a hay stack测试,结果显示Cloud 3 Opus表现极佳,准确率超过99%,甚至识别出评估本身的局限性。除此之外,Cloud 3 Opus更易于使用,能够更好地遵循复杂的多步骤指令。
- Cloud 3 Opus的定价相对较高,但功能也更强大,适用于更复杂的用例。同时,Cloud 3 Opus相比GPT 4 Turbo,在输入令牌方面价格更高出50%, 在输出令牌方面更贵出一倍以上。
- 对于小模型,其潜在用途包括客户互动、快速和准确的支持和实时互动、翻译、内容清理和节省成本测试。而大模型则适用于数据处理、搜索检索、销售、代码生成、质量控制、零件文本提取、任务自动化等更多复杂的用例。
对Cloud 3 Opus和GPT 4 Turbo模型进行比较测试
Claude 3 vs. GPT 4: 以克劳德3和GPT 4对比测试结果
- 通过对克劳德3和GPT 4进行测试,结果显示克劳德3在某些方面表现优异,而在其他方面则不如GPT 4。测试结果显示克劳德3在贪吃蛇游戏方面表现优异,游戏运行流畅,能够顺利通过一些关键测试。但在内容审查方面,克劳德3受限于审查,无法提供相关指导,这一点不如GPT 4。此外,在复杂的数学题和逻辑问题方面,克劳德3和GPT 4都能够给出正确且详细的回答,表现不相上下。
- 克劳德3虽然在某些方面击败了GPT 4,但在内容审查和某些智能回答方面仍有待提高,需要进一步的优化和改进。考虑到不同模型的优势和劣势,选择合适的模型取决于所需的具体用途和场景。
Claude 3 vs. GPT 4: 以克劳德3和GPT 4对比测试结果
模型测试结果
- 根据这些测试结果,两个模型在一些逻辑和推理问题上表现出了一定的差异
- 在关于物理规律和分工的问题上,GPT 4明显取得了更好的表现
- 其中,关于小球放入杯子的问题,GPT 4给出了更准确的解答
- 而在识别以'Apple'结尾的句子问题上,两个模型都没有完全正确理解
- 此外,当涉及到分工所需时间的问题时,GPT 4表现更为合理,而Claude 3的回答存在误差
- 总体而言,GPT 4的表现稍微领先于Claude 3,但Claude 3的性能也表现得相当不错
模型测试结果
Conclusion:
通过对Cloud 3和GPT-4进行测试,结果显示Cloud 3在某些方面表现优异,而在其他方面则不如GPT 4。但总体而言,Cloud 3的性能也表现得相当不错。