Cloud 3发布：Claude 3击败GPT-4的全面基准测试（详细分析+测试）

By Matthew Berman · 2024-03-06

Cloud 3今天刚刚发布，根据他们的说法和基准测试，它在各方面都胜过了GPD 4，所以我将会告诉你关于它的一切，然后我们将进行测试。我们今天将添加两个新的测试问题，所以请务必留到最后，我们将看到这是否真的是GPT 4的终结者。

Cloud 3发布：更具智能和性能的下一代Claude

Cloud 3今天刚刚发布，根据他们的说法和基准测试，它在各方面都胜过了GPD 4，所以我将会告诉你关于它的一切，然后我们将进行测试。我们今天将添加两个新的测试问题，所以请务必留到最后，我们将看到这是否真的是GPT 4的终结者。

这篇博文是介绍Claude的下一代，也就是Claude 3。之前的Claude版本都相当不错，它是一个封闭源模型，需要付费，但性能很好。我听说它在创意写作方面表现特别出色，他们正在遵循发布多个模型的趋势，这一点我非常喜欢。它们有三个版本，分别是Ha cou、Sonet和Opus，每个大小、价格和速度都不同。我真的很喜欢这种方法，因为像Mistol这样发布多个模型的公司，可以根据需求选择合适的模型。比如，如果你需要快速响应而且不需要复杂的提示，你可以使用小型模型，因为它又快又便宜；如果你有日常任务但不需要尖端技术，你可以使用标准模型；如果你需要尖端任务，那么你就需要支付最高价格，选择他们最大的模型。每个后续模型都提供了越来越强大的性能，让用户可以选择智能、速度和成本的最佳平衡，我非常喜欢这种方法。

正如苹果般的风格，Y轴是基于基准测试的智能，X轴是每百万个标记的成本。Claude 3的Ha cou是最小的模型，智能得分最低，价格也最便宜。然后是Claude Sonet在中间，Opus在高端。如何选择模型呢？我认为可以这样思考，如果你需要创意写作、总结和其他标准用例，你可以考虑使用Sonet模型；如果你发现每次都能得到很好的响应，就可以尝试使用Ha cou，因为它的成本只是一小部分，速度也会更快。如果需要尖端需求，比如代理、编码、数学或复杂逻辑，那可能就需要Opus。再来说说模型的使用情况，我认为Ha和Sonet可以满足95%的用例，而Opus则可以满足最后的5%。它们声称这个模型接近人类的理解和流畅度，引领了通用智能的前沿，甚至宣称它很可能是AGI。

之前Cloud模型在创意写作方面一直表现出色，新的Claude 3也延续了这一趋势，增强了分析和预测能力，在代码生成和非英语语言上也有显著的提升。而在基准测试方面，CLA 3 Opus在各方面都优于GPD 4，在代码生成方面，即使是最便宜的Ha cou模型也比GPD 4更好。Cloud 3模型可以支持实时客户聊天、自动完成和数据提取等任务，响应速度几乎可以做到即时。它们还特别提到Sonet模型比CLA 2和Cloud 2.1快两倍，并且智能水平更高，非常适合需要快速响应的任务，具有强大的视觉能力，可以处理各种视觉格式，包括照片、图表和技术图表。

之前的Claude模型经常做出不必要的拒绝，表明缺乏上下文理解，但现在拒绝率有了显著改善，是以前的1/4左右。另外据Anthropic的数据，Claude 2.1的拒绝率甚至接近25%，现在的CLA 3模型平均大约在10%以下。

Cloud 3发布：更具智能和性能的下一代Claude

Cloud 3发布：更具智能和性能的下一代Claude

对Cloud 3 Opus和GPT 4 Turbo模型进行比较测试

Cloud 3 Opus和GPT 4 Turbo是两个语言模型的名称，分别由不同的公司开发。

Cloud 3 Opus在进行大规模复杂事实问题测试时表现更好，正确率几乎是ClaD 2.1的两倍，而错误率下降了大约5%。它还具有更大的上下文窗口，为首批具有20万令牌的模型之一。另外，针对Cloud 3 Opus和GPT 4 Turbo进行了使用needle in a hay stack测试，结果显示Cloud 3 Opus表现极佳，准确率超过99%，甚至识别出评估本身的局限性。除此之外，Cloud 3 Opus更易于使用，能够更好地遵循复杂的多步骤指令。

Cloud 3 Opus的定价相对较高，但功能也更强大，适用于更复杂的用例。同时，Cloud 3 Opus相比GPT 4 Turbo，在输入令牌方面价格更高出50%，在输出令牌方面更贵出一倍以上。

对于小模型，其潜在用途包括客户互动、快速和准确的支持和实时互动、翻译、内容清理和节省成本测试。而大模型则适用于数据处理、搜索检索、销售、代码生成、质量控制、零件文本提取、任务自动化等更多复杂的用例。

对Cloud 3 Opus和GPT 4 Turbo模型进行比较测试

对Cloud 3 Opus和GPT 4 Turbo模型进行比较测试

Claude 3 vs. GPT 4: 以克劳德3和GPT 4对比测试结果

通过对克劳德3和GPT 4进行测试，结果显示克劳德3在某些方面表现优异，而在其他方面则不如GPT 4。测试结果显示克劳德3在贪吃蛇游戏方面表现优异，游戏运行流畅，能够顺利通过一些关键测试。但在内容审查方面，克劳德3受限于审查，无法提供相关指导，这一点不如GPT 4。此外，在复杂的数学题和逻辑问题方面，克劳德3和GPT 4都能够给出正确且详细的回答，表现不相上下。

克劳德3虽然在某些方面击败了GPT 4，但在内容审查和某些智能回答方面仍有待提高，需要进一步的优化和改进。考虑到不同模型的优势和劣势，选择合适的模型取决于所需的具体用途和场景。

Claude 3 vs. GPT 4: 以克劳德3和GPT 4对比测试结果

Claude 3 vs. GPT 4: 以克劳德3和GPT 4对比测试结果

模型测试结果

根据这些测试结果，两个模型在一些逻辑和推理问题上表现出了一定的差异

在关于物理规律和分工的问题上，GPT 4明显取得了更好的表现

其中，关于小球放入杯子的问题，GPT 4给出了更准确的解答

而在识别以'Apple'结尾的句子问题上，两个模型都没有完全正确理解

此外，当涉及到分工所需时间的问题时，GPT 4表现更为合理，而Claude 3的回答存在误差

总体而言，GPT 4的表现稍微领先于Claude 3，但Claude 3的性能也表现得相当不错

模型测试结果

模型测试结果

Conclusion:

通过对Cloud 3和GPT-4进行测试，结果显示Cloud 3在某些方面表现优异，而在其他方面则不如GPT 4。但总体而言，Cloud 3的性能也表现得相当不错。

Cloud 3发布Claude 3基准测试Claude 3优势分析GPT-4对比测试Cloud 3 vs. GPT-4

如何分析美国GDP趋势？克劳德3 Opus经济分析报告生成式人工智能的潜力和用途是什么？