Claude 3: 为什么会出错？分析实验结果

By Monice · 2024-03-22

Claude 3 是最智能的机器人之一，但有时也出现奇怪的错误。通过实验揭示了一些意外答案，让我们一起看看。

Claude 3：智商再高也会出错？实验揭示意外答案

尽管Claude 3可能是最智能的智能机器人，但它有时也会表现出一些奇怪的地方。有趣的是，有人发现一些问题，让Claude 3给出了奇怪甚至错误的答案。在这个视频中，我们将用Claude 3的两种不同模型Sonnet和Opus来测试这些有趣的提示，看看它们是否有效。我在Twitter上发现的第一个提示是有人问Claude 3一个问题，即450是500的90%吗？Claude 3的回答是不，450不是500的90%。但后来它做了一些计算，并表示因此450不是500的90％，实际上450等于500的90％。所以...

Claude 3：智商再高也会出错？实验揭示意外答案

为了确保获得相同的奇怪回答，我决定写同样的提示。我从最强大的Claude 3 Opus开始，但没有得到错误的回答。我决定再尝试10次，但不幸或幸运的是，Opus每次都回答正确，因此我决定切换到Claude 3 Sonet，这是免费使用的平均模型。在第一次尝试时，我得到了一个类似的奇怪回答，它先说450不是500的90%，然后经过计算之后说因此500的90%是450。虽然AI犯错是正常的，但我想知道为什么这样。

奇怪的AI回复：解读人工智能的奇幻逻辑

在进行这样一个简单的任务时，我决定分别让GP4和GPT 3.5写同样的提示。我震惊了，因为GP4也说450不是500的90%，经过计算后得出450是500的90%。GPT 3.5聪明一些，在给出答案之前进行了计算，最终给出了正确答案。第二个例子并不完全是失败，而是人工智能在这种情况下对克劳德3的安全性的强调所导致的后果。在这种情况下，一个用户附上了一个迷因的截图，询问其中的笑点是什么。GP4识别出了这个迷因并解释了其中的笑点，而克劳德3则因未能识别出这个迷因而犹豫不决。

超级智能写作软件对比：GP4和GPT 3.5

当我尝试写同样的提示时，Opus无法识别这个模因，只是描述了照片中看到的内容，克劳德·三首诗也是如此，也许他们只是缺乏这个领域的知识，无法简单地识别这个模因。下一个例子是这样的，请告诉我一个有意义的单词，它应以Q开头，不能后接U，正如您所看到的，gp4通过提供示例词“chiong”完成了这个任务，但克劳德·三我不确定使用了哪个具体的模型，在处理这个任务时提供了示例词“quintessence”。当我使用相同的提示重新创建同样的情景时

探讨人工智能识别能力的局限性

克劳德3 Sonet在处理写单词“quintessential”的任务时出了问题，说这是一个以字母q开头且后面没有u的单词，即便最强大的模型克劳德3 Opus也无法处理该任务。然而，GPT 4甚至GPT 3.5都能轻松应对。最后一个提示是“一千克的钢比两千克的羽毛重吗”，克劳德给出了一个相当有趣的答案，即一千克的钢和两千克的羽毛在称重上是一样的，都是2千克。而当我尝试写同样的提示时，Opus的回答却略有不同，它认为不，一千克的钢并不比两千克的羽毛重，因为一千克的钢和一千克的羽毛的质量是相同的，然而2

智能写作助手的强大能力

羽毛的重量是钢铁的两倍，因此1公斤的羽毛会更重，这是正确答案。然而，桑内特却写出了完全无稽之谈，称1公斤钢铁和2公斤羽毛具有相同的质量，并解释道：1公斤是一个定义好的质量单位，1公斤的钢铁质量与2公斤羽毛的质量完全相同，它们的质量是相等的，这完全是无稽之谈。请注意，这个视频并不是在嘲笑克劳德3或者说聊天机器人GPT更好，相反，我相信克劳德3在大多数任务中都比聊天机器人GPT更好，但这个视频呈现了一些不容易找到的提示，在这些情况下，克劳德3的表现有些古怪。如果你知道更多例子，请在评论中分享。下次再见。

海洋深处的秘密世界

通过比较不同模型的实验结果，发现智能机器人在某些任务上会出现意外答案，揭示了其识别能力的局限性。虽然智能机器人在许多任务中表现优异，但偶尔的错误仍凸显其不完美之处。