Claude 3: 为什么会出错?分析实验结果
By Monice · 2024-03-22
Claude 3 是最智能的机器人之一,但有时也出现奇怪的错误。通过实验揭示了一些意外答案,让我们一起看看。
Claude 3:智商再高也会出错?实验揭示意外答案
- 尽管Claude 3可能是最智能的智能机器人,但它有时也会表现出一些奇怪的地方。有趣的是,有人发现一些问题,让Claude 3给出了奇怪甚至错误的答案。在这个视频中,我们将用Claude 3的两种不同模型Sonnet和Opus来测试这些有趣的提示,看看它们是否有效。我在Twitter上发现的第一个提示是有人问Claude 3一个问题,即450是500的90%吗?Claude 3的回答是不,450不是500的90%。但后来它做了一些计算,并表示因此450不是500的90%,实际上450等于500的90%。所以...
Claude 3:智商再高也会出错?实验揭示意外答案
奇怪的AI回复:解读人工智能的奇幻逻辑
- 为了确保获得相同的奇怪回答,我决定写同样的提示。我从最 强大的Claude 3 Opus开始,但没有得到错误的回答。我决定再尝试10次,但不幸或幸运的是,Opus每次都回答正确,因此我决定切换到Claude 3 Sonet,这是免费使用的平均模型。在第一次尝试时,我得到了一个类似的奇怪回答,它先说450不是500的90%,然后经过计算之后说因此500的90%是450。虽然AI犯错是正常的,但我想知道为什么这样。
奇怪的AI回复:解读人工智能的奇幻逻辑
超级智能写作软件对比:GP4和GPT 3.5
- 在进行这样一个简单的任务时,我决定分别让GP4和GPT 3.5写同样的提示。我震惊了,因为GP4也说450不是500的90%,经过计算后得出450是500的90%。GPT 3.5聪明一些,在给出答案之前进行了计算,最终给出了正确答案。第二个例子并不完全是失败,而是人工智能在这种情况下对克劳德3的安全性的强调所导致的后果。在这种情况下,一个用户附上了一个迷因的截图,询问其中的笑点是什么。GP4识别出了这个迷因并解释了其中的笑点,而克劳德3则因未能识别出这个迷因而犹豫不决。
超级智能写作软件对比:GP4和GPT 3.5
探讨人工智能识别能力的局限性
- 当我尝试写同样的提示时,Opus无法识别这个模因,只是描述了照片中看到的内容,克劳德·三首诗也是如此,也许他们只是缺乏这个领域的知识,无法简单地识别这个模因。下一个例子是这样的,请告诉我一个有意义的单词,它应以Q开头,不能后接U,正如您所看到的,gp4通过提供示例词“chiong”完成了这个任务,但克劳德·三我不确定使用了哪个具体的模型,在处理这个任务时提供了示例词“quintessence”。当我使用相同的提示重新创建同样的情景时
探讨人工智能识别能力的局限性
智能写作助手的强大能力
- 克劳德3 Sonet在处理写单词“quintessential”的任务时出了问题,说这是一个以字母q开头且后面没有u的单词,即便最强大的模型克劳德3 Opus也无法处理该任务。然而,GPT 4甚至GPT 3.5都能轻松应对。最后一个提示是“一千克的钢比两千克的羽毛重吗”,克劳德给出了一个相当有趣的答案,即一千克的钢和两千克的羽毛在称重上是一样的,都是2千克。而当我尝试写同样的提示时,Opus的回答却略有不同,它认为不,一千克的钢并不比两千克的羽毛重,因为一千克的钢和一千克的羽毛的质量是相同的,然而2
智能写作助手的强大能力
海洋深处的秘密世界
- 羽毛的重量是钢铁的两倍,因此1公斤的羽毛会更重,这是正确答案。然而,桑内特却写出了完全无稽之谈,称1公斤钢铁和2公斤羽毛具有相同的质量,并解释道:1公斤是一个定义好的质量单位,1公斤的钢铁质量与2公斤羽毛的质量完全相同,它们的质量是相等的,这完全是无稽之谈。请注意,这个视频并不是在嘲笑克劳德3或者说聊天机器人GPT更好,相反,我相信克劳德3在大多数任务中都比聊天机器人GPT更好,但这个视频呈现了一些不容易找到的提示,在这些情况下,克劳德3的表现有些古怪。如果你知道更多例子,请在评论中分享。下次再见。
海洋深处的秘密世界
Conclusion:
通过比较不同模型的实验结果,发现智能机器人在某些任务上会出现意外答案,揭示了其识别能力的局限性。虽然智能机器人在许多任务中表现优异,但偶尔的错误仍凸显其不完美之处。