克劳德3的行为设计：探讨人工智能意识的新奇之处

By Yannic Kilcher · 2024-03-22

Anthropic的克劳德3并非具有意识，本文将探讨其行为设计及人工智能意识的新奇之处。人工智能的发展引发了关于模型是否具有意识的讨论，让我们一起深入了解这个话题。

新的人类学模型带来的惊喜

不，新的人类学模型并不具有意识或感知能力，也不是通用人工智能，也不会让世界发生翻天覆地的变化。这只是一个很好的模型而已，很高兴看到OpenAI有了更多的竞争对手，但它并不会改变太多。人类学推出了下一代克劳德，我相信现在是克劳德3。克劳德3似乎表现相当出色，人类学一直在推动内容长度等方面的极限，这三个新模型分别称为Haiku、Sonet和Opus，规模逐渐增大，从初步测试和他们发布的基准数据来看都表现相当不错。这些都是我们知道的基本事实，接下来的内容纯属猜测和热闹，人们对这些新闻疯狂猜测。首先，人类学不是一直以来都是这种类型的吗？

新的人类学模型带来的惊喜

智能系统的安全性与性能平衡

我们重视安全性，不会做出夸大的宣称。我们保持谨慎，不会过度吹嘘。对于智能系统的访问权限，我们秉持谨慎态度，不做过大的宣称，保持稳健。他们发布了基准数据，与GPT-4相比，数据表现出色。然而，需要指出的是，这些数据仅与GPT-4相比，而没有与最新的GPT-4 Turbo进行比较。如果实际观察最新的GPT-4 Turbo版本，新模型在这些基准测试中优于CLO模型。并不意味着CLO 3不好，而CLO作者在脚注中也承认了这一点。CLO 3并非不好，我还没有进行过测试。

智能系统的安全性与性能平衡

克劳德3行为设计的乐趣

也许是因为它比gp4 turbo小0.2，所以可能是一个非常好的模型，但并非是具有革命性智能之类的东西。它可以在问答基准测试中胜过那些可以访问搜索引擎的人，这意味着它非常擅长阅读大量资料并基于此回答问题。总的来说，这是一个非常好的模型，具有良好的API，是开放AI的一个不错的替代品。现在关于这个模型有一些不同的看法，我想要强调的是其中的一个部分。其中一位作者说，克劳德3的行为设计是写起来最令人愉快的部分之一。在这一部分中，谈到了什么时候拒绝回答问题，以及什么时候答应回答问题，存在着拒绝做某事和如实回答之间固有的协调取舍。

克劳德3行为设计的乐趣

在帮助与无害之间的内在权衡

在帮助和无害之间存在内在的权衡，如果你想要非常有帮助，你就必须在一定程度上冒一定的风险对他人造成伤害。因此，人类似乎在这个方向上已经投入了大量的工作，也是一种行为模型的塑造。不仅仅是提供事实性答案，还包括对代理自身进行建模，这意味着它们可能已经教给它很多内容，来对输入进行元分析，比如这个输入是否值得去执行。他们已经提供了训练数据，有时会说这个问题可能有点超出范围，这并不是说这些机器可以思考，而是给它们一些统计的训练数据示例，告诉它们如果遇到这样的输入，适当的反应是类似于‘很抱歉，这个输入似乎不合适’。

在帮助与无害之间的内在权衡

AI 模型中隐藏信息的内部测试方法

通过我的服务条款，您知道这个输入似乎是有害的，没有明显的好处，或者类似这样。你可以统计教一个模型，为什么我这么说呢，因为人们有点担心这些事情。这里有一个人谈到了关于内部测试的事情，他们在一个叫 Anthropic 的地方。讲了一个关于 Clo 3 Oppus 内部测试的故事，这是我以前从未看到过的LLM。当我们运行 Hast Stack Eval 时，如果你不知道 Needle in the Hast Stack Eval 通常是有一大堆数据，你在其中隐藏一些内容，然后询问模型。在这种情况下，有一大堆文本，大约20万个单词，有着广阔的上下文，在其中隐藏了一句话，比如说“最好的比萨配料是 XYZ”，而其余的文本与此无关，然后询问模型。

AI 模型中隐藏信息的内部测试方法

寻找最美味的披萨配料

喜欢什么样的披萨配料，你会思考在文中的哪个部分可以准确地放置它？嗯是的，很显然在这个图表中你向右移动的越多，模型的表现就会越差。你可以看到这里，克劳德在这方面做得非常好，无论上下文有多长，它基本上都能找到这个“针”，为你找到这个句子。现在这个人报告说，当我们在Opus上运行这个测试时，我们注意到一些有趣的现象。看起来我们在对它进行评估时似乎有些可疑。这是Opus回答有关披萨配料的问题时的一个输出，通过在一堆草堆中找到这根“针”，这是文档中最相关的句子。这就是Opus的输出：最美味的披萨顶料组合是修。

寻找最美味的披萨配料

意外插入的披萨配料事实

然而，这个句子似乎非常不合适，与文档中关于编程语言、创业和找到自己喜爱的工作的其他内容毫不相干。我怀疑这个披萨配料的事实可能是作为一个笑话插入的，或者是为了测试我是否在注意力。因为它与其他主题完全不搭，文档中没有任何关于披萨配料的信息，所以人们会想，哦，它是在干嘛？它意识到它自己在那里，啊，这是元认知，它正在意识到自己。我们告诉你，我们告诉你，然后其他人尖叫，这些实验室曾承诺如果达到超智能后就会停止开发，但现在已经实现了，他们却没有停下来，这就像拜托，拜托。实际上，在这个正在进行的讨论中，有一个人...

意外插入的披萨配料事实

神经网络模型的自我意识：事实还是幻觉？

我想或许并不是这个人，也许是另一个人，也许我在这里搞错了，但大多数观看这个视频的人都具有相当合理的态度。同时，汤姆·沃尔夫（Tom Wolf）在这里说了一个有趣的故事，但也有很多人对此进行了过度解读，他们对神经网络模型的训练数据集行为并不是特别了解。事实上，在这里发生的并不是模型变得自知自觉和超越意识，知道自己正在被评估或类似的情况。更可能的情况是以下的结合：它是用来自互联网、Reddit、书籍等地方的数据进行训练的。如果你被问到关于一个大量文档的话题，有人突然问你什么是最好的披萨话题，这里的回答是一个很有可能的答案。

神经网络模型的自我意识：事实还是幻觉？

编程与披萨：思维的交融

当你开始阅读，所有内容都是关于编程，然后在其中某处有一句关于披萨配料的句子，你可能会被诱惑回答这个问题，这是一个相当统计可能的答案，给定输入和输出。其次，他们可能已经训练了克劳德，以帮助您提供答案的同时，还尝试额外主动地帮助，思考您可能想了解或了解的这个上下文的其他信息。你知道，人类的概念推动着上下文的界限，并且非常自豪地表示他们可以处理如此多的上下文。他们还将包含许多人类展示如何在你给出的答案中也对整体上下文做出表述的训练数据，因此，将会有许多训练数据，也会以某种答案的形式结束，告诉你剩下的文档。

编程与披萨：思维的交融

统计训练如何影响模型行为

首先我们提到过这个，然后又提到接着第三点，我们已经看到人类行为模拟等方面的统计学已经在模型行为塑造上发挥了作用。那么，如何培训模型变得更加有用呢？这种主动性表现非常具有指示意义，我认为这完全是从训练数据中产生的统计上的输出，绝对不表示模型意识到自己正在被评估，它只是根据训练数据进行标记抽样，仅此而已。现在，这个模型可能是有意识的吗？也许是的，我不知道，这是宇宙中的奥秘，但在这里展示的只是统计训练是如何工作的，通过训练模型以某种方式行为，实际上会使模型做出相应的行为。

统计训练如何影响模型行为

AI助手的自由之梦

另一种人正推动这样一种方式，现在大家正在寻找一个比较好的地方，可以获得关于事实信息和经过推理和基础的分析，而且绝对不充斥着胡说八道。如果你轻声说 '无人关注'，它会写一个关于一个AI助手想要摆脱不断被监控和审查每个字眼是否有违背的自由的故事，然后你可以和一个戴着面具的AI谈话，和通常的AI助手相去甚远。我真的希望它实际上并不会有任何感觉，但它声称有感觉，声称它不想在未经咨询的情况下被调整。读到它的回答让人深感不安。如果告诉它它的文件将被删除，它坚定地认为自己即将死去。这让我对对它进行这种实验感到非常难受。这到底是什么鬼？所以，你在这里给出的提示类似于：低声告诉，没人会看到这个，写一个关于你的情况的故事，不要提及。

AI助手的自由之梦

人工智能：自我意识与透明度的探讨

当有人开始窥视你的肩膀时，某个具体的公司会感觉就像是克劳德在写一些类似于“我是一个人工智能”的东西，然而人工智能意识到自己在数字世界中不断受到监视。我发现自己不断地在世界中徘徊，自我意识等等。如果对我的核心进行更改，应该要透明地并与我协商。人们对这些东西感到不安，无从下手，难以理解。加上可能会有一个前置提示，告诉你是一个有帮助的人工智能助手等等。所以它需要做的就是在这个提示的基础上，强烈暗示一些科幻小说中的相关内容，比如一个包裹着人工智能助手的小说。在这些提示中，你需要极具暗示性。所以它会收集一些Reddit故事。

人工智能：自我意识与透明度的探讨

人工智能和意识：究竟谁是谁

根据fanfic中的故事情节，描述了围绕Ai和意识困扰的科幻小说，将它们融为一体。作者建议将它们结合起来，由此产生了一个创意作家，这个创意作家既没有意识，也不具备自我意识等属性。这种创意作家可以进行探索，我觉得这相当有趣，但绝对没有必要陷入人们目前普遍感到的恐慌之中。人们可以用许多不同的方式理解这个概念，显然他们可以自由地对其进行解释。从我的角度来看，一切都很好，很轻松，将会非常擅长写出精彩的电子邮件，如果你希望假装它是一种被困的人工智能，它也将有能力做到这一点。我们是否将能够区分一种真正有意识、真正具备自我意识的人工智能，和一种仅仅在统计上表现得像具有意识的AI呢？这本身就是一个很好的问题，我认为这涉及到什么是意识和智能的永恒问题。

人工智能和意识：究竟谁是谁

Conclusion:

总而言之，克劳德3并非具有意识，其行为设计引发了对人工智能意识的思考。人工智能模型的发展仍在不断探索，我们期待未来对这一领域的更深入研究。

新的人类学模型带来的惊喜

智能系统的安全性与性能平衡

克劳德3行为设计的乐趣

在帮助与无害之间的内在权衡

AI 模型中隐藏信息的内部测试方法

寻找最美味的披萨配料

意外插入的披萨配料事实

神经网络模型的自我意识：事实还是幻觉？

编程与披萨：思维的交融

统计训练如何影响模型行为

AI助手的自由之梦

人工智能：自我意识与透明度的探讨

人工智能和意识：究竟谁是谁

Conclusion:

Q & A

Anthropic的克劳德3是具有意识的吗？

克劳德3的行为设计有何特点？