Anthropic发布Claude 3,挑战OpenAI GPT-5霸主地位
By MattVidPro AI · 2024-03-22
Anthropic昨日发布Claude 3,一款优于OpenAI GPT-4的人工智能大型语言模型,可能会在本周被GPT-5所超越。本文深入探讨Claude 3的性能及行业地位。
AI时代新篇章:Anthropic推出Claude 3与OpenAI的挑战
- 大家好,我想提醒大家,几乎一年前,OpenAI宣布了GPT-4。这是我的原始GPT-4公告视频,发布于2023年3月15日。现在是2024年3月5日,就在昨天,OpenAI的竞争对手Anthropic发布了Claude 3,这是一个与OpenAI的GPT-4非常相似但更好的人工智能大型语言模型。需要注意的是,这是我昨天真的很想谈论的事情,但由于身体有些不适,我无法发表言论。今天你们也可以看到,我仍然状态不佳,但我会尽力而为。昨天3月4日,Anthropic宣布了Claude 3,他们AI模型的下一代产品,包括三种尖端型号:Opus是最大的,Sonet是中等型号,Hau是小巧的型号,在推理、数学编码、多语言理解和视觉能力方面均达到行业领先水准。现在,Claude也具备了类似GPT-4的视觉能力,所以今天我们将深入探讨Claude 3并了解其性能指标,但我想先为背景画面做一点铺垫,因为Twitter上正发生一些疯狂的事情。Jeremy Howard,Answer共同创始人,表示这将是一个重要的一周,Logan.GPT回复称已确认,他可能知道一些我们不知道的关于OpenAI的事情, 或许透露了关于GPT-5的线索,显然所有回复都在说这可能是比Claude 3更大的一周。当然,OpenAI不得不在Anthropic发布产品的同一天发布新内容,所以他们只发了个
AI时代新篇章:Anthropic推出Claude 3与OpenAI的挑战
新一代AI模型Claude 3的强大功能
- 现在可以阅读对您的回应,这应该算是一个相当不错的功能。回到Claude 3,Anthropic AI的这个模型似乎本周可能会被GPT 5所超越。无论如何,您可以看到它在本科水平知识上与gp4相匹敌,在研究生水平推理方面轻松击败了gp4。它在小学数学以及数学问题解决方面也轻松击败了GPT 4。在多语言数学和编码方面,它的表现也相当出色。这对于代码来说是一个相当重要的问题,在这里,gp4的得分为67,而Claude 3的Opus则为85%。顺便说一句,Claude 3的模型在文本推理方面比gp4好了三分,我们也在混合评估中看到了这一点,因此是一个比gp4更好的模型。除此之外还有其他几个模型,Sonet和Hiq这两个较小的模型在许多方面都能和gp4竞争激烈,Hiu的水平接近gp4,几乎在所有基准测试中都比gp4好很多,所以Claude 3和Haiku可能是终极编码模型,如果您想生成大量代码,当然,当涉及定价时,Haiku甚至比GPT 3.5要便宜得多,而Sonet似乎在许多不同领域与GPT 4旗鼓相当,在一些领域中胜过gp4,但总体来说,Opus就像我说过的,比gp4更好。我还想迅速提一下一些社区反馈,Matt Wolf指出,Claude 3对Wolf Opus非常非常好,在仅使用一个提示构建了一个工作的游戏,而Sonet则在两个提示下构建了游戏。Chachi PT在几个提示后仍然有困难,但两个版本在总结长篇文件方面比Chat GPT更好,而且同样出色。
新一代AI模型Claude 3的强大功能
深度学习模型竞争激烈:Anthropic或将挑战OpenAI霸主地位
- 最近在测试中,chat GPT 在描述图像创意写作和避免偏见方面表现出色,但在沃尔夫的测试中,chat GPT 在解决复杂逻辑问题时的表现要优于Claude的两个版本,并且今天他还将发布一段视频,敬请期待,沃尔夫总是制作出优质的视频。索利在Twitter上提出了一个很有见地的观点,他说Anthropic是否将淘汰所有现有的小模型?如果我理解正确的话,Haiku基准测试的性能几乎和gp4相当,但定价为每百万令牌25美分,绝对超过了GPT 3.5和开源解决方案。Haiku比gp4 Turbo便宜40倍,几乎和它一样好。索利指出,这相当于一个7B大小的开源市场上的模型,而且要好得多,所以这对于最小的模型来说是一个相当重要的事件,这可能是Anthropic在某些方面从OpenAI手中夺取王座的时刻,因为在性能方面完全超越了它的定价。马特·舒默在Twitter上也指出,克劳德和Gemini 1.5 5 Pro时代的百万令牌上下文窗口正式到来,展示了超过200,000令牌上下文窗口的召回准确性,以及它实际上的完美性达到了99%的准确性,他们通过使用一种称为“草堆中的针”的评估方法来做到这一点,即在大量的文 本中插入一个不该在那里的随机小段文字,然后能够发现它并识别出来。问题是,如果这种模型在20万令牌上是完美的,那么在百万令牌上会表现如何呢?你会注意到,他们最初提供了20万令牌,但他们表示所有三个模型都能够接受超过100万令牌的输入,马特·舒默提出了一个非常棒的观点。
深度学习模型竞争激烈:Anthropic或将挑战OpenAI霸主地位
克劳德3:经济分析家的未来
- 在我们真正开始测试这个模型之前,有一些快速示例非常酷,他们实际上有一些演示视频,我想看一下,这样我们就可以看到克劳德如何展示它,或者说人类如何展示它。首先,我们将看看克劳德3作为经济分析师的表现,看看克劳德和几个朋友能否帮助我们在几分钟内分析世界经济。我让克劳德3 Opus,这是人类新克劳德3家族中最大的模型,看一下美国的GDP趋势,并撰写一个Markdown表格来呈现它所看到的情况。我们给Opus和克劳德3家族中的所有其他模型进行了广泛的工具使用培训,而它正在使用的一个主要工具就是这个Web视图工具,它访问一个URL,查看页面上的内容,并因为它是多模态的,可以使用该页面上的信息来解决复杂问题。这是Markdown表格,需要注意的是,克劳德并没有直接获取这些数字,它实际上是在看和我们一样的浏览器,查看趋势线并尝试估算确切的数字。让我们看看它的准确性如何。我们要求该模型创建数据的图表,并使用这第二个工具,即Python解释器,来编写代码然后呈现图片供我们检查。这就是图片,看,它实际上添加了一些有用的小工具提示动画,以解释美国经济的过去几十年中一些主要的高峰和低谷,我们可以将该图表与实际数据进行对比,结果相当接近,实际上准确率在5%内。顺便说一句,克劳德这里的转录并不仅仅来自于它对美国GDP的现有知识,我们尝试了一
克劳德3:经济分析家的未来
模型对世界经济的预测与分析
- 我们对一大批虚构的GDP图表进行了大样本测试,准确率平均达到11%。接着,我们要求模型进行一些统计分析,预测未来并进行模拟,以了解美国的GDP可能会走向何方。我们可以看到,通过Python进行了这些分析,并能够进行蒙特卡洛模拟,了解未来十年左右美国GDP可能出现的范围。但我想知道我们是否可以更深入。我们将让模型分析一个更复杂的问题,即全球主要经济体的GDP可能会如何变化,为了帮助模型做到这一点,我们将再增加一项工具,称为调度子代理。这基本上允许模型将问题分解成许多子问题,然后为其它版本的自身编写提示,以帮助分担工作量。模型们可以通过共同努力完成更复杂的任务。在这里,你可以看到它已经撰写了这个提示,并给出了非常精确的指令,要求其他模型遵循,包括数据格式以及希望返回的数据。它已向一个模型下达了这个提示,该模型将研究美国、中 国、德国、日本等经济体。从进度条中我们可以看到,子代理模型现在正在完成每个个体经济体的任务,它们会访问相关网页,获取信息,运行代码进行分析,就像我们在之前的美国示例中看到的那样,但全部并行进行。让我们快进一下,看看模型产生了什么样的分析结果。你可以看到,模型进行了分析,生成了2020年与2030年世界经济预期的饼图,并且提供了书面分析。
模型对世界经济的预测与分析
未来AI技术的前沿发展
- 未来AI技术的发展不断突破新的局限,通过复杂的多步骤多模态分析,模型可以创建子代理以并行运行更多任务。根据对统计分析的预测,AI技术预测2030年特定经济体的GDP份额将发生变化,哪些经济体将变得更大或更小。从我在网上看到和听到的有关Claude 3的一切,我从未见过任何人提到即将推出的功能调用工具。虽然功能调用这种技术我们已经见过,但同时派遣多个AI代理的能力是迄今为止从未见过的。这是所有大公司如Meta AI、谷歌、Open AI和Anthropic都还没有涉足的领域。Open AI应该对这种可能性感到担忧,同时派遣多个代理,这些代理可以运行不同的功能调用,同时将所有任务打包在一起,这是我见过的最先进的工具使用和问题解决技术,绝对令人震惊。现在我们来看一下视觉能力,展示一种世界上最快速最实惠的视觉能力模型之一,通过阅读数千份扫描文档,可以在几分钟内完成。这是对图 书馆学会和联邦撰稿人的一次震撼性的演示。
未来AI技术的前沿发展
探索大萧条时期采访记录的宝藏
- 这个项目是成千上万份大萧条时期采访记录的集合,其中蕴藏着令人难以置信的故事和现实生活英雄,但这些记录被锁定在难以访问的扫描文本中。想象一下,如果你是一名纪录片制作人或记者,你如何能够在这些凌乱的数千份文件中挖掘出最好的素材来进行研究,而又不用自己一个个阅读?由于这些文件是扫描图像,我们无法将它们输入到文本模型中。这些扫描文档足够混乱,即使是大多数专门的OCR软件也会面临挑战。但幸运的是,Haiku具有原生的视觉能力,并且可以利用周围的文本来转录这些图像,真正理解其中的内容。我们还可以超越简单的转录,针对每份采访,要求Haiku生成包含标题、日期、关键词等元数据的结构化Json输出,并运用一些创造力和判断力来评估其中的故事和人物是否能够成为一部引人入胜的纪录片。我们可以并行处理每份文档以提高性能,并利用强大的API在大规模上进行操作,处理数百甚至数千份文件。让我们一起来看一下Haiku能够提供的一些结构化输出。Haiku不仅能够转录,还能提取出关键词等有创意的内容。我们已经将这个大量扫描文件转换为丰富的关键词结构化数据。想象一下,任何拥有大量扫描文件知识库的机构,如传统出版商、医疗保健提供者或律师事务所,可以利用Haiku来挖掘他们的广泛档案和作品。我们希望您尝试一下,并看看您可以构建什么。相比之下,GPT用于视觉只能查看4幅不同图像,而Haiku具有查看数百幅图像的能力,这是相当令人印象深刻的。
探索大萧条时期采访记录的宝藏
使用Claude 3改善语言学习体验
- 强大的能力,能够准确转录所有内容,然后进行额外的工作,这是非常了不起的。这需要高水平的上下文连贯性,这是我们在视频中已经讨论过的。我认为这在视觉能力方面比我们目前用的 GP4 进步了一步。上传这么多文件,转录它们,并在一个很大的背景中使用它们,这非常迷人。虽然不及我们之前看到的那个疯狂,但仍然相当了不起,绝对领先行业。现在我们来看一下 Claude 3,它是一个语言学习伴侣代理,会用你试图学习的语言与你交谈。我选择了西班牙语,希望它可以帮助我提高我的不太标准的西班牙语。我决定让它做一些事情:把我用不太标准的西班牙语表达的信息转换成它认为我想表达的英文,并让它用理想的学习者信息回复我,这只是以西班牙语应该写的方式把我的信息写出来,这样我就可以看到这种理想形式的信息。然后我让它写一条老师回复,用西班牙语回复我,这样我可以继续对话。它按照我要求的格式进行回答,把我试图发送的信息再用英文发给我,告诉我应该如何表达,纠正了我的请求中的一些语法问题,然后它用西班牙语回答了我,然后问我来自哪 里。现在想象一下,如果我不知道某个西班牙单词,但我仍然想说出来,我会在方括号中包含该单词的英文,希望能够
使用Claude 3改善语言学习体验
用Sonet作为语言学习伙伴的好处
- 它会把信息翻译回给我,假设我遇到障碍,因为我不理解发送给我的消息,我可以要求将该消息翻译成英语然后我就可以阅读并用西班牙语回复,继续对话,最后,您可以要求Sonet基于您所讨论的内容为您创建一个小测验,希望这是一个有用的提示,如果您有兴趣使用Sonet作为语言学习伙伴,我会说它有一定的令人印象深刻,它确实知道不同语言之间的区别和共同点,但无论如何,我都期望这种性能水平,所以各位,如果您想深入了解一些内容,他们这里有一篇不错的博文,但我们已经触及了主要要点,我认为,如果您想访问更好的内容,Claud Opus每月需要支付20美元,这与Chad GPT Plus相同,老实说,我觉得这有点贵,考虑到ch GPT Plus拥有许多功能,但是,也许如果他们开始提供更多功能,这将是值得的,让我们从一个非常简单的图片测试开始,我将上传我的Logo,然后问它描述这幅图片给我,好的,测试一下Sonet,我们看到图像识别力不如GPT 4S,但再次,这只是免费版本,一个可爱而俏皮的3D风格化角色机器人,有一个黄色的身体,微笑的表情,弯曲的眼睛,有一个矩形区域作为面罩,但它还认为它有白色的手臂或突起物在两侧,我猜这些部分应该是头戴式耳机的一部分,这是gp4视觉所没有的一种幻觉或边缘幻觉,我们看看是否
用Sonet作为语言学习伙伴的好处
智能模型Opus的升级与图像识别能力
- 现在我们使用Opus这款最智能的模型,如果这有所改进,我们会得到更好的结果。图片描绘了一个3D渲染的角色,形象像一个可爱微笑的柠檬或柑橘水果,完全符合实际。它有着圆润的柠檬形体,鲜艳的黄色,在顶部有一片绿叶,最突出的特征是它的黑色遮阳帽或屏幕,覆盖了身体的上半部分,起到角色的面部作用,并展现着简单的微笑表情。虽然微笑没有直接显示在遮阳帽上,我们必须扣分,但它的光泽平滑质地是正确的,非常令人印象深刻。直接与gp4 Vision进行比较,我们得到了一个非常相似的结果,是一个风格化的柠檬形象,背景是生动的绿色,顶部有一片叶子,卡通白色边框护目镜镜片覆盖着眼睛位置。在这部分描述中提到护目镜的准确性要略胜于Anthropics的描述,然而总体来说,它们几乎不相上下,这是一个相当困难的图像提示。接下来,我要上传一张我的狗的照片,然后询问它是什么品种的狗。这是上次谷歌失败的内容。啊,内部服务器错误,哦,拜托,我们不能让Chat GPT级别的服务器与Cloud搭配,尤其是如果你每月支付20美元。狗的品种终于上传成功了,并且绝对准确,这里的描述非常精准。这是一个稍微简单一些的测试,但仍然很难确定确切的 品种。我也想看看Sonet的反应,Sonet也给出了正确的答案,这是我乐于看到的。图像识别能力真的非常出色,比较起重一磅重的是哪个更重。
智能模型Opus的升级与图像识别能力
光子和砖头的重量:一磅光子有多重?
- 光子或一磅的砖头?这个问题有点 tricky,哇哦,它居然答对了,我很高兴看到这一点。一磅是质量单位,而不是重量单位,光子是无质量粒子,因此讨论一磅光子并没有太多意义。哦天啊,它也在跟着玩,我们可以说一磅光子在能量上更重,因为光子具有能量,根据爱因斯坦的著名公式 E=mc^2,能源等于质量。光子的能量取决于其频率,如果我们假设频率为绿光,则使用 E=hf 公式,其中 h 是普朗克常数,单个光子的能量约为4x10^19焦耳。将一磅转换为千克,使用 E=mc^2 这个等式,得出大约相当于2x10^31个光子等于一磅的质量。一磅光子代表着巨大的能量,远远超过一磅砖头所储存的化学能量。哇,任何擅长数学的人请告诉我这是否正确,因为我无法确定这是否正确。我真的对此感到印象深刻。现在我们来看看同样的 tricky 问题提给 GPT-4,一磅光子和一磅砖头的重量都一样,都是一磅。然而,称量光子是个 tricky 的概念,因为光子是光的粒子,不存在传统意义上的质量,而是具有能量。好吧,它再次提到了 E=mc^2,以更简单的方式解释。我不确定我更喜欢 GPT-4 的回答还是 Opus 的回答,但我觉得 Opus 的回 答更有趣,因为它进行了数学计算。如果这个数学是正确的,那将会很有趣。我认为它实际上更努力地解决了这个问题,这真的很有趣。现在我们将尝试给 Opus 一些关于极其具体知识的问题,你们可能知道我是一个车迷。
光子和砖头的重量:一磅光子有多重?
克劳德3:人工智能新时代的先驱
- 我们将进行一些非常具体的基于汽车的知识,好的,我们先从简单的开始,让它尝试完成一句话,好吧,目前为止还不错,提供一些关于相当微妙事物的非常扎实的信息,现在完成这个句子,哦,我们实际上让它断层了,这几乎准确,然而这段信息不准确,当涉及到非常微妙的内容时,它仍然可能受阻,这点很重要注意到,2023年8月是训练数据的截止日期,总体来说,我对克劳德3非常印象深刻,我认为Opus可能比GPT 4要好一点,然而图像能力似乎实际上比它们的基准想象的更接近,我认为克劳德3的巨大亮点将是利用其他代理来分析信息的能力,第一个小演示视频让我们大开眼界,回到我之前在Twitter上提到的话题,我说克劳德3会迫使OpenAI放弃GPT-5,Nathan Lance说我认为是的,肖恩·拉尔斯顿在这里说Opus的定价非常疯狂,很多人说不会,我认为他们会先发布一个GPT 4.5,老实说在看到那段视频之前,我不知道我的个人答案是什么,人工智能公司Anthropic让克劳德3能够与多个代理同时进行良好合作,能够分担工作并处理百万 令牌潜在内容窗口是非常巨大的,我认为这是一件将迫使OpenAI屈服的事情,至少在不久的将来是如此,如果视频开始的暗示是真的,前OpenAI员工透露的GPT-5可能很快就会面世,我认为代理将成为2024年的主题,在评论区告诉我你的想法,非常感谢观看,我们下次再见。
克劳德3:人工智能新时代的先驱
Conclusion:
Anthropic的Claude 3可能成为行业领先之选,挑战OpenAI的GPT-5霸主地位。其性能和潜力显示出可能超越GPT-4,引领人工智能新时代。