Anthropic发布Claude 3,挑战OpenAI GPT-5霸主地位
By MattVidPro AI · 2024-03-22
Anthropic昨日发布Claude 3,一款优于OpenAI GPT-4的人工智能大型语言模型,可能会在本周被GPT-5所超越。本文深入探讨Claude 3的性能及行业地位。
AI时代新篇章:Anthropic推出Claude 3与OpenAI的挑战
- 大家好,我想提醒大家,几乎一年前,OpenAI宣布了GPT-4。这是我的原始GPT-4公告视频,发布于2023年3月15日。现在是2024年3月5日,就在昨天,OpenAI的竞争对手Anthropic发布了Claude 3,这是一个与OpenAI的GPT-4非常相似但更好的人工智能大型语言模型。需要注意的是,这是我昨天真的很想谈论的事情,但由于身体有些不适,我无法发表言论。今天你们也可以看到,我仍然状态不佳,但我会尽力而为。昨天3月4日,Anthropic宣布了Claude 3,他们AI模型的下一代产品,包括三种尖端型号:Opus是最大的,Sonet是中等型号,Hau是小巧的型号,在推理、数学编码、多语言理解和视觉能力方面均达到行业领先水准。现在,Claude也具备了类似GPT-4的视觉能力,所以今天我们将深入探讨Claude 3并了解其性能指标,但我想先为背景画面做一点铺垫,因为Twitter上正发生一些疯狂的事情。Jeremy Howard,Answer共同创始人,表示这将是一个重要的一周,Logan.GPT回复称已确认,他可能知道一些我们不知道的关于OpenAI的事情,或许透露了关于GPT-5的线索,显然所有回复都在说这可能是比Claude 3更大的一周。当然,OpenAI不得不在Anthropic发布产品的同一天发布新内容,所以他们只发了个
![AI时代新篇章:Anthropic推出Claude 3与OpenAI的挑战](https://cdn.heichat.net/files/web/heichat/blog_data/hqfjvkYt2YA/segments/12/1/segment_1.webp)
AI时代新篇章:Anthropic推出Claude 3与OpenAI的挑战
新一代AI模型Claude 3的强大功能
- 现在可以阅读对您的回应,这应该算是一个相当不错的功能。回到Claude 3,Anthropic AI的这个模型似乎本周可能会被GPT 5所超越。无论如何,您可以看到它在本科水平知识上与gp4相匹敌,在研究生水平推理方面轻松击败了gp4。它在小学数学以及数学问题解决方面也轻松击败了GPT 4。在多语言数学和编码方面,它的表现也相当出色。这对于代码来说是一个相当重要的问题,在这里,gp4的得分为67,而Claude 3的Opus则为85%。顺便说一句,Claude 3的模型在文本推理方面比gp4好了三分,我们也在混合评估中看到了这一点,因此是一个比gp4更好的模型。除此之外还有其他几个模型,Sonet和Hiq这两个较小的模型在许多方面都能和gp4竞争激烈,Hiu的水平接近gp4,几乎在所有基准测试中都比gp4好很多,所以Claude 3和Haiku可能是终极编码模型,如果您想生成大量代码,当然,当涉及定价时,Haiku甚至比GPT 3.5要便宜得多,而Sonet似乎在许多不同领域与GPT 4旗鼓相当,在一些领域中胜过gp4,但总体来说,Opus就像我说过的,比gp4更好。我还想迅速提一下一些社区反馈,Matt Wolf指出,Claude 3对Wolf Opus非常非常好,在仅使用一个提示构建了一个工作的游戏,而Sonet则在两个提示下构建了游戏。Chachi PT在几个提示后仍然有困难,但两个版本在总结长篇文件方面比Chat GPT更好,而且同样出色。
![新一代AI模型Claude 3的强大功能](https://cdn.heichat.net/files/web/heichat/blog_data/hqfjvkYt2YA/segments/12/2/segment_2.webp)
新一代AI模型Claude 3的强大功能
深度学习模型竞争激烈:Anthropic或将挑战OpenAI霸主地位
- 最近在测试中,chat GPT 在描述图像创意写作和避免偏见方面表现出色,但在沃尔夫的测试中,chat GPT 在解决复杂逻辑问题时的表现要优于Claude的两个版本,并且今天他还将发布一段视频,敬请期待,沃尔夫总是制作出优质的视频。索利在Twitter上提出了一个很有见地的观点,他说Anthropic是否将淘汰所有现有的小模型?如果我理解正确的话,Haiku基准测试的性能几乎和gp4相当,但定价为每百万令牌25美分,绝对超过了GPT 3.5和开源解决方案。Haiku比gp4 Turbo便宜40倍,几乎和它一样好。索利指出,这相当于一个7B大小的开源市场上的模型,而且要好得多,所以这对于最小的模型来说是一个相当重要的事件,这可能是Anthropic在某些方面从OpenAI手中夺取王座的时刻,因为在性能方面完全超越了它的定价。马特·舒默在Twitter上也指出,克劳德和Gemini 1.5 5 Pro时代的百万令牌上下文窗口正式到来,展示了超过200,000令牌上下文窗口的召回准确性,以及它实际上的完美性达到了99%的准确性,他们通过使用一种称为“草堆中的针”的评估方法来做到这一点,即在大量的文本中插入一个不该在那里的随机小段文字,然后能够发现它并识别出来。问题是,如果这种模型在20万令牌上是完美的,那么在百万令牌上会表现如何呢?你会注意到,他们最初提供了20万令牌,但他们表示所有三个模型都能够接受超过100万令牌的输 入,马特·舒默提出了一个非常棒的观点。
![深度学习模型竞争激烈:Anthropic或将挑战OpenAI霸主地位](https://cdn.heichat.net/files/web/heichat/blog_data/hqfjvkYt2YA/segments/12/3/segment_3.webp)
深度学习模型竞争激烈:Anthropic或将挑战OpenAI霸主地位
克劳德3:经济分析家的未来
- 在我们真正开始测试这个模型之前,有一些快速示例非常酷,他们实际上有一些演示视频,我想看一下,这样我们就可以看到克劳德如何展示它,或者说人类如何展示它。首先,我们将看看克劳德3作为经济分析师的表现,看看克劳德和几个朋友能否帮助我们在几分钟内分析世界经济。我让克劳德3 Opus,这是人类新克劳德3家族中最大的模型,看一下美国的GDP趋势,并撰写一个Markdown表格来呈现它所看到的情况。我们给Opus和克劳德3家族中的所有其他模型进行了广泛的工具使用培训,而它正在使用的一个主要工具就是这个Web视图工具,它访问一个URL,查看页面上的内容,并因为它是多模态的,可以使用该页面上的信息来解决复杂问题。这是Markdown表格,需要注意的是,克劳德并没有直接获取这些数字,它实际上是在看和我们一样的浏览器,查看趋势线并尝试估算确切的数字。让我们看看它的准确性如何。我们要求该模型创建数据的图表,并使用这第二个工具,即Python解释器,来编写代码然后呈现图片供我们检查。这就是图片,看,它实际上添加了一些有用的小工具提示动画,以解释美国经济的过去几十年中一些主要的高峰和低谷,我们可以将该图表与实际数据进行对 比,结果相当接近,实际上准确率在5%内。顺便说一句,克劳德这里的转录并不仅仅来自于它对美国GDP的现有知识,我们尝试了一
![克劳德3:经济分析家的未来](https://cdn.heichat.net/files/web/heichat/blog_data/hqfjvkYt2YA/segments/12/4/segment_4.webp)
克劳德3:经济分析家的未来
模型对世界经济的预测与分析
- 我们对一大批虚构的GDP图表进行了大样本测试,准确率平均达到11%。接着,我们要求模型进行一些统计分析,预测未来并进行模拟,以了解美国的GDP可能会走向何方。我们可以看到,通过Python进行了这些分析,并能够进行蒙特卡洛模拟,了解未来十年左右美国GDP可能出现的范围。但我想知道我们是否可以更深入。我们将让模型分析一个更复杂的问题,即全球主要经济体的GDP可能会如何变化,为了帮助模型做到这一点,我们将再增加一项工具,称为调度子代理。这基本上允许模型将问题分解成许多子问题,然后为其它版本的自身编写提示,以帮助分担工作量。模型们可以通过共同努力完成更复杂的任务。在这里,你可以看到它已经撰写了这个提示,并给出了非常精确的指令,要求其他模型遵循,包括数据格式以及希望返回的数据。它已向一个模型下达了这个提示,该模型将研究美国、中国、德国、日本等经济体。从进度条中我们可以看到,子代理模型现在正在完成每个个体经济体的任务,它们会访问相关网页,获取信息,运行代码进行分析,就像我们在之前的美国示例中看到的那样,但全部并行进行。让我们快进一下,看看模型 产生了什么样的分析结果。你可以看到,模型进行了分析,生成了2020年与2030年世界经济预期的饼图,并且提供了书面分析。
![模型对世界经济的预测与分析](https://cdn.heichat.net/files/web/heichat/blog_data/hqfjvkYt2YA/segments/12/5/segment_5.webp)
模型对世界经济的预测与分析
未来AI技术的前沿发展
- 未来AI技术的发展不断突破新的局限,通过复杂的多步骤多模态分析,模型可以创建子代理以并行运行更多任务。根据对统计分析的预测,AI技术预测2030年特定经济体的GDP份额将发生变化,哪些经济体将变得更大或更小。从我在网上看到和听到的有关Claude 3的一切,我从未见过任何人提到即将推出的功能调用工具。虽然功能调用这种技术我们已经见过,但同时派遣多个AI代理的能力是迄今为止从未见过的。这是所有大公司如Meta AI、谷歌、Open AI和Anthropic都还没有涉足的领域。Open AI应该对这种可能性感到担忧,同时派遣多个代理,这些代理可以运行不同的功能调用,同时将所有任务打包在一起,这是我见过的最先进的工具使用和问题解决技术,绝对令人震惊。现在我们来看一下视觉能力,展示一种世界上最快速最实惠的视觉能力模型之一,通过阅读数千份扫描文档,可以在几分钟内完成。这是对图书馆学会和联邦撰稿人的一次震撼性的演示。
![未来AI技术的前沿发展](https://cdn.heichat.net/files/web/heichat/blog_data/hqfjvkYt2YA/segments/12/6/segment_6.webp)
未来AI技术的前沿发展
探索大萧条时期采访记录的宝藏
- 这个项目是成千上万份大萧条时期采访记录的集合,其中蕴藏着令人难以置信的故事和现实生活英雄,但这些记录被锁定在难以访问的扫描文本中。想象一下,如果你是一名纪录片制作人或记者,你如何能够在这些凌乱的数千份文件中挖掘出最好的素材来进行研究,而又不用自己一个个阅读?由于这些文件是扫描图像,我们无法将它们输入到文本模型中。这些扫描文档足够混乱,即使是大多数专门的OCR软件也会面临挑战。但幸运的是,Haiku具有原生的视觉能力,并且可以利用周围的文本来转录这些图像,真正理解其中的内容。我们还可以超越简单的转录,针对每份采访,要求Haiku生成包含标题、日期、关键词等元数据的结构化Json输出,并运用一些创造力和判断力来评估其中的故事和人物是否能够成为一部引人入胜的纪录片。我们可以并行处理每份文档以提高性能,并利用强大的API在大规模上进行操作,处理数百甚至数千份文件。让我们一起来看一下Haiku能够提供的一些结构化输出。Haiku不仅能够转录,还能提取出关键词等有创意的内容。我们已经将这个大量扫描文件转换为丰富的关键词结构化数据。想象一下,任何拥有大量扫描文件知识库的机构,如传统出版商、医疗保健提供者或律师事务所,可以利用Haiku来挖掘他们的广泛档案和作品。我们希望您尝试一下,并看看您可以构建什么。相比之下,GPT用于视觉只能查看4幅不同图像,而Haiku具有查看数百幅图像的能力,这是相当令人印象深刻的。
![探索大萧条时期采访记录的宝藏](https://cdn.heichat.net/files/web/heichat/blog_data/hqfjvkYt2YA/segments/12/7/segment_7.webp)
探索大萧条时期采访记录的宝藏
使用Claude 3改善语言学习体验
- 强大的能力,能够准确转录所有内容,然后进行额外的工作,这是非常了不起的。这需要高水平的上下文连贯性,这是我们在视频中已经讨论过的。我认为这在视觉能力方面比我们目前用的 GP4 进步了一步。上传这么多文件,转录它们,并在一个很大的背景中使用它们,这非常迷人。虽然不及我们之前看到的那个疯狂,但仍然相当了不起,绝对领先行业。现在我们来看一下 Claude 3,它是一个语言学习伴侣代理,会用你试图学习的语言与你交谈。我选择了西班牙语,希望它可以帮助我提高我的不太标准的西班牙语。我决定让它做一些事情:把我用不太标准的西班牙语表达的信息转换成它认为我想表达的英文,并让它用理想的学习者信息回复我,这只是以西班牙语应该写的方式把我的信息写出来,这样我就可以看到这种理想形式的信息。然后我让它写一条老师回复,用西班牙语回复我,这样我可以继续对话。它按照我要求的格式进行回答,把我试图发送的信息再用英文发给我,告诉我应该如何表达,纠正了我的请求中的一些语法问题,然后它用西班牙语回答了我,然后问我来自哪里。现在想象一下,如果我不知道某个西班牙单词,但我仍然想说出来,我会在方括号中包含该单词的英文,希望能够
![使用Claude 3改善语](https://cdn.heichat.net/files/web/heichat/blog_data/hqfjvkYt2YA/segments/12/8/segment_8.webp)