Claude 3 da Anthropics vs GPT 4 da OpenAI: Qual é o Melhor Modelo de IA?
By MattVidPro AI · 2024-03-22
Uma comparação detalhada entre o Claude 3 da Anthropics e o GPT 4 da OpenAI revela os destaques de cada modelo de IA. Descubra qual deles se destaca em raciocínio, matemática, codificação e visão.
O Surgimento do Claude 3: Uma Nova Era na Inteligência Artificial
- Gostaria de lembrar a todos que foi quase exatamente há um ano que o GPT-4 foi anunciado pela OpenAI. Este vídeo aqui é o meu anúncio original do GPT-4, lançado em 15 de março de 2023. Hoje é 5 de março de 2024 e é o dia seguinte ao lançamento de um grande concorrente da OpenAI, o Anthropik, que lançou o Claude 3. Este é um modelo de linguagem de inteligência artificial muito semelhante ao GPT-4 da OpenAI, mas ainda melhor. Ontem, em 4 de março, a Anthropik anunciou o Claude 3, a próxima geração de seus modelos de IA. Ele vem em três modelos de última geração: Opus, que é o maior, Sonet, que é o modelo de tamanho médio, e Hau, que é o menor. Estabelece benchmarks líderes da indústria em raciocínio, matemática, codificação, compreensão multilíngue e visão. Agora o Claude também possui visão, assim como o GPT-4. Vamos mergulhar fundo no Claude 3 hoje e explorar os benchmarks. No entanto, quero contextualizar o cenário maior, pois coisas incríveis estão acontecendo no Twitter. Jeremy Howard, co-fundador da Answer, diz que esta semana será grande e recebe uma resposta de Logan, ex-funcionário recente da OpenAI, que simplesmente confirma. Talvez ele saiba algo sobre a OpenAI que nós não sabemos, talvez tenha deixado escapar uma dica sobre o GPT-5, e é isso que todas as respostas estão sugerindo. Todos estão muito entusiasmados com isso, então esta semana pode ser muito maior do que o lançamento do Claude 3. Claro que a OpenAI teve que lançar algo no mesmo dia em que a Anthropik fez, por algum motivo, então eles simplesmente disseram 'bate-papo GPT'.
O Surgimento do Claude 3: Uma Nova Era na Inteligência Artificial
A Ascensão do Modelo de IA 'Claude 3' sobre o GPT 4
- Agora pode ler respostas a uma funcionalidade bastante interessante, suponho. De qualquer forma, voltando ao Claude 3 da IA antropica, que aparentemente poderá ser ofuscado esta semana pelo GPT 5. De qualquer forma, pode-se ver que ele se equipara ao GPT 4 em termos de conhecimento ao nível de licenciatura, vencendo facilmente no raciocínio ao nível de pós-graduação. Também supera facilmente o GPT 4 em matemática do ensino básico, bem como na resolução de problemas matemáticos. Ele arrasa completamente no campo da matemática multilingue, bem como em código, o que é um grande feito. O Claude 3 atinge 67% aqui, sem hipótese para o GPT 4 e 85% para o Opus do Claude 3. A propósito, este é o maior modelo do Claude 3. O raciocínio sobre texto é três pontos melhor aqui no Claude 3, e vemos isso também para avaliações mistas. Por isso, é definitivamente um modelo melhor do que o GPT 4. Penso que isso está bastante claro agora. Tenha também em mente esses outros modelos. Os modelos menores Sonet e hiq são bastante competitivos com o GPT 4, com o hiu a ficar ligeiramente abaixo do nível do GPT 4, mas são muito melhores em praticamente todos estes benchmarks, exceto em código, onde são consideravelmente melhores. O Claude 3 e o Haiku poderiam ser o modelo de programação supremo se quiser gerar grandes quantidades de código, porque, claro, em termos de preços, o Haiku é muito, muito mais barato até mesmo do que o GPT 3.5. O Sonet parece estar em pé de igualdade com o GPT 4 em muitas áreas, com o GPT 4 a ganhar em algumas áreas e o Sonet a ganhar em outras, mas, como disse, o Opus é simplesmente melhor do que o GPT 4 no geral. Também quero tocar rapidamente nas reações da comunidade. Matt Wolf observa que o Claude 3 é realmente muito bom, pois o Opus construiu um minijogo funcional com apenas um prompt, e o Sonet construiu o jogo com dois prompts. O Chachi PT teve dificuldades mesmo depois de vários prompts. Ambas as versões superaram o GPT na sumarização de documentos longos e foram igualmente boas
A Ascensão do Modelo de IA 'Claude 3' sobre o GPT 4
A Ascensão da Haiku: O Concorrente que Ameaça o Domínio da OpenAI
- A chat GPT destaca-se na descrição de imagens, na escrita criativa e na evitação de preconceitos. No entanto, nos testes de Wolf aqui na chat GPT, saiu-se melhor do que as duas versões de Claude num problema lógico complexo. Além disso, ele está prestes a lançar um vídeo hoje, por isso fique atento a isso, o Wolf sempre produz bons vídeos. Sully faz um ótimo ponto no Twitter ao questionar se a Haiku não aniquilou todos os pequenos modelos concorrentes. Segundo ele, a Haiku tem benchmarks quase tão bons quanto o gp4, mas com um preço de 25 cêntimos por milhão de tokens, o que supera completamente as soluções GPT 3.5 e open source. A Haiku é 40 vezes mais barata que o gp4 turbo e quase tão eficiente. Sully observa que o modelo da Haiku é praticamente um 7B siiz no mercado open source e é significativamente melhor. É um grande feito, com o menor modelo a rivalizar com a OpenAI e a superá-la em termos de preço e performance. Matt Schumer também chama a atenção no Twitter para a era dos context windows de mais de um milhão de tokens, mostrando uma precisão de recalls acima de 200.000 tokens de contexto com uma exatidão incrível de 99%. Eles conseguiram isso usando uma avaliação tipo 'agulha no palheiro', inserindo um pouco de texto aleatório no meio de um corpo enorme de texto e conseguiram detetá-lo. A questão que fica é: se este modelo é perfeito com 200.000 tokens, como se sairá com um milhão de tokens? Eles oferecem inicialmente 200.000 tokens, mas afirmam que os três modelos são capazes de aceitar entradas superiores a um milhão de tokens. Uma análise incrível feita por Matt Schumer.
A Ascensão da Haiku: O Concorrente que Ameaça o Domínio da OpenAI
Análise Económica com o Modelo Claude 3 da Anthropics
- Antes de testarmos este modelo, a Anthropics disponibiliza alguns exemplos rápidos e demos que são bastante interessantes. Vamos dar uma vista de olhos para ver este modelo em ação, tal como o Claude ou a Anthropic o retratam. Primeiramente, vamos analisar o Claude 3 como analista económico e ver se o Claude, juntamente com alguns amigos, nos pode ajudar a analisar a economia mundial em questão de minutos. Pedimos ao Claude 3 Opus, que é o maior modelo na nova família Claude 3 da Anthropics, para analisar as tendências do PIB dos EUA e criar uma tabela markdown com os resultados. Fornecemos ao Opus e a todos os outros modelos da família Claude 3 uma extensa formação na utilização de ferramentas, sendo uma das principais ferramentas em uso a ferramenta de visualização web. Esta ferramenta acede a um URL, analisa o conteúdo da página e, devido ao seu caráter multimodal, consegue utilizar a informação na página para resolver problemas complexos. O Claude não tem acesso direto a estes números, está literalmente a observar a mesma página que nós, a olhar para a linha de tendência e a tentar estimar os números exatos. Vamos ver quão precisa foi a sua estimativa. Pedimos ao modelo para criar um gráfico dos dados e utilizou esta segunda ferramenta, o interpretador python, para escrever o código e gerar a imagem para nós verificarmos. Aqui está a imagem, com animações informativas para explicar alguns dos principais picos e vales na última década ou duas da economia dos EUA. Podemos comparar esse gráfico com os dados reais e verifica-se que é bastante preciso, com uma margem de erro de cerca de 5%. E a transcrição do Claude não é apenas baseada no seu conhecimento pré-existente do PIB dos EUA, testámo-lo com a
Análise Económica com o Modelo Claude 3 da Anthropics
A Revolução da Análise Econômica com Inteligência Artificial
- Uma grande amostra de gráficos fictícios do PIB e sua precisão de transcrição estava dentro de uma média de 11%. Em seguida, pedimos ao modelo para realizar algumas análises estatísticas projetando o futuro, realizando simulações para ver para onde o PIB dos EUA poderia se encaminhar. Podemos ver que fez essa análise usando Python e é capaz de realizar simulações de Monte Carlo para ver como poderá ser o intervalo de possibilidades do PIB para a próxima década. Mas questiono se podemos ir além. Vamos fazer com que o modelo analise uma questão mais complexa: como o PIB poderá mudar em todas as maiores economias do mundo. Para ajudá-lo nessa tarefa, vamos dar-lhe mais uma ferramenta chamada 'dispatch sub agents', o que basicamente permite ao modelo dividir o problema em muitos subproblemas e depois escrever instruções para outras versões de si mesmo ajudarem a completar a tarefa. Os modelos podem então concluir uma tarefa mais complexa trabalhando todos juntos. Aqui podemos ver que o modelo escreveu esta instrução e deu instruções muito precisas que deseja que os outros modelos sigam, incluindo um formato para os dados que espera receber. Ele despachou uma versão desta instrução para um modelo que irá analisar os EUA, um para a China, outro para a Alemanha, Japão e assim por diante. Podemos ver nestas barras de progresso que os modelos sub agentes estão agora completando a tarefa definida para cada uma das economias individuais, indo às páginas da web relevantes, obtendo as informações e executando o código para analisá-las, assim como vimos no exemplo anterior dos EUA, mas tudo em paralelo. Vamos avançar para ver o que o modelo produziu. Podemos ver que ele executou a análise e produziu um gráfico de pizza pré e pós sobre como espera que a economia mundial pareça em 2030 versus 2020, e nos deu uma análise por escrito.
A Revolução da Análise Econômica com Inteligência Artificial
A Análise Avançada de Dados e as Capacidades de Visão da IA
- A inteligência artificial faz previsões variáveis relacionadas à análise estatística que realizou, indicando que a participação do PIB de economias específicas irá mudar e quais serão maiores ou menores até 2030. Este modelo realiza uma análise complexa e multissetorial em vários passos, capaz de criar subagentes para realizar ainda mais tarefas em paralelo. Nunca vi nada semelhante ao que está por vir com essa capacidade de chamar funções. A habilidade de despachar múltiplos agentes de IA de uma só vez é algo inédito, e nenhum dos grandes players até agora realizou algo do tipo. Isso é verdadeiramente inovador e sofisticado, sendo capaz de utilizar modelos altamente avançados para desempenhar diversas tarefas de chamada de função simultaneamente, o que é surpreendente. Ao explorar as capacidades de visão, este modelo se destaca como um dos mais rápidos e acessíveis em termos de visão, capaz de ler milhares de documentos digitalizados em questão de minutos. Um feito impressionante que evidencia o potencial revolucionário da inteligência artificial.
A Análise Avançada de Dados e as Capacidades de Visão da IA
Explorando o Potencial do Haiku para Transcrição de Documentos Escaneados
- O projeto é uma coleção de milhares de transcrições escaneadas de entrevistas durante a Grande Depressão. Este é um verdadeiro tesouro de narrativas incríveis e heróis da vida real, mas está trancado em digitalizações difíceis de acessar das transcrições. Imagine-se como um cineasta documentarista ou jornalista. Como pode vasculhar esses milhares de documentos bagunçados para encontrar o melhor material de origem para sua pesquisa sem ter que lê-los todos você mesmo? Uma vez que esses documentos são imagens escaneadas, não podemos inseri-los em um modelo de linguagem e essas digitalizações são tão confusas que seriam um desafio para a maioria dos softwares de OCR dedicados. Felizmente, o Haiku é nativamente capaz de processar visão e pode usar o texto circundante para transcrever essas imagens e realmente entender o que está acontecendo. Além disso, podemos ir além da simples transcrição de cada entrevista e pedir ao Haiku para gerar um output JSON estruturado com metadados como título, data e palavras-chave, mas também usar criatividade e julgamento para avaliar o quão cativante seria um documentário sobre a história e personagens. Podemos processar cada documento em paralelo para obter desempenho e, com a API de alta disponibilidade do Claude, fazer isso em grande escala para centenas ou milhares de documentos. Vejamos um pouco desse output estruturado que o Haiku é capaz de fazer: não apenas transcrever, mas extrair coisas criativas como palavras-chave. Transformamos essa coleção de muitas digitalizações em dados estruturados ricos de palavras-chave. Imagine o que uma organização com uma base de conhecimento de documentos digitalizados, como uma editora tradicional, provedor de saúde ou escritório de advocacia, pode fazer. O Haiku pode alimentar seus extensos arquivos e trabalhos. Adoraríamos que você experimentasse e visse o que pode criar, a capacidade de analisar centenas de imagens diferentes de uma só vez, em comparação com as pobres 4 que pode visualizar de uma só vez com o GPT para visão, é bastante impressionante.
Explorando o Potencial do Haiku para Transcrição de Documentos Escaneados
Claude 3: O Novo Assistente de Aprendizagem de Idiomas
- Incrível e a capacidade de transcrever tudo de forma precisa e depois realizar todo esse trabalho extra é bastante incrível, isso requer um alto nível de coerência de contexto, algo que já discutimos anteriormente no vídeo. Acho que este é mais um passo em frente essencialmente do que obtemos atualmente com o gp4 em termos de capacidades de visão, carregar muitos documentos de uma vez, transcrevê-los e usá-los em um grande contexto, é bastante fascinante. Não é tão louco quanto o último, mas ainda bastante incrível e absolutamente líder de mercado. Agora vamos dar uma olhada no Claude 3 como um agente parceiro de aprendizagem de idiomas que irá conversar com você no idioma que está tentando aprender. Escolhi o espanhol e queria que basicamente melhorasse o meu espanhol imperfeito, então decidi que queria que fizesse algumas coisas. Queria que pegasse a minha mensagem, que estaria num espanhol imperfeito, e escrevesse o que pensa que eu pretendia em inglês. Em seguida, pedi para escrever a mensagem do aluno ideal, que é apenas a minha mensagem da forma como deveria ter sido escrita em espanhol, para que eu possa ver a forma ideal desta. Depois, pedi para escrever uma resposta de professor, que é apenas uma resposta para mim em espanhol, para que eu possa continuar a conversa, e aqui está a seguir o formato que pedi. Está repetindo a mensagem que tentei enviar de volta para mim em inglês, está a dizer-me como eu deveria tê-la dito, corrigiu alguns dos problemas de gramática na minha solicitação e depois respondeu-me em espanhol e perguntou de onde sou. Agora, imagine que não sei uma certa palavra em espanhol, mas ainda quero dizê-la, vou simplesmente incluir essa palavra em inglês entre colchetes e espero.
Claude 3: O Novo Assistente de Aprendizagem de Idiomas
A Magia da Tradução com Sonet: Uma Experiência de Aprendizagem de Línguas
- Ao utilizar o Sonet para traduzir mensagens em diferentes idiomas, podemos mergulhar em um mundo de possibilidades linguísticas. Imagine só: você recebe uma mensagem em um idioma estrangeiro, mas não consegue compreendê-la totalmente. Com o Sonet, basta pedir para traduzi-la para o inglês e, assim, conseguir continuar a conversa em espanhol. Além disso, o Sonet pode até gerar um quiz com base nos temas discutidos, tornando a aprendizagem ainda mais dinâmica. Mesmo sendo a versão gratuita, a capacidade de reconhecimento de imagens do Sonet pode não ser tão precisa quanto a do GPT-4S, mas isso é compensado pela sua versatilidade e facilidade de uso. Com recursos extras disponíveis na versão paga, como o Cloud Opus, a experiência de aprendizagem pode se tornar ainda mais enriquecedora.
A Magia da Tradução com Sonet: Uma Experiência de Aprendizagem de Línguas
A Incrível Capacidade de Reconhecimento de Imagens do Modelo Opus
- A atualização para o Opus, se isso melhorar, agora que estamos no Opus, o modelo mais inteligente, vamos tentar o mesmo prompt exato e obtemos um resultado muito melhor. A imagem retrata um personagem renderizado em 3D que se assemelha a um bonito limão ou fruta cítrica sorridente. É verdadeiramente impressionante! O corpo do limão é arredondado, em um vibrante tom amarelo, e no topo há uma folha verde. A característica mais proeminente é sua viseira ou tela preta que cobre a metade superior do corpo, servindo como o rosto do personagem, com um simples sorriso exibido. A textura lisa e brilhante está correta e impressionante. Comparando diretamente com o Vision gp4, obtemos um resultado muito semelhante: um personagem estilizado de limão em um fundo verde vibrante, com uma folha única no topo e óculos de lentes brancas cartunescos cobrindo onde os olhos estariam. Esta parte da descrição referente aos óculos é um pouco mais precisa do que a descrição da anthropic, no entanto, no geral, eles estão quase em pé de igualdade. Este é um prompt de imagem bastante difícil. Agora, vou carregar uma foto do meu cão e perguntar a que raça ele pertence. Este é um teste que o Google falhou da última vez. Ufa, erro interno do servidor. Não podemos ter servidores de nível GPT com erros internos, especialmente se estamos pagando $20 por mês. Finalmente, a identificação da raça do cão foi feita de forma absolutamente correta e precisa. Uma descrição muito precisa. Foi um teste um pouco mais fácil, mas ainda difícil de identificar uma raça exata. Quero tentar isso com o Sonet também, e o Sonet também acerta, o que eu gosto de ver. As capacidades de reconhecimento de imagens são realmente muito boas, o que é mais pesado, um quilo de
A Incrível Capacidade de Reconhecimento de Imagens do Modelo Opus
A Libra de Fotões: Explorando a Equivalência Entre Massa e Energia
- Os fotões ou uma libra de tijolos enviamos isso para Opus, esta é um pouco uma questão de truque, uau conseguiu acertar! Adoro ver isso. Uma libra é uma unidade de massa, não de peso. Os fotões são partículas sem massa, por isso não faz muito sentido falar de uma libra de fotões. Oh meu Deus, ele está a seguir também! Poderíamos dizer que uma libra de fotões é mais pesada no sentido em que os fotões têm energia e a energia é equivalente à massa, de acordo com a famosa equação de Einstein E=mc². A energia de um fotão depende da sua frequência. Se assumirmos uma frequência de luz verde e usando E=hf, onde H é a constante de Planck, um único fotão tem uma energia de cerca de 4x10^19 joules. Convertendo uma libra para quilogramas e usando E=mc², isto equivale a cerca de 2x10^31 fotões sendo equivalentes a uma libra de massa. Uma libra de fotões representa uma quantidade estupenda de energia, muito mais do que a energia química armazenada numa libra de tijolos. Qualquer pessoa boa em matemática, deixe-me saber se isso está correto, porque eu não teria ideia se está correto. Estou realmente impressionado. Vamos lançar a mesma questão exata para o GPT-4. Uma libra de fotões e uma libra de tijolos pesam o mesmo, uma libra. No entanto, o conceito de pesar fotões é complicado, porque os fotões são partículas de luz e não têm massa no sentido tradicional, têm energia. Está a trazer de novo a equação E=mc², quebrando um pouco mais de forma simples. Não sei se prefiro a resposta do GPT-4 ou do Opus. Acho que esta é mais interessante pelo facto de ter feito a matemática. Se a matemática estiver correta, acho que seria bastante divertido. Acho que realmente tentou abordar a questão de forma mais profunda, o que é muito interessante. Agora vamos testar Opus em conhecimentos realmente específicos, vocês devem saber que sou um apreciador de carros.
A Libra de Fotões: Explorando a Equivalência Entre Massa e Energia
O Poder da Inteligência Artificial: Uma Análise Profunda do Claude 3 e do Futuro da IA
- Vamos abordar aqui um conhecimento muito específico sobre carros, certo? Vamos começar de leve, tentando completar uma frase. Até agora tudo bem, vamos fornecer informações sólidas sobre algo bastante complexo. No entanto, esta informação está incorreta quando se torna mais complexa, ainda pode falhar, o que é importante notar. Agosto de 2023 é a data de corte dos dados de treinamento. No geral, estou muito impressionado com o Claude 3. Acredito que o Opus seja um pouco melhor do que o GPT 4, no entanto, as capacidades de imagem parecem estar mais equilibradas do que as referências indicam. Acredito que a grande coisa para o Claude 3 será a capacidade de analisar informações de forma precisa, utilizando outros agentes. O vídeo demo que vimos foi absolutamente incrível. Em relação ao que mencionei anteriormente no Twitter, disse que o Claude 3 forçará a Open AI a abandonar o GPT-5. Nathan Lance afirma que sim, Sean Ralston menciona que o preço do Opus é bastante alto, muitas pessoas dizem que não. Acredito que eles lançarão primeiro um GPT 4.5. Só soube qual seria a minha resposta pessoal quando vi o vídeo. O fato de o Claude 3 funcionar bem com vários agentes ao mesmo tempo, capaz de dividir o trabalho e ter um potencial contexto de até um milhão de tokens é enorme. Acredito que isso poderá forçar a mão da Open AI, pelo menos num futuro relativamente próximo. E se o que vimos no início do vídeo, com uma pequena dica de um ex-funcionário da Open AI, indicar que o GPT 5 pode estar muito perto. Os agentes serão, creio eu, o tema de 2024. Deixe-me saber o que pensa nos comentários abaixo. Obrigado por assistir, até ao próximo e adeus.
O Poder da Inteligência Artificial: Uma Análise Profunda do Claude 3 e do Futuro da IA
Conclusion:
O Claude 3 da Anthropics demonstrou ter vantagens sobre o GPT 4 da OpenAI em vários aspectos da inteligência artificial. Com benchmarks superiores em raciocínio, matemática, codificação e visão, o Claude 3 se destaca como um concorrente forte.