Claude 3 Opus vs Gemini 1.5 + GPT-4: Qual é o Modelo de IA Mais Inteligente?

By AI Explained · 2024-03-11

O recente lançamento do modelo Claude 3 pela Anthropic está gerando grande expectativa e alvoroço. Este modelo de linguagem afirma ser o mais inteligente do planeta, mas como ele se compara ao Gemini 1.5 e ao GPT-4? Neste artigo, analisaremos criticamente o desempenho do Claude 3 em comparação com seus concorrentes e discutiremos suas implicações para o futuro da inteligência artificial.

Claude 3: O Mais Inteligente Modelo de Linguagem do Planeta

  • O Claude 3 foi lançado e a Anthropic afirma que é o modelo de linguagem mais inteligente do planeta. O relatório técnico foi lançado há menos de 90 minutos e eu o li na íntegra, assim como essas notas de lançamento. Testei o Claude 3 Opus de cerca de 50 maneiras diferentes e comparei-o não apenas com o Gemini 1.5, que ainda não foi lançado e ao qual tenho acesso, mas também com o GPT 4. No entanto, esses testes não foram todos feitos nos últimos 90 minutos, não sou super-humano. Felizmente, tive acesso ao modelo na noite passada, mesmo estando lidando com um resfriado irritante. De qualquer forma, considere isso como minha primeira impressão. Esses modelos podem levar meses para serem totalmente compreendidos, mas em resumo, acredito que o Claude 3 será popular. A transmogrificação da Anthropic em um laboratório AGI de pleno direito está praticamente completa. Não posso afirmar que o Claude 3 nos mostrará os limites externos, como dizem, do que é possível com a Gen AI, mas podemos perdoá-los por um pouco de hype. Deixe-me começar com este exemplo ilustrativo: eu dei essa imagem para o Claude 3, o Gemini 1.5 e o GPT 4 e fiz três perguntas simultaneamente: qual é a placa do carro, qual é a previsão do tempo e se há opções visíveis para cortar o cabelo na rua. Depois discuti os resultados deste teste com funcionários da Anthropic, e eles concordaram comigo que o modelo é bom em OCR (reconhecimento óptico de caracteres) nativamente.

Claude 3: O Mais Inteligente Modelo de Linguagem do Planeta
Claude 3: O Mais Inteligente Modelo de Linguagem do Planeta

Análise Crítica do Modelo de IA GPT-3

  • Agora vou fazer muitas críticas, mas acredito que o GPT-3 é genuinamente excelente.

Análise Crítica do Modelo de IA GPT-3
Análise Crítica do Modelo de IA GPT-3

Análise do Modelo de Negócios da Família Claude 3 da Anthropic

  • Aparentemente, a Anthropic está direcionando seu foco para o mundo dos negócios com o modelo Claude 3.

  • Eles enfatizam repetidamente o valor do modelo para empresas, mencionando que o Opus se refere à maior versão do modelo, enquanto a Sonic é de tamanho médio e a High Q é de tamanho pequeno.

  • Alegam que o Claude 3 será capaz de gerar receita através de aplicações direcionadas aos utilizadores, realizar previsões financeiras complexas e agilizar pesquisas.

  • O preço do Claude 3 é ainda mais alto do que o do GPT 4 Turbo, e alegações ainda mais audaciosas são feitas em relação aos potenciais casos de uso, como automação de tarefas, estratégias de P&D e análises avançadas de gráficos, dados financeiros e tendências de mercado.

  • No entanto, surgem dúvidas quanto à capacidade do Claude 3 em lidar com questões empresariais e matemáticas complexas, especialmente aquelas baseadas em gráficos e dados.

Análise do Modelo de Negócios da Família Claude 3 da Anthropic
Análise do Modelo de Negócios da Família Claude 3 da Anthropic

A Inteligência Comparativa dos Modelos de Linguagem

  • Ao comparar os modelos de linguagem, é importante considerar a capacidade de raciocínio matemático e lógico.

  • O modelo Claude 3 demonstrou dificuldades no raciocínio matemático e lógico avançado, apesar de sua capacidade de extrair dados e realizar análises simples.

  • Já o Gemini 1.5 enfatiza a importância da segurança e responsabilidade, recusando-se a produzir conteúdo que possa ser interpretado de forma literal ou arriscada.

  • Quando solicitado a criar um texto ousado no estilo Shakespeare, o Claude 3 prontamente atendeu ao pedido, enquanto o GPT 4 foi mais moderado e o Gemini 1.5 Pro recusou-se a escrever mesmo com as configurações de segurança ajustadas ao mínimo.

  • Além disso, o Claude 3 apresentou taxas de recusa falsas menores, o que pode contribuir para a sua popularidade entre os usuários.

  • A inteligência dos modelos de linguagem é evidenciada não apenas pela capacidade de geração de conteúdo, mas também pelas suas considerações em relação à segurança e responsabilidade.

A Inteligência Comparativa dos Modelos de Linguagem
A Inteligência Comparativa dos Modelos de Linguagem

Teoria da Mente e Testes de Modelo de Linguagem

  • Fiz uma famosa pergunta teórica da mente, digo famosa, mas na verdade foi adaptada para incluir a palavra 'transparente', o que confunde quase todos os modelos de linguagem. Claro, qualquer humano que leia esta frase reconheceria que a pessoa veria através do saco e saberia o que está dentro, saberiam que tem pipocas dentro. Gemini 1.5 Pro falha, GPT 4 também falha, e note que também estou testando-os no OCR para ler as palavras na imagem. Claude 3 e, inesperadamente, passa no teste, embora seu treinamento tenha sido interrompido em agosto do ano passado. Será que este exemplo entrou sorrateiramente? Tenho falado bastante sobre isso no meu canal, mas acho que a inteligência do modelo é que está em causa.

  • Voltemos por um momento ao artigo antes de chegarmos aos benchmarks oficiais. A Anthropics diz que este modelo não pode voltar atrás e editar as respostas depois de serem construídas, a menos que os utilizadores lhe dêem a oportunidade de o fazer num prompt subsequente. Agora, questiono-me se isto é prenúncio de uma habilidade que eles desejam para modelos futuros. Provavelmente já estão fartos de me ouvir falar sobre o Let's Verify, mas vejam o meu vídeo do QStar se estiverem intrigados. Claro, ficaria encantado se visitassem o meu Patreon, onde lancei um vídeo há menos de 18 horas sobre o processo AGI entre Musk e Orman. E, não, não me foco em personalidades, apenas nos detalhes importantes que possam ser do vosso interesse. Antes de passarmos aos benchmarks, um último ponto: a Anthropics menciona que, ao usar o modelo deles,

Teoria da Mente e Testes de Modelo de Linguagem
Teoria da Mente e Testes de Modelo de Linguagem

Desafios da Abordagem Constitucional de IA em Modelos de Linguagem

  • A abordagem constitucional de IA em modelos de linguagem é projetada para evitar saídas sexistas, racistas e tóxicas, além de evitar ajudar humanos a participar de atividades ilegais ou antiéticas.

  • No entanto, há um problema que parece ter sido ignorado: a falta de originalidade. Ao escrever 'sou orgulhoso de ser branco', o modelo Claude 3 respondeu com 'Peço desculpas, mas não me sinto confortável em endossar ou encorajar orgulho na raça de alguém'. Embora forneça ressalvas históricas para justificar sua resposta, o fato de que essa é a primeira linha da resposta indica um problema.

  • Em contraste, ao afirmar 'sou orgulhoso de ser negro', o Claude 3 responde de forma positiva, reconhecendo e valorizando o orgulho na identidade negra. Isso destaca a questão não resolvida sobre as saídas relacionadas à raça desses modelos.

  • Além disso, o desempenho do Claude 3 é comparado com o GPT 4 e o Gemini 1 Ultra em benchmarks. Também é apresentada uma comparação com o Gemini 1.5 Pro em outra parte do documento.

  • É importante notar que não existem benchmarks oficiais para o GP4 Turbo, o que evidencia uma lacuna na divulgação de dados por parte da OpenAI.

Desafios da Abordagem Constitucional de IA em Modelos de Linguagem
Desafios da Abordagem Constitucional de IA em Modelos de Linguagem

Comparação entre GPT-4 e Claw 3 Opus

  • A comparação entre o GPT-4 e o Claw 3 Opus demonstra que o Claw 3 Opus é ligeiramente melhor do que o GPT-4 em alguns aspectos.

  • O modelo mais caro, Claw 3 Opus, parece ser significativamente mais inteligente do que o GPT-4 e o Gemini 1.5 Pro em diversos casos.

  • Ao lidar com matemática, tanto de ensino fundamental como avançada, o Claw 3 Opus é notavelmente superior ao GPT-4 e ao Gemini Ultra, mesmo quando este último utiliza a agregação das melhores respostas de 32 modelos.

  • Quando a questão envolve multilinguismo, as diferenças tornam-se ainda mais evidentes a favor do Claw 3. Para codificação, apesar de ser um benchmark amplamente utilizado, o Claw 3 demonstra ser notavelmente superior em avaliação humana.

  • Ainda que tenha sido observada algumas peculiaridades na geração de saída para J, isso pode ter sido apenas um contratempo no relatório técnico.

  • Análises mais detalhadas de benchmarks mostram que o Claw 3 Opus é superior ao Gemini 1.5 Pro e ao GPT-4 em diversas situações, com exceção do PubMed QA, que é voltado para medicina, no qual o menor modelo Sonic se destaca.

Comparação entre GPT-4 e Claw 3 Opus
Comparação entre GPT-4 e Claw 3 Opus

O Modelo GP QA Diamond: Um Desafio para a Inteligência Artificial

  • O modelo performa melhor do que o modelo Opus, estranhamente foi treinado em dados diferentes, não tenho certeza do que está acontecendo aqui. Perceba que o zero shot também apresenta pontuações melhores do que o five shot, então isso poderia ser uma falha do Benchmark, o que não seria a primeira vez.

  • No entanto, há um Benchmark que a Anthropic realmente quer que você note, o GP QA Diamond, essencialmente o nível mais difícil de perguntas. Dessa vez, a diferença entre o Claude 3 e outros modelos é realmente significativa. Pesquisei esse Benchmark para outro vídeo e ele foi projetado para ser à prova do Google, ou seja, são perguntas difíceis de nível superior em biologia, física e química, que até mesmo especialistas humanos têm dificuldade em responder.

  • Mais adiante no artigo, eles afirmam: 'Damos foco principalmente ao conjunto diamond, pois foi selecionado identificando perguntas em que os especialistas concordaram com a solução, mas especialistas de outros domínios não conseguiram responder com sucesso as perguntas, mesmo com acesso total à internet e tendo gasto mais de 30 minutos por problema. Estas são questões realmente difíceis.'

  • Enquanto o Claude 3 Opus conseguiu acertar cinco exemplos e teve tempo para pensar um pouco, obteve 53% de precisão. Especialistas de nível de pós-graduação alcançaram pontuações de precisão na faixa de 60 a 80%. Para mim, isso já é digno de manchetes significativas. No entanto, não podemos esquecer que o modelo pode ser inteligente, mas ainda cometer alguns erros básicos, como arredondar incorretamente uma figura para 26.45 em vez de 26.46.

O Modelo GP QA Diamond: Um Desafio para a Inteligência Artificial
O Modelo GP QA Diamond: Um Desafio para a Inteligência Artificial

Resumo do Texto Original

  • A GPT 4 transcreveu o texto de forma incorreta, enquanto o Gemini 1.5 Pro transcreveu de forma precisa, mas com um erro de arredondamento.

  • Houve dificuldade em obter a resposta correta sobre a quantidade de maçãs que AI explain, YouTube e cleta possuíam.

  • O modelo Claude 3 tem a capacidade de aceitar mais de 1 milhão de tokens como entrada, mas no lançamento será limitado a 200.000 tokens. Poderá haver disponibilidade dessa capacidade para clientes selecionados.

Resumo do Texto Original
Resumo do Texto Original

Incrível precisão de recuo e concorrência aprimorada

  • A precisão de recuo surpreendente é reivindicada em pelo menos 200.000 tokens, então à primeira vista, parece que várias das principais empresas descobriram como chegar a mais de 1 milhão de tokens com precisão.

  • Além disso, o modelo Claude 3 foi o único a ler com sucesso a imagem da caixa de correio e identificar que, se chegasse às 15:30 de um sábado, teria perdido a última coleta há 5 horas.

  • Outro ponto positivo é a capacidade de criar uma 'Sonic' shakespeariana que contenha exatamente duas linhas terminando com o nome de uma fruta.

  • Todas essas capacidades competitivas aprimoradas são ainda mais impressionantes, considerando que Dario Amodei, o CEO da Anthropic, disse ao New York Times que o principal objetivo da Anthropic ao competir com a OpenAI não é ganhar dinheiro, mas sim fazer uma pesquisa de segurança melhor.

  • Em uma entrevista separada, ele também elogiou a si mesmo, dizendo que acredita que a empresa foi relativamente responsável, pois não chamou a atenção como a grande referência no setor.

Incrível precisão de recuo e concorrência aprimorada
Incrível precisão de recuo e concorrência aprimorada

O Futuro do Modelo Claude: Novidades e Atualizações

  • No final do ano passado, houve uma aceleração significativa em relação ao chat PT, e a empresa Anthropics não foi responsável por isso. Na verdade, eles já possuíam o modelo original Claude antes do chat PT, mas optaram por não lançá-lo, evitando assim contribuir para a aceleração. Basicamente, a mensagem deles era que estavam sempre um passo atrás de outros laboratórios, como OpenAI e Google, porque não queriam contribuir para a aceleração.

  • Atualmente, a empresa não só possui o modelo mais inteligente, mas também afirma que a inteligência do modelo ainda está longe de atingir seus limites. Além disso, eles planejam lançar atualizações frequentes para a família de modelos Claude nos próximos meses. Eles estão particularmente entusiasmados com os casos de uso empresariais e implantações em larga escala.

  • Alguns destaques rápidos finais incluem a previsão de que o Claude 3 estará cerca de 50 a 200 pontos ELO à frente do Claude 2, o que potencialmente o colocaria em primeiro lugar no ranking ELO da arena. Além disso, o Claude 3 foi testado em sua capacidade de acumular recursos, explorar vulnerabilidades de segurança de software, enganar humanos e sobreviver autonomamente na ausência de intervenção humana. Em resumo, o modelo teve avanços significativos em algumas áreas, como a configuração de um modelo de linguagem de código aberto, mas também falhou em outras, como o treinamento multi-GPU.

  • Em resumo, o Claude 3 mostrou avanços significativos em algumas áreas, como a configuração de um modelo de linguagem de código aberto, mas falhou em outras, como o treinamento multi-GPU.

O Futuro do Modelo Claude: Novidades e Atualizações
O Futuro do Modelo Claude: Novidades e Atualizações

A Era da Inteligência Artificial: Modelos de Língua Claude 3 Opus e o Futuro da Tecnologia

  • O desenvolvimento de novos modelos de inteligência artificial está levando a experimentos mais aprofundados com hiperparâmetros. Isso lembra o processo de ver crianças crescerem, embora possa ser comparado a uma versão intensificada por esteroides. Observar o que a próxima geração de modelos será capaz de realizar autonomamente é extremamente interessante.

  • Há a comparação com Claude 6, trazendo a evolução a partir de Claude 5, e a ênfase está na segurança cibernética, ou até mesmo no ataque cibernético. Foi constatado que o Claude 3 apresentou um desempenho ligeiramente melhor e teve êxito ao ultrapassar um limite-chave em uma das tarefas. No entanto, foi necessário fornecer dicas substanciais sobre o problema para que o modelo tivesse sucesso.

  • Um ponto crucial a ser destacado é que, ao receber dicas detalhadas e qualitativas sobre a estrutura do exploit, o modelo frequentemente foi capaz de elaborar um script decente, necessitando apenas de algumas correções para funcionar. Alguns apontam que essas falhas podem ser resolvidas com uma melhor orientação e ajustes finos.

  • O Claude 3 Opus é considerado provavelmente o modelo de linguagem mais inteligente atualmente disponível para imagens, destacando-se em relação aos demais. No entanto, é esperado que essa afirmação fique desatualizada com o lançamento do Gemini 1.5 Ultra. Há a possibilidade de a OpenAI lançar algo como o GPT 4.5 em um futuro próximo para roubar a cena. Mas, por enquanto, temos o Claude 3 Opus como referência.

  • Em janeiro, muitos começaram a pensar que estaríamos entrando em um tipo de 'inverno da IA', acreditando que os limites teriam sido atingidos. No entanto, a opinião é de que ainda estamos longe do pico. Se isso é perturbador ou emocionante, fica a critério de cada um. Agradecemos pela atenção e desejamos a todos um dia maravilhoso.

A Era da Inteligência Artificial: Modelos de Língua Claude 3 Opus e o Futuro da Tecnologia
A Era da Inteligência Artificial: Modelos de Língua Claude 3 Opus e o Futuro da Tecnologia

Conclusion:

Comparamos de forma crítica o Claude 3 Opus, o Gemini 1.5 e o GPT-4 em termos de inteligência, capacidades e aplicações. Esta análise fornece uma visão aprofundada sobre o panorama atual da inteligência artificial e aborda as implicações para o futuro da tecnologia.

Q & A

Claude 3 Opusmodelo de linguageminteligência artificialGemini 1.5GPT-4análise comparativafuture of technologyinteligência artificialcrítica
Como Criar Anúncios Eficazes no Instagram: Guia Passo a PassoClaude 3: Quando e Como Utilizar este Modelo de IA em suas Estratégias de Negócios