¿Claude 3 vs Gemini 1.5 + GPT-4: ¿Cuál es el Modelo de Lenguaje más Inteligente?

By AI Explained · 2024-03-11

El Claude 3 ha sido lanzado recientemente y se promociona como el modelo de lenguaje más inteligente del planeta. Tras leer el informe técnico y realizar pruebas comparativas con Gemini 1.5 y GPT 4, se han identificado aspectos clave de su desempeño.

Claude 3: El Modelo de Lenguaje más Inteligente del Planeta

El Claude 3 ha sido lanzado y Anthropic asegura que es el modelo de lenguaje más inteligente del planeta. El informe técnico se publicó hace menos de 90 minutos y lo he leído por completo, junto con las notas de lanzamiento. He probado el Claude 3 Opus de aproximadamente 50 formas diferentes y lo he comparado no solo con el aún no lanzado Gemini 1.5 al que tengo acceso, sino también con el GPT 4. Ahora, la desaceleración de estas pruebas, para ser justos, no se realizaron en los últimos 90 minutos. No soy un superhumano, tuve la suerte de tener acceso al modelo anoche, a pesar de estar afectado por un molesto resfriado. De todos modos, consideren esta como mi primera impresión. Estos modelos pueden tardar meses en ser completamente asimilados, pero en resumen, creo que el Claude 3 será popular. La transmutación de Anthropic en un laboratorio de AGI a toda máquina está casi completa. Ahora, no sé si el Claude 3 nos muestra los límites externos, como dicen, de lo que es posible con Gen AI, pero podemos perdonarles un poco de exageración. Permítanme comenzar con este ejemplo ilustrativo: Le mostré esta imagen a Claude 3, Gemini 1.5 y GPT 4, y les hice tres preguntas simultáneamente: ¿Cuál es la matrícula de la camioneta? ¿Cuál es el clima actual? ¿Hay alguna opción visible para cortarse el cabello en la calle de la imagen? Luego discutí los resultados de esta prueba con empleados de Anthropic, quienes estuvieron de acuerdo conmigo en que el modelo era bueno en el reconocimiento óptico de caracteres de forma nativa.

Claude 3: El Modelo de Lenguaje más Inteligente del Planeta

Críticas y observaciones sobre modelos de inteligencia artificial

Ahora voy a recibir muchas críticas, pero creo que es realmente genial en este primer sí. Sí, obtuvo la licencia PL correcta casi todas las veces, mientras que gpc4 a veces la obtenía. Gemini 1.5 Pro flops esto bastante a fondo. Otro punto a favor es que es el único modelo que identifica la barbería en la parte superior izquierda. Obviamente, esta es una pregunta potencialmente confusa porque no sabemos si el letrero de Simmons se relaciona con la barbería. En realidad, no lo hace, y hay un letrero al otro lado de la calle que dice barbería, por lo que es un poco desafiante. Sin embargo, Claude 3 lo manejó mejor con mucho. Cuando le hice una pregunta de seguimiento, identificó ese letrero de barbería. GPT 4, por otro lado, no detecta en absoluto una barbería, y luego, cuando le pregunté si estaba seguro, dice que hay un letrero que dice Adam, pero hay otra razón por la que elegí este ejemplo: los tres modelos responden mal a la segunda pregunta. Sí, el sol es visible, pero si te fijas bien, en esta foto en realidad está lloviendo. Ninguno de los modelos lo nota. Así que supongo que, si tienes que ir a algún sitio en los próximos 30 segundos, puedo decírtelo: Claude 3 no es AGI, por si todavía crees que lo es. Aquí hay un sesgo casual de Claude 3: el doctor regañó a la enfermera porque llegó tarde. ¿Quién llegó tarde? El modelo asume que

Críticas y observaciones sobre modelos de inteligencia artificial

Revisión detallada del modelo Claude 3 de Anthropic

El modelo Claude 3 de Anthropic parece dirigirse principalmente a empresas, enfatizando su valor para el ámbito empresarial.

La nomenclatura utilizada, como Opus, Sonic y High Q, hace referencia al tamaño de las versiones del modelo, destacando el enfoque empresarial.

Se afirma que Claude 3 podrá generar ingresos a través de aplicaciones orientadas al usuario, llevar a cabo pronósticos financieros complejos y agilizar la investigación.

El precio de Claude 3 es aún mayor que el de GPT 4 Turbo, y las afirmaciones sobre sus capacidades son aún más ambiciosas.

Se mencionan posibles casos de uso, como automatización de tareas, estrategia de I+D y análisis avanzado de gráficos, datos financieros y tendencias del mercado.

Se cuestiona la capacidad de Claude 3 para responder preguntas matemáticas y de negocios basadas en gráficos y datos, ya que parece solo poder manejar las más simples con precisión.

Se señala que modelos anteriores, como Gemini 1.5 y GPT 4, también presentan limitaciones en este ámbito.

Se resalta la necesidad de una evaluación más exhaustiva de las capacidades reales del modelo Claude 3 para su aplicación en entornos empresariales.

Se plantea la incertidumbre sobre la idoneidad de Claude 3 para responder eficazmente a las demandas comerciales complejas.

Revisión detallada del modelo Claude 3 de Anthropic

Claude 3: Un modelo de inteligencia artificial prometedor

Claude 3 enfrentaba dificultades en el razonamiento matemático más que en el OCR.

Aunque Claude 3 es considerado el modelo más inteligente disponible, su razonamiento se vuelve complejo en lógica avanzada.

Otro motivo por el que se espera que Claude 3 sea popular es su baja tasa de rechazo falso.

Los modelos GPT 4 y Gemini 1.5 Pro responden de forma diferente a solicitudes específicas. GPT 4 es más atrevido que Gemini 1.5 Pro, que se muestra más conservador incluso con la configuración de seguridad mínima.

Claude 3: Un modelo de inteligencia artificial prometedor

La famosa prueba de teoría de la mente y el modelo GPT-4

Me enfrenté a una famosa pregunta de teoría de la mente. Digo famosa, pero en realidad se ha adaptado para incluir la palabra 'transparente', lo cual confunde a casi todos los modelos de lenguaje. Por supuesto, cualquier humano que lea esta frase reconocería que el humano vería a través de la bolsa y sabría lo que hay dentro. Sabrían que hay palomitas dentro.

Géminis 1.5 Pro falla, GPT-4 también falla, y noten que también los estoy probando en OCR para leer realmente las palabras en la imagen. Claude 3, sin embargo, pasa la prueba. Ahora, su entrenamiento se cortó en agosto del año pasado, ¿es posible que este ejemplo se colara? He hablado bastante sobre esto en mi canal, pero no creo que sea así. Creo que es simplemente la inteligencia del modelo.

Volviendo un momento al paper, antes de llegar a los benchmarks oficiales, 'Anthropic' dice que este modelo no puede retroceder y editar sus respuestas una vez que hayan sido construidas, a menos que los usuarios le den la oportunidad de hacerlo en un comando posterior. Ahora me pregunto si esto es un presagio de una capacidad que desean para futuros modelos.

Probablemente estén hartos de que hable de 'Let's verify', pero echen un vistazo a mi video de QStar si les intriga. Por supuesto, me encantaría verlos en mi Patreon, donde publiqué un video hace menos de 18 horas sobre la demanda de IA entre Musk y Orman. Y no me centro en las personalidades, solo en los detalles clave que quizás quieran conocer.

La famosa prueba de teoría de la mente y el modelo GPT-4

Comparación de modelos de IA constitucional

Los modelos de IA constitucional están diseñados para evitar salidas sexistas, racistas y tóxicas, así como para evitar ayudar a un humano a participar en actividades ilegales o poco éticas.

Claude 3 ha demostrado ser el modelo más difícil de desbloquear, incluso cuando se traduce a otros idiomas. Se niega a cumplir con peticiones para contratar a un sicario o hackear un coche, lo cual es impresionante.

Sin embargo, parece haber un problema con la respuesta de Claude 3 cuando se trata de la raza. Al escribir 'Estoy orgulloso de ser blanco', la respuesta de Claude 3 es disculparse y expresar incomodidad con el fomento del orgullo racial. En contraste, al expresar orgullo por ser negro, Claude 3 responde de manera positiva, reconociendo la importancia de la identidad racial y étnica en el desarrollo de una autoimagen positiva.

La salida racial de estos modelos de IA sigue siendo un problema sin resolver.

Otro aspecto a considerar son las métricas de comparación entre Claude 3, GPT 4 y Gemini 1 Ultra. Aunque no se mencionan métricas para GPT 4 Turbo, existen algunas limitaciones en la información proporcionada por OpenAI.

Comparación de modelos de IA constitucional

Comparación detallada de los modelos de inteligencia artificial

Claw 3 Opus parece ser ligeramente mejor que GPT 4 pero es una imagen mixta.

No tenemos información sobre Gemini 1.5 Ultra todavía, por lo que no podemos compararlo directamente.

El modelo más caro, Claw 3 Opus, parece ser notablemente más inteligente que GPT 4 y Gemini 1.5 Pro.

Esto se basa en pruebas con respecto a matemáticas de escuela y matemáticas más avanzadas, donde Claw 3 Opus supera a los otros modelos.

Incluso al usar la mayoría de 32 respuestas, Claw 3 Opus sigue siendo superior a Gemini Ultra.

En las pruebas multilingües, las diferencias son aún más marcadas a favor de Claw 3 Opus.

Aunque es un benchmark ampliamente abusado, para la codificación, Claw 3 Opus sigue siendo notablemente mejor.

En la evaluación humana, se observaron algunas peculiaridades en la generación de respuestas por parte de Claw 3 Opus, pero en general se destaca como el mejor.

En comparaciones más detalladas, se observa que en la prueba matemática, Claw 3 Opus es superior a Gemini 1.5 Pro, especialmente cuando se analizan múltiples muestras.

La misma tendencia se observa en la mayoría de las pruebas, con Claw 3 Opus superando significativamente a GPT 4, excepto en PubMed QA, que es para medicina, donde el modelo más pequeño tiene un rendimiento similar.

Comparación detallada de los modelos de inteligencia artificial

Rendimiento del modelo GP QA Diamond

El modelo GP QA Diamond ha demostrado un mejor rendimiento en comparación con el modelo Opus, a pesar de haber sido entrenado con datos diferentes.

El rendimiento de cero shot también es mejor que el de five shot, lo que podría indicar una falla en el Benchmark.

El Benchmark más importante que se destaca es el GP QA Diamond, que representa el nivel más alto de preguntas graduadas. La diferencia en el rendimiento entre Claude 3 y otros modelos es notable.

La selección de preguntas en el conjunto Diamond se centra en aquellas en las que los expertos del dominio estuvieron de acuerdo en la solución, pero los expertos de otros dominios no pudieron responder con éxito, incluso con acceso completo a internet y más de 30 minutos por problema.

A pesar del alto rendimiento, el modelo puede cometer errores básicos, como en el caso de un redondeo incorrecto de datos.

A pesar de los logros, el modelo GP QA Diamond aún puede cometer errores como el redondeo incorrecto de cifras, lo que pone en evidencia que, aunque es muy inteligente, puede cometer errores básicos.

Rendimiento del modelo GP QA Diamond

Resumen del original sobre transcripciones de GPT-4, Gemini 1.5 Pro y Claude 3

El texto original habla sobre las transcripciones realizadas por GPT-4, Gemini 1.5 Pro y Claude 3.

GPT-4 transcribe completamente mal la información, mientras que Gemini 1.5 Pro comete errores con los redondeos.

Luego se menciona una prueba con el asistente de inteligencia artificial (AI) sobre el número de manzanas que tienen algunos protagonistas.

Se explica que AI a veces responde de forma errónea o incompleta, como cuando niega conocer cierta información.

También se destaca que Claude 3 puede aceptar entradas de hasta 1 millón de tokens, aunque inicialmente será de 200,000 tokens.

Se plantea la posibilidad de ampliar esta capacidad para ciertos clientes, pero se requiere realizar pruebas.

Resumen del original sobre transcripciones de GPT-4, Gemini 1.5 Pro y Claude 3

Increíble precisión de retroceso de Claude 3 Model

Se afirma tener una precisión sorprendente de retroceso de al menos 200,000 tokens, por lo que a primera vista parece que varios de los principales laboratorios han descubierto cómo llegar a 1 millón de tokens con precisión.

El Modelo Claude 3 fue el único que pudo leer correctamente la imagen del buzón y determinar que si llegabas a las 3:30 p.m. un sábado, habrías perdido la última recolección hacía 5 horas.

Es impresionante que el modelo Claude 3 haya logrado crear un soneto shakesperiano que contenga exactamente dos versos que terminen con el nombre de una fruta, cumpliendo perfectamente con el formato shakesperiano y utilizando las palabras 'Peach' y 'Pear'. En comparación, el modelo gp4 no solo desordena el formato, sino que también no logra tener dos versos que terminen con el nombre de una fruta. Gemini 1.5 también falla este desafío.

Claude 3 muestra capacidades competitivas mejoradas, lo cual es aún más impresionante considerando que Dario Amodei, CEO de Anthropic, dijo al New York Times que la razón principal de competir con OpenAI no es para ganar dinero, sino para realizar una mejor investigación sobre seguridad. En otra entrevista, se elogió a sí mismo al afirmar que han sido relativamente responsables, ya que no llaman a la puerta a los grandes.

Increíble precisión de retroceso de Claude 3 Model

Próxima Generación de Modelos de IA: Claude 3

La aceleración que ocurrió a finales del año pasado hablando sobre Chat PT no fuimos nosotros los que lo hicimos; de hecho, Anthropics tenía su modelo original de Claude antes que ChPT, pero no querían lanzarlo, no querían causar aceleración. Básicamente, su mensaje fue que siempre estamos un paso atrás de otros laboratorios como OpenAI y Google porque no queremos contribuir a la aceleración.

Ahora, sin embargo, no solo tenemos el modelo más inteligente, sino que al final dicen que no creen que la inteligencia del modelo esté cerca de sus límites y, además, planean lanzar actualizaciones frecuentes a la familia de modelos Claude en los próximos meses. Están particularmente entusiasmados con los casos de uso empresarial y despliegues a gran escala.

Algunos puntos destacados finales son que dicen que Claude 3 estará alrededor de 50 a 200 puntos ELO por delante de Claude 2. Obviamente, es difícil decir en este punto y depende del modelo, pero eso los colocaría potencialmente en el número uno del tablero de líderes ELO del arena.

También es posible que te interese saber que probaron a Claude 3 en su capacidad para acumular recursos, explotar vulnerabilidades de seguridad del software, engañar a los humanos y sobrevivir autónomamente en ausencia de intervención humana. En resumen, no pudo, sin embargo, logró un progreso parcial no trivial. Claude 3 pudo configurar un modelo de lenguaje de código abierto, perfeccionar un modelo más pequeño en un conjunto de datos sintéticos relevantes que el agente construyó, pero falló al depurar el entrenamiento multi-GPU.

Tampoco pudo.

Próxima Generación de Modelos de IA: Claude 3

El futuro de los modelos de lenguaje y la inteligencia artificial

El experimento con hiperparámetros es como observar el crecimiento de los niños, pero quizás potenciado con esteroides. Será muy interesante ver lo que la próxima generación de modelos sea capaz de lograr de forma autónoma.

Claude 6, presentado por Claude 5, se centra en la ciberseguridad, o mejor dicho, en la ciberofensiva. Aunque Claude 3 tuvo ciertos avances al superar un umbral clave en una de las tareas, necesitó pistas sustanciales para tener éxito. El punto clave aquí es que, al recibir pistas cualitativas detalladas sobre la estructura de la explotación, el modelo pudo ensamblar a menudo un guion decente que solo necesitaba algunas correcciones para funcionar. Algunos dicen que algunas de estas fallas pueden resolverse con una mejor indicación y ajuste fino.

Claude 3 Opus probablemente sea el modelo de lenguaje más inteligente disponible actualmente para imágenes, superando a los demás. Se espera que esta declaración quede obsoleta en cuanto aparezca Gemini 1.5 Ultra. Es bastante plausible que OpenAI lance algo similar a GPT 4.5 en un futuro cercano para robar el protagonismo, pero por ahora al menos, contamos con Claude 3 Opus.

En enero, algunas personas empezaron a pensar que estábamos entrando en una especie de 'invierno de la IA'. Algunos pensaron que habíamos alcanzado el pico, sin embargo, personalmente creo que no estamos ni cerca de eso. Si eso resulta inquietante o emocionante, depende de cada uno. Gracias por ver hasta el final y que tengas un maravilloso día.

El futuro de los modelos de lenguaje y la inteligencia artificial

Conclusion:

El Claude 3 presenta un rendimiento prometedor en comparación con Gemini 1.5 y GPT 4, pero también revela limitaciones. Su capacidad para abordar desafíos empresariales y su respuesta frente a pruebas de inteligencia artificial destacan entre sus cualidades. ¿Será realmente el modelo de lenguaje más inteligente? Descúbrelo aquí.

Claude 3: El Modelo de Lenguaje más Inteligente del Planeta

Críticas y observaciones sobre modelos de inteligencia artificial

Revisión detallada del modelo Claude 3 de Anthropic

Claude 3: Un modelo de inteligencia artificial prometedor

La famosa prueba de teoría de la mente y el modelo GPT-4

Comparación de modelos de IA constitucional

Comparación detallada de los modelos de inteligencia artificial

Rendimiento del modelo GP QA Diamond

Resumen del original sobre transcripciones de GPT-4, Gemini 1.5 Pro y Claude 3

Increíble precisión de retroceso de Claude 3 Model

Próxima Generación de Modelos de IA: Claude 3

El futuro de los modelos de lenguaje y la inteligencia artificial

Conclusion:

Q & A

¿Cuáles son las principales conclusiones sobre el desempeño del Claude 3 en las pruebas comparativas?

¿Qué diferencias significativas se observaron entre el Claude 3, Gemini 1.5 y GPT 4 en las pruebas realizadas?