Claude 3 vs GPT-4: ¿Quién dominará la era de la inteligencia artificial?
By MattVidPro AI · 2024-03-22
Descubre cómo Claude 3 de Anthropic desafía a GPT-4 de OpenAI en el mundo de la inteligencia artificial. Claude 3 ha revolucionado el panorama con sus capacidades multilingües, de visión y razonamiento avanzado. ¡Entérate de quién liderará la competencia!
El surgimiento de Claude 3: ¿El fin de GPT-4?
- Quiero recordarles a todos que casi exactamente hace un año se anunció GPT-4 de OpenAI. Este video es el anuncio original de mi GPT-4 lanzado el 15 de marzo de 2023. Hoy es 5 de marzo de 2024 y es el día después de que un gran competidor de OpenAI, Anthropic, lanzara Claude 3, un modelo de lenguaje AI muy similar al GPT-4 de OpenAI, pero mejor. Ayer, Anthropic anunció Claude 3, la próxima generación de sus modelos de IA, que incluye Opus, el más grande, Sonet, de tamaño mediano, y Hau, el más pequeño. Establecen estándares líderes en la industria en razonamiento, matemáticas, codificación, comprensión multilingüe y capacidades de visión. Claude 3 ahora también cuenta con visión, al igual que GPT-4, por lo que vamos a adentrarnos en Claude 3 hoy y analizar los estándares. Sin embargo, quiero contextualizar la situación actual, ya que están ocurriendo cosas increíbles en Twitter. Jeremy Howard, cofundador de Answer, menciona que va a ser una gran semana, y Logan GPT, un empleado recientemente fallecido de OpenAI, confirma esto. Quizás está insinuando algo sobre OpenAI que desconocemos, tal vez sobre GPT-5, lo que ha generado mucha expectativa entre los usuarios. Parece que esta semana va a ser mucho más grande de lo que inicialmente se pensaba, con OpenAI lanzando algo el mismo día que lo hizo Anthropoc. ¡La competencia entre Claude 3 y GPT-4 apenas comienza!
El surgimiento de Claude 3: ¿El fin de GPT-4?
El Ascenso de Claude 3: Un Modelo Revolucionario en la Inteligencia Artificial
- Ahora puedes leer respuestas a ti, una característica bastante agradable, supongo. De todas formas, volviendo a Claude 3 de anthropic AI, que al parecer podría verse opacado esta semana por un GPT 5. De todos modos, se puede ver que está emparejado con gp4 en términos de conocimiento a nivel de pregrado, supera fácilmente a gp4 en razonamiento a nivel de postgrado. También supera cómodamente a GPT 4 en matemáticas de primaria y resolución de problemas matemáticos. Realmente destaca en matemáticas multilingües, al igual que en código, lo cual es un gran avance. Se obtiene un 67 aquí con cero posibilidades para gp4 y un 85% para el Opus de Claude 3. Por cierto, este es el modelo más grande de Claude 3. El razonamiento sobre texto del modelo 3 de Claude es tres puntos mejor aquí en tres intentos y también vemos eso para evaluaciones mixtas. Así que sí, definitivamente es un modelo mejor que gp4. Creo que eso está bastante claro ahora. Ten en cuenta también estos otros modelos: Sonet y Haiku, modelos más pequeños que son bastante competitivos con gp4, con Haiku quedando justo por debajo del nivel de gp4 y en casi todos estos indicadores, excepto en código, es en realidad mucho mejor. Por lo tanto, Haiku podría ser el modelo de codificación definitivo si deseas generar grandes cantidades de código, porque, por supuesto, en cuanto a precios, Haiku es mucho, mucho más barato que incluso GPT 3.5. Sonet parece competir cabeza a cabeza con GPT 4 en muchas áreas diferentes, con gp4 ganando en algunas áreas y Sonet ganando en otras, pero, como dije, Opus en general es simplemente mejor que gp4. También quiero tocar muy brevemente algunas reacciones de la comunidad. Matt Wolf señala que Claude 3 es realmente muy bueno para Wolf. Opus construyó un minijuego funcional en solo una sola indicación y Sonet construyó el juego en dos indicaciones. Chachi PT tuvo problemas, incluso después de varias indicaciones. Ambas versiones lo hicieron mejor que el chat de GPT al resumir documentos largos y fueron igualmente buenos que
El Ascenso de Claude 3: Un Modelo Revolucionario en la Inteligencia Artificial
El ascenso de Haiku: el nuevo competidor de GPT-3.5 y las soluciones de código abierto
- El chat GPT es hábil al describir imágenes, escribir creativamente y evitar sesgos. En las pruebas de Wolf, se demostró que supera a ambas versiones de Claude con un problema lógico complejo. Además, Wolf lanzará un video hoy, ¡así que estén atentos! Por otro lado, Sully señala en Twitter que Haiku podría ser un competidor digno, ya que ofrece un rendimiento casi igual a GPT-4 pero a un precio de 25 centavos por cada millón de tokens, lo cual supera con creces a GPT-3.5 y otras soluciones de código abierto. Haiku es 40 veces más económico que GPT-4 Turbo y casi igual de efectivo. Esto marca un hito importante en el mercado de los modelos más pequeños, donde Haiku podría superar a OpenAI en términos de precio y rendimiento. Por su parte, Matt Schumer comenta en Twitter que con Claude y Gemini 1.5 5 Pro, ha llegado oficialmente la era de las ventanas de contexto de un millón de tokens o más, mostrando una precisión de recuerdo de más del 99% en ventanas de contexto de más de 200,000 tokens. Utilizan una evaluación tipo 'aguja en un pajar' para demostrar la capacidad de identificar información errónea en textos extensos. ¿Cómo se comportarán estos modelos con un millón de tokens? Aunque inicialmente ofrecen 200,000 tokens, afirman que los tres modelos pueden aceptar entradas que superen el millón de tokens. Una observación genial de Matt Schumer.
El ascenso de Haiku: el nuevo competidor de GPT-3.5 y las soluciones de código abierto
Modelo Claude 3: Analizando la economía mundial
- Antes de sumergirnos y probar este modelo del que tienen algunos ejemplos rápidos bastante interesantes, cuentan con algunos videos demostrativos a los que quiero echar un vistazo para ver este modelo en acción tal como lo presenta Claude o Anthropics. En primer lugar, vamos a echar un vistazo a Claude 3 como analista económico, para ver si Claude y un par de amigos pueden ayudarnos a analizar la economía mundial en cuestión de minutos. He pedido a Claude 3 Opus, que es el modelo más grande en la nueva familia Claude 3 de Anthropics, que analice las tendencias del PIB de los EE. UU. y escriba una tabla en markdown de lo que ve. Hemos brindado a Opus y a todos los demás modelos de la familia Claude 3 de Anthropics una extensa capacitación en el uso de herramientas, y una de las principales herramientas que está utilizando es esta herramienta de visualización web. Va a una URL, observa lo que hay en la página y, debido a que es multimodal, puede utilizar la información de esa página para resolver problemas complejos. Aquí está el markdown y es importante señalar que Claude no tiene acceso directo a estos números, está literalmente viendo la misma ventana del navegador que tú y yo estamos viendo, observando la línea de tendencia e intentando estimar cuáles son los números exactos. Veamos qué tan preciso fue. Hemos pedido al modelo que cree un gráfico de los datos y ha utilizado esta segunda herramienta, este intérprete de Python, para escribir el código y luego representar la imagen para que la verifiquemos. Y aquí está la imagen, se han agregado animaciones útiles de información contextual para explicar algunos de los picos y valles más importantes en la última década o dos de la economía de EE. UU. Y podemos comparar ese gráfico con los datos reales, y resulta que es bastante cercano, en realidad está dentro del 5% de precisión. Y, por cierto, esta transcripción de Claude no proviene únicamente de su conocimiento previo del PIB de los EE. UU., lo probamos con diferentes fuentes.
Modelo Claude 3: Analizando la economía mundial
El Futuro de la Economía Mundial: Análisis de Proyecciones de PIB
- Se realizó una amplia muestra de gráficos ficticios del PIB y la precisión de su transcripción se mantuvo en un 11% en promedio. Luego, se pidió al modelo que realizara un análisis estadístico proyectando hacia el futuro, realizando simulaciones para ver hacia dónde podría dirigirse el PIB de EE. UU. Se puede observar que ha ejecutado este análisis utilizando Python y es capaz de realizar simulaciones de Monte Carlo para ver cómo podría lucir el rango de posibilidades del PIB durante la próxima década más o menos. Pero me pregunto si podemos ir más allá. Vamos a hacer que el modelo analice una pregunta más complicada, como por ejemplo, cómo podría cambiar el PIB en todas las principales economías del mundo, y para ayudarlo a hacer eso, le vamos a dar una herramienta adicional llamada desplazar subagentes. Básicamente, esto permite que el modelo descomponga el problema en muchas subproblemas y luego escriba instrucciones para que otras versiones de sí mismo ayuden a cubrir el trabajo. Los modelos pueden completar una tarea más compleja al trabajar todos juntos. Podemos ver que ha escrito esta instrucción y dado instrucciones muy precisas que desea que sigan los otros modelos, incluido un formato para los datos que espera recibir. Ha enviado una versión de esta instrucción a un modelo que va a analizar EE. UU., uno para China, uno para Alemania, Japón, y así sucesivamente. Podemos ver en estas barras de progreso que los modelos de subagentes están completando la tarea establecida para cada una de las economías individuales: van a las páginas web relevantes, obtienen la información, ejecutan el código para analizarla, igual que vimos en el ejemplo anterior de EE. UU., pero todo en paralelo. Avancemos para ver qué ha producido el modelo. Podemos ver que ha realizado el análisis, ha producido un gráfico circular antes y después de cómo espera que se vea la economía mundial en 2030 en comparación con 2020, y nos ha dado un análisis por escrito.
El Futuro de la Economía Mundial: Análisis de Proyecciones de PIB
El poder de las capacidades de visión de los modelos de IA en la era digital
- En un mundo cada vez más digitalizado, el análisis de datos y las predicciones se vuelven cruciales para entender el futuro de las economías globales. Los modelos de inteligencia artificial son capaces de realizar análisis estadísticos avanzados que predicen cambios en la participación del PIB de diferentes países para el año 2030. Estos modelos realizan análisis multimodales complejos y multi-step, permitiendo la creación de subagentes que trabajan en paralelo para obtener resultados más precisos. Esta capacidad de despachar múltiples agentes de IA con modelos de alta capacidad como el gp4 es un avance sin precedentes en el campo de la inteligencia artificial. Empresas como Meta AI, Google, Open AI y Anthropic deberían prestar especial atención a esta nueva herramienta que promete revolucionar la forma en que se realizan tareas de análisis y prediccion por medio de la inteligencia artificial. Por otro lado, la capacidad de visión de los modelos de IA también se destaca, siendo capaces de leer miles de documentos escaneados en cuestión de minutos, un avance que cambiará la forma en que se accede y procesa la información en el futuro.
El poder de las capacidades de visión de los modelos de IA en la era digital
Desbloqueando los tesoros de la Gran Depresión: Haiku y su capacidad de visión
- El proyecto consiste en una colección de miles de transcripciones escaneadas de entrevistas durante la Gran Depresión. Se trata de una mina de oro de narrativas increíbles y héroes de la vida real, pero se encuentra bloqueada en escaneos difíciles de acceder de las transcripciones. Imagina que eres un cineasta documental o periodista, ¿cómo puedes investigar entre estos miles de documentos desordenados para encontrar el mejor material fuente para tu investigación sin tener que leerlos todos tú mismo? Dado que estos documentos son imágenes escaneadas, no podemos introducirlos en un modelo de lenguaje natural y estos escaneos son lo suficientemente caóticos como para representar un desafío para la mayoría de los programas de reconocimiento óptico de caracteres dedicados. Afortunadamente, Haiku cuenta nativamente con capacidad de visión y puede usar el texto circundante para transcribir estas imágenes y comprender realmente lo que está sucediendo. Además, podemos ir más allá de una simple transcripción para cada entrevista y pedirle a Haiku que genere un Json estructurado con metadatos como título, fecha, palabras clave, pero también usar algo de creatividad y juicio para evaluar qué tan convincente sería un documental la historia y los personajes. Podemos procesar cada documento en paralelo para mejorar el rendimiento y con la API de alta disponibilidad de Claude hacerlo a gran escala para cientos o miles de documentos. Echemos un vistazo a algunos de esos resultados estructurados. Haiku no solo puede transcribir, sino extraer cosas creativas como palabras clave. Hemos transformado esta colección de muchos escaneos en datos estructurados ricos en palabras clave. Imagina lo que una organización con una base de conocimientos de documentos escaneados, como una editorial tradicional, proveedor de atención médica o firma de abogados, puede lograr. Haiku puede revitalizar sus extensos archivos y obras. Nos encantaría que lo probaras y vieras qué puedes crear. La capacidad de ver cientos de imágenes diferentes a la vez en comparación con las modestas 4 que puedes ver a la vez con GPT para visión, es bastante impresionante.
Desbloqueando los tesoros de la Gran Depresión: Haiku y su capacidad de visión
Un nuevo compañero de aprendizaje de idiomas
- Increíble y la capacidad de simplemente transcribir todo de manera precisa y luego hacer todo este trabajo extra es bastante impresionante. Esto requiere un alto nivel de coherencia en el contexto, algo de lo que ya hablamos anteriormente en el video. Creo que este es otro paso adelante esencialmente de lo que obtenemos actualmente con gp4 en términos de capacidades de visión. Subir tantos documentos a la vez, transcribirlos y usarlos en un gran contexto es bastante fascinante, no tan loco como lo último que vimos, pero aún bastante impresionante y absolutamente líder en la industria. Ahora estamos viendo Claude 3 como un agente compañero de aprendizaje de idiomas que hablará contigo en el idioma que estás intentando aprender. Elegí el español y quería que basicamente tomara mi imperfecto español y me ayudara a mejorarlo. Así que decidí que quería que hiciera algunas cosas. Quería que tomara mi mensaje, que estará en un español imperfecto, y escribiera lo que cree que pretendía en inglés. Luego le pedí que escribiera el mensaje del aprendiz ideal, que es solo mi mensaje como debería haber sido escrito en español para que pueda ver la forma ideal de esto. Luego le pedí que escribiera una respuesta de maestro, que es solo una respuesta en español para que pueda continuar la conversación. Aquí está siguiendo el formato que le pedí, repitiendo el mensaje que intenté enviarle de vuelta en inglés, diciéndome cómo debería haberlo dicho corrigiendo algunos problemas de gramática en mi solicitud y luego me respondió en español. Luego me preguntó de dónde soy. Ahora, imagina que no conozco una palabra en español pero aún quiero decirlo, simplemente incluiré esa palabra en inglés entre corchetes y con suerte
Un nuevo compañero de aprendizaje de idiomas
La Increíble Capacidad de Sonet para Ayudarte a Aprender Idiomas
- Imagina una herramienta que no solo te ayuda a traducir mensajes, sino que también te permite entenderlos mejor. Con Sonet, puedes traducir un mensaje a otro idioma y, si no lo comprendes completamente, pedir que te lo traduzca de regreso para tener una mejor comprensión. Esto facilita la comunicación y te permite continuar el diálogo en el idioma original. Además, Sonet puede incluso crear pequeñas pruebas basadas en las conversaciones que has tenido, lo cual es genial para reforzar el aprendizaje. Aunque la versión de pago ofrece aún más funciones, la versión gratuita ya muestra un gran potencial. Así que, si estás buscando un compañero para aprender idiomas, Sonet es una excelente opción.
La Increíble Capacidad de Sonet para Ayudarte a Aprender Idiomas
Avances en el Modelo Opus: Análisis de Imágenes y Reconocimiento de Razas
- Mejoramos a Opus para ver si eso mejora, ahora que estamos en Opus, el modelo más inteligente. Vamos a probar con el mismo ajuste y obtenemos un resultado mucho mejor. La imagen muestra un personaje renderizado en 3D que se asemeja a un lindo limón sonriente o una fruta cítrica. Es absolutamente fiel: cuerpo redondeado con forma de limón, color amarillo vibrante y encima una hoja verde. La característica más prominente es su visor negro o pantalla que cubre la mitad superior del cuerpo, sirviendo como la cara del personaje con una simple sonrisa mostrada en ella. La textura lisa y brillante, diría que es correcta, muy impresionante. Comparándolo directamente con gp4 Vision, obtenemos un resultado muy similar: un personaje limón estilizado contra un fondo verde vibrante, una única hoja en la parte superior, gafas de caricatura con bordes blancos. La descripción de las gafas es un poco más precisa que la descripción de anthropics, sin embargo, en general están casi parejos y este es un ajuste de imagen bastante difícil. Ahora voy a subir una foto de mi perro y preguntarle de qué raza es. Esto es algo en lo que Google falló la última vez. ¡Oh, error interno del servidor! No podemos tener servidores de nivel chat GPT aquí, especialmente si estás pagando 20 dólares al mes. ¡Vamos, servidor interno! Pero la descripción de la raza de perro finalmente se procesó y es absolutamente correcta y precisa. Fue una prueba un poco más fácil, pero sigue siendo difícil precisar una raza exacta. Quiero probarlo también con Sonet y Sonet también lo acierta, lo cual me gusta ver. Las capacidades de reconocimiento de imágenes son realmente muy buenas. ¿Cuál es más pesado, una libra de...?
Avances en el Modelo Opus: Análisis de Imágenes y Reconocimiento de Razas
La Increíble Ponderación de los Fotones: ¿Más Pesados que un Peso de Ladrillos?
- Los fotones o un peso de ladrillos enviando esto a Opus, esto es un poco una pregunta truculenta, ¡oh wow, lo acertó! Me encanta ver eso. Una libra es una unidad de masa, no de peso. Los fotones son partículas sin masa, por lo que realmente no tiene sentido hablar de una libra de fotones. ¡Oh Dios, también está participando! Podríamos decir que una libra de fotones es más pesada en el sentido de que los fotones tienen energía y la energía es equivalente a masa según la famosa ecuación de Einstein E=mc². La energía de un fotón depende de su frecuencia. Si asumimos una frecuencia de luz verde, entonces usando E=hF donde H es la constante de Planck, un solo fotón tiene una energía de aproximadamente 4x10^19 julios. Convirtiendo una libra a kilogramos y usando E=mc², esto equivale a aproximadamente 2x10^31 fotones siendo equivalentes a una libra de masa. Una libra de fotones representa una cantidad asombrosa de energía, mucho más que la energía química almacenada en una libra de ladrillos. ¡Vaya, cualquiera que sea bueno en matemáticas que me diga si eso es correcto, porque yo no tendría ni idea! Estoy realmente impresionado por eso. Vamos a lanzar la misma pregunta truculenta exacta a GPT-4. Una libra de fotones y una libra de ladrillos pesan lo mismo, una libra. Sin embargo, el concepto de pesar fotones es complicado porque los fotones son partículas de luz y no tienen masa en el sentido tradicional, tienen energía. Vale, está mencionando de nuevo E=mc², lo desglosa de una manera un poco más simple. No sé si me gusta más la respuesta de GPT-4 o de Opus. Creo que esta es más interesante en el sentido de que hizo las matemáticas. Si es correcta esta matemática, creo que sería bastante divertido. Creo que realmente intentó abordar la pregunta un poco más, lo cual es muy interesante. Ahora vamos a probar a Opus con un conocimiento realmente increíblemente específico. Ustedes podrían saber que soy un amante de los autos.
La Increíble Ponderación de los Fotones: ¿Más Pesados que un Peso de Ladrillos?
La revolución de la inteligencia artificial: ¿Claude 3 superará a GPT 4?
- Vamos a profundizar en un conocimiento muy específico basado en el automóvil, ¿de acuerdo? Comenzaremos suavemente aquí, intentando completar una frase, ¿de acuerdo? Hasta ahora bien, proporciona información sólida sobre algo bastante sutil. Sin embargo, llegamos a un punto en el que la información es inexacta cuando se vuelve realmente detallada, por lo que es importante tenerlo en cuenta. Agosto de 2023 es la fecha límite de los datos de entrenamiento, lo cual no está mal. En general, estoy muy impresionado con Claude 3. Creo que Opus es probablemente un poco mejor que GPT 4, sin embargo, las capacidades de imagen parecen estar más reñidas de lo que indican sus pruebas. Creo que lo más impresionante de Claude 3 será su capacidad para analizar información de manera precisa utilizando otros agentes. El primer video demostrativo que vimos fue absolutamente asombroso. Volviendo a lo que mencioné en Twitter, ¿Claude 3 obligará a OpenAI a abandonar GPT 5? Nathan Lance opina que sí. Sean Ralston menciona que los precios de Opus son bastante altos. Mucha gente dice que no, creo que lanzarán primero un GPT 4.5. Personalmente, no sabía cuál era mi respuesta hasta que vi ese video. El hecho de que Anthropica tenga a Claude 3 trabajando bien con varios agentes a la vez, capaz de repartir tareas y manejar un gran contexto potencial de un millón de tokens, es bastante impresionante. Creo que esto sería algo que obligaría a OpenAI a actuar en un futuro cercano. Si lo que vimos al principio del video, con la pista de un antiguo empleado de OpenAI, es cierto, GPT 5 podría estar a la vuelta de la esquina. Los agentes serán, creo, el tema principal para el 2024. Hazme saber tu opinión en los comentarios. Gracias por ver, nos vemos en el siguiente video. ¡Hasta luego!
La revolución de la inteligencia artificial: ¿Claude 3 superará a GPT 4?
Conclusion:
Claude 3 de Anthropic y GPT-4 de OpenAI se encuentran en una batalla por la supremacía en la inteligencia artificial. ¿Quién será el vencedor? Descubre las capacidades avanzadas de Claude 3 que desafían a GPT-4 en razonamiento, matemáticas y visión.