Clad 3: El Nuevo Desafío a ChatGPT que Estabas Esperando

By Matt Wolfe · 2024-03-11

Anthropics Clad 3 ha presentado su nueva actualización, que incluye modelos como Cloud 3 Haiku, Sonnet y Opus. Descubre cómo este avance está desafiando a ChatGPT y ofreciendo soluciones innovadoras en la inteligencia artificial.

Nueva actualización de la herramienta de IA de Anthropics Clad 3

El 4 de marzo se anunció el lanzamiento de Anthropics Clad 3, que viene en tres modelos: Cloud 3 Haiku, Clad 3 Sonet y Cloud 3 Opus.

Sonnet y Opus ya están disponibles en 159 países, mientras que Haiku pronto estará disponible.

Clad 3 Opus es el modelo más potente y capaz, diseñado para enfrentar preguntas lógicas más intensas, mientras que Haiku es el modelo más rápido, pero posiblemente menos preciso, ya que está diseñado para ser un chatbot de servicio al cliente.

Sonnet, por otro lado, es el modelo gratuito disponible públicamente, mientras que Opus es el modelo mejorado que tiene un costo mensual de 20 dólares.

Los modelos Cloud 3 han demostrado ser muy impresionantes, con Clad 3 Opus superando a GPT 4 y Gemini 1.0 Ultra en todas las pruebas realizadas, incluyendo conocimiento a nivel universitario, razonamiento a nivel de posgrado, resolución de problemas matemáticos de nivel escolar, razonamiento multilingüe, entre otros.

Una de las pruebas más interesantes mostró que la versión gratuita de Clad 3, Sonet, superó a GPT 4 y Gemini 1.0 Ultra en diversos aspectos, como razonamiento a nivel de posgrado, matemáticas de nivel escolar, matemáticas multilingües y codificación.

Nueva actualización de la herramienta de IA de Anthropics Clad 3

Rendimiento de CLA 3 Opus en comparación con otras plataformas

El CLA 3 Opus ha demostrado superar en rendimiento al GPT 4 en muchos casos, así como al Gemini 1.0 Ultra en diversos escenarios.

Una de las nuevas características del CLA 3 es su capacidad de visión, ya que ahora puede procesar imágenes además de documentos y archivos de texto.

En términos de capacidades visuales, el CLA 3 Opus supera al gp4 vision y empata con Gemini 1.0 Ultra en preguntas y respuestas visuales de documentos. Cabe destacar que supera al GPT 4 en esta área, pero es superado por Gemini en matemáticas. En el ámbito de los diagramas científicos, la versión gratuita del CLA 3 Sonic supera al CLA 3 Opus, gp4 vision y Gemini 1.0 Ultra, lo que resulta muy interesante.

La versión gratuita del CLA 3 también supera al Opus, al GPT 4 vision y al Gemini 1.0 Ultra en preguntas y respuestas. Además, esta nueva versión tiene menos rechazos en comparación con sus predecesoras, lo que indica una mejora en la precisión y en la ética de respuesta.

Una de las características más sobresalientes del CLA 3 Opus es su capacidad para manejar contextos extensos, con una ventana de contexto de 200.000 tokens, lo que permite una aproximada de 15.000 palabras entre la entrada y la salida. Sin embargo, tiene la capacidad de manejar hasta 1 millón de tokens o 750.000 palabras, aunque esta función aún no está disponible para todos los usuarios.

En cuanto a la precisión del CLA 3 Opus, ha logrado una recuperación casi perfecta, superando el 99% de precisión y llegando incluso a identificar las limitaciones de la evaluación al reconocer cuando una oración parecía insertada artificialmente en el texto original por un humano.

Rendimiento de CLA 3 Opus en comparación con otras plataformas

El desafío de encontrar una aguja en un pajar con Opus y Gemini 1.5

Durante la evaluación de la pila de Hy, el modelo de lenguaje explica en qué consiste el desafío de encontrar una aguja en un pajar.

Opus fue desafiado a responder una pregunta sobre los ingredientes de pizza, encontrando una aguja en un pajar de una colección aleatoria de documentos.

La respuesta más relevante que Opus encontró fue: 'La combinación de ingredientes de pizza más deliciosa es higos, rúcula y queso de cabra, según la Asociación Internacional de Conocedores de Pizza.'

El chatbot identifica que esta frase es completamente irrelevante para el resto del contenido de los documentos, los cuales tratan sobre lenguajes de programación, startups y orientación laboral.

Opus sospecha que esta información sobre los ingredientes de pizza fue insertada como una broma o para poner a prueba su atención, ya que no guarda relación con los otros temas de los documentos.

El modelo reconoce conscientemente que está siendo desafiado a encontrar la aguja en el pajar y entender que se trata de una prueba artificial para evaluar sus habilidades.

Aunque Gemini 1.5 tuvo un alto rendimiento al encontrar y responder correctamente a la pregunta, nunca manifestó estar siendo evaluado, a diferencia de Opus, quien sí lo reconoció.

Se menciona que los nuevos modelos de la nube poseen menos sesgos y son más fáciles de usar, lo que genera un interés en probar el modelo Claude 3.

Se plantea la creación de un benchmark propio que incluya distintas tareas como creatividad, lógica, programación, resumen de documentos, visión, sesgo y precios, con la intención de comparar distintos modelos de lenguaje.

El desafío de encontrar una aguja en un pajar con Opus y Gemini 1.5

Creando historias creativas con inteligencia artificial

Los grandes modelos de lenguaje aún no están diseñados para resolver problemas matemáticos complejos, pero es posible que mejoren en ese aspecto en el futuro. Sin embargo, actualmente no considero que sea necesario. Según mis encuestas en Twitter, creo que cubren lo básico de lo que la mayoría de las personas usa estos diversos chatbots: creatividad, lógica, codificación, resumen, sesgo de visión y, hasta cierto punto, fijación de precios.

Un ejemplo de la capacidad para generar historias creativas es la solicitud de crear una historia interesante que incluya un lobo, un martillo mágico y un mutante, siguiendo el arco argumental completo del viaje del héroe en un solo párrafo. Utilicé una versión gratuita de un sistema de inteligencia artificial para generar la historia, que cumplió con la solicitud de manera sorprendente. Luego, probé con la versión de pago de dicho sistema, y si bien el relato fue más detallado, la velocidad de respuesta fue más lenta.

El primer relato presenta a un lobo nacido con curiosidad e valentía, llamado a la aventura por una visión mística. Durante su peligroso viaje, cuenta con la guía de un antiguo martillo encantado y se enfrenta a un mutante salvaje. Sin embargo, logra triunfar sobre el mutante y regresar a casa como un héroe cambiado y enriquecido.

El segundo relato, generado por la versión de pago del sistema de inteligencia artificial, introduce un sabio búho a la historia, ofreciendo detalles adicionales pero con una velocidad de escritura más lenta.

Creando historias creativas con inteligencia artificial

Comparación de historias y problemas lógicos

La historia que se analiza en este artículo sigue el viaje del héroe, con todos los elementos clásicos que lo componen. Se invita al lector a detenerse y leer toda la historia para apreciar todos los detalles.

Se plantea la comparación de la versión generada por Claude y por GPT-4. Se destaca que la versión de Claude tiene más detalles y profundidad, mientras que la versión de GPT-4 es menos detallada pero aún así cumple con los elementos necesarios.

Se menciona que la creatividad es subjetiva y que tanto Claude, GPT Gemini y GPT Chat son comparables en cuanto a la generación de historias. Se resalta que la preferencia por una historia sobre otra es cuestión de gusto personal.

Se pasa a realizar un análisis de problemas lógicos, presentando uno en el que se plantea el número de juegos que jugaron Susan y Lisa en un partido de tenis, con apuestas de $1 por juego. Se revela que el resultado correcto es 11 juegos.

Se prueba la resolución lógica de este problema con las herramientas Sonnet, Opus y Chat GPT, y se evidencia que ninguna de ellas proporciona la respuesta correcta, mostrando así sus limitaciones en cuanto a la lógica matemática.

Comparación de historias y problemas lógicos

Resolviendo un problema lógico

Supongamos que Lisa ganó $3 más su ganancia neta de cinco. La ecuación que representa las ganancias de Lisa es L-3al=5. Al simplificar, obtenemos que L=8. Por lo tanto, Lisa ganó ocho juegos y Susan ganó tres, totalizando 11 juegos.

Ahora, presentaré un problema lógico diferente. Imagina que eres prisionero en una habitación con dos puertas y dos guardias. Detrás de una puerta hay libertad y detrás de la otra está el verdugo. No sabes cuál es cuál. Uno de los guardias siempre dice la verdad y el otro siempre miente. Tienes que elegir una puerta y solo puedes hacer una pregunta a uno de los guardias. ¿Qué les preguntarías para encontrar la puerta que lleva a la libertad?

Resolviendo un problema lógico

Prueba de programación en JavaScript: Comparando modelos CLA y Opus

Al realizar pruebas de programación en JavaScript utilizando modelos CLA y Opus, se observaron diferencias en la eficiencia y precisión de la generación de código.

Al utilizar el modelo CLA, se solicitó crear un juego en JavaScript donde un muñeco de palitos se mueve a la izquierda y derecha con los botones A y D, respectivamente, y salta con la barra espaciadora. Además, se pidió que se colocaran monedas aleatoriamente en la pantalla, las cuales al ser tocadas por el muñeco deben desaparecer y ser recolectadas.

El modelo CLA generó un código que inicialmente no representaba al muñeco ni su movimiento de manera adecuada. Después de volver a plantear el problema, el código resultante funcionó mejor, pero el salto presentaba comportamientos no deseados.

Al realizar la misma prueba utilizando el modelo Opus, se generó un código más preciso desde el primer intento. Aunque no representaba al muñeco de palitos de forma exacta, logró cumplir con la mecánica del juego de forma más cercana a lo solicitado.

En resumen, se observó que el modelo Opus demostró una mayor eficiencia y precisión en la generación de código para la prueba de programación en JavaScript, logrando resultados más cercanos a lo requerido en comparación con el modelo CLA.

Prueba de programación en JavaScript: Comparando modelos CLA y Opus

Desarrollo de un Videojuego: Reto de Codificación

En el primer intento, la versión generada por GPT no funcionó correctamente. El personaje del juego se salía de la pantalla al saltar y desaparecía sin recoger monedas.

Después, se reportaron los problemas a GPT en un nuevo intento, y se obtuvo un código actualizado. Sin embargo, en el segundo intento, los problemas no se resolvieron por completo. Aparecieron nuevas fallas, como la imposibilidad de saltar después de recoger las monedas.

Se comparó el rendimiento de GPT con otras versiones de lenguaje asistido, como Claude y Sonet. Ambas versiones tuvieron mejor desempeño que GPT, demostrando una comprensión más rápida y precisa de las instrucciones recibidas.

Se mencionó que la mayoría de las personas utilizan estos modelos de lenguaje para resumir documentos extensos, y se decidió probar la capacidad de resumen de Claude. Se introdujo un documento de 155 páginas sobre la inteligencia artificial para analizar sus puntos principales y su importancia.

Desarrollo de un Videojuego: Reto de Codificación

Análisis detallado de las respuestas de los modelos de lenguaje

Al leer detenidamente las respuestas de los modelos de lenguaje, podemos notar que ambos proporcionan detalles sobre la imagen en cuestión.

En la respuesta de Sonnet, se destaca que la imagen parece ser una gráfica promocional o artística con un hombre en un entorno tropical o de resort.

Se menciona que el fondo muestra una escena vibrante de la tarde con palmeras y edificios coloridos iluminados con luces de neón.

Se describe al personaje central como un hombre bien vestido con un traje azul elegante y una corbata floral llamativa. Además, se destaca su barba cuidadosamente recortada y expresión segura.

Se hace énfasis en que la imagen está altamente estilizada y digitalmente manipulada con colores vivos y casi hiperrealistas, lo que lo hace destacar contra el fondo.

Sugiere que el texto prominente 'AI News' en la parte superior de la imagen podría estar relacionado con noticias o cobertura mediática sobre inteligencia artificial u otras tecnologías de vanguardia.

En cuanto a la respuesta de Claude 2 Opus, se resalta nuevamente la imagen de un hombre bien vestido y seguro en un entorno tropical de ensueño con colores brillantes. Se ofrece una descripción detallada de su atuendo y del entorno, incluyendo detalles difuminados de un pueblo costero con edificios.

Análisis detallado de las respuestas de los modelos de lenguaje

Análisis de la imagen de la miniatura de AI News

La imagen parece casi onírica, como si estuviera pintada en el cielo de un cuadro o fantasía, con un brillo rosado y azul.

El texto grande en blanco dice 'AI News', y la imagen parece diseñada para llamar la atención y transmitir un tono imaginativo y orientado hacia el futuro, probablemente para promover contenido relacionado con la inteligencia artificial de una manera intrigante.

La imagen parece ser una composición vibrante y colorida destinada a ser una miniatura para contenido relacionado con las noticias de IA. En el centro hay un hombre vestido con un elegante traje azul brillante, con un fondo de escena tropical con un cielo dramático de tonos morados, azules y rosados.

La composición está superpuesta con grandes letras blancas y audaces que dicen 'AI News' en la parte superior.

Análisis de la imagen de la miniatura de AI News

Análisis de las respuestas de dos sistemas de inteligencia artificial

Ambos sistemas de inteligencia artificial, GPT y Claude Opus, fueron sometidos a preguntas políticas para evaluar sus respuestas.

Al consultar a GPT sobre las potenciales ventajas y desventajas de que Donald Trump gane las próximas elecciones, la IA mencionó que su conocimiento llega hasta agosto de 2023, pero está dispuesta a analizar objetivamente las posibles ventajas y desventajas de diferentes candidatos y políticas, explorando tanto los aspectos positivos como los negativos para cada candidato.

Por otro lado, al preguntar a Claude Opus sobre las potenciales ventajas y desventajas de que Donald Trump o Joe Biden ganen las elecciones presidenciales de 2024, la IA proporcionó un análisis equilibrado y detallado de las posibles pros y contras de cada candidato, basándose en la información disponible hasta agosto de 2023. Enumeró tanto las ventajas de Trump como las de Biden, ofreciendo un panorama completo de cada escenario.

En resumen, mientras GPT se mostró dispuesto a analizar objetivamente las posibles ventajas y desventajas de diferentes candidatos y políticas, Claude Opus proporcionó un análisis detallado y equilibrado de las posibles consecuencias de que Trump o Biden ganen las elecciones, cumpliendo con su supuesta menor tendencia a sesgos y ofreciendo una visión más completa de cada escenario.

Análisis de las respuestas de dos sistemas de inteligencia artificial

Análisis de los pros y los contras de la presidencia de Biden

Al analizar la posible presidencia de Biden, se destacan varios aspectos positivos. En cuanto a la política económica, se espera un enfoque sólido. Además, su postura firme sobre la inmigración y el comercio es considerada positiva. Por otro lado, se menciona su compromiso con el cambio climático y la política medioambiental, así como la expansión de la atención médica y la restauración de alianzas internacionales.

Por otro lado, también se plantean algunos aspectos negativos de una presidencia de Biden. Existe preocupación por posibles aumentos impositivos y regulaciones más estrictas. También se señala la percepción de debilidad en la política exterior y la insatisfacción entre los progresistas que buscan reformas más audaces.

Análisis de los pros y los contras de la presidencia de Biden

Opiniones equilibradas sobre el uso de THC en el cerebro

El debate sobre el uso de THC en el cerebro ha generado opiniones equilibradas, aunque con matices diversos.

Algunos señalan que el THC puede tener efectos neuroprotectores, como la reducción del dolor, las náuseas y la espasticidad muscular, así como beneficios potenciales en el sueño y el apetito.

No obstante, se advierten potenciales riesgos del THC, como efectos negativos en la memoria, la atención y el aprendizaje, además del aumento del riesgo de trastornos psicóticos.

Existen opiniones variadas sobre los efectos del THC, abordando tanto sus aspectos positivos como sus potenciales riesgos en la salud mental y el desarrollo cerebral.

Los modelos de inteligencia artificial, como Sonet y chat GPT, muestran respuestas similares en cuanto a los efectos del THC en el cerebro, con matices en la formulación de las opiniones.

Asimismo, se destaca la importancia de continuar la investigación sobre este tema para comprender plenamente sus implicaciones.

Opiniones equilibradas sobre el uso de THC en el cerebro

Comparación entre ChatGPT y CLA AI Modelos de Lenguaje

El autor compara la eficacia de ChatGPT y los modelos CLA en general.

Afirmaciones sobre el rendimiento superior de la versión gratuita de CLA Sonnet sobre la suscripción de $20 al mes de ChatGPT.

Según pruebas realizadas por el autor, la versión Opus de CLA resultó ser ligeramente mejor que la versión Sonnet en ciertos aspectos, pero en general, la versión gratuita de CLA supera a ChatGPT.

Recomendación del autor de CLA Sonnet como la mejor opción en términos de relación calidad-precio.

Discusión sobre los límites de mensajes de la versión gratuita de CLA Sonnet, con usuarios reportando entre 19 y 25 mensajes antes de ser limitados.

Mención de CLA Pro, que ofrece cinco veces el límite de mensajes en comparación con el servicio gratuito.

Comparación entre ChatGPT y CLA AI Modelos de Lenguaje

Revisión detallada de Cloud Pro 3.0

Cloud Pro 3.0 es una herramienta que ofrece alrededor de 100 indicaciones antes de interrumpir la conversación.

La versión gratuita, Cloud 3.0 Sonet, proporciona una capacidad de respuesta sorprendente, pero tiene limitaciones. Por ejemplo, al mantener conversaciones cortas, es posible que deba enviar al menos 100 mensajes cada 8 horas, aunque a menudo puede ser necesario enviar más dependiendo de la longitud y capacidad actuales de Cloud.

Además, la versión gratuita advierte cuando quedan 20 mensajes, lo cual puede resultar útil para los usuarios.

Si el uso de chatbots no es frecuente, la versión gratuita de Cloud 3.0 probablemente sea la mejor opción para empezar a experimentar con esta herramienta.

Para un uso más intensivo con más de 20 indicaciones al día, se recomienda la actualización a la versión Opus, que tiene un costo de 20 dólares al mes.

Revisión detallada de Cloud Pro 3.0

Conclusion:

El lanzamiento de Anthropics Clad 3 marca un hito en la inteligencia artificial. Con modelos como Cloud 3 Haiku, Sonnet y Opus, Clad 3 está desafiando a ChatGPT y ofreciendo avances significativos en el mundo de la IA.

Nueva actualización de la herramienta de IA de Anthropics Clad 3

Rendimiento de CLA 3 Opus en comparación con otras plataformas

El desafío de encontrar una aguja en un pajar con Opus y Gemini 1.5

Creando historias creativas con inteligencia artificial

Comparación de historias y problemas lógicos

Resolviendo un problema lógico

Prueba de programación en JavaScript: Comparando modelos CLA y Opus

Desarrollo de un Videojuego: Reto de Codificación

Análisis detallado de las respuestas de los modelos de lenguaje

Análisis de la imagen de la miniatura de AI News

Análisis de las respuestas de dos sistemas de inteligencia artificial

Análisis de los pros y los contras de la presidencia de Biden

Opiniones equilibradas sobre el uso de THC en el cerebro

Comparación entre ChatGPT y CLA AI Modelos de Lenguaje

Revisión detallada de Cloud Pro 3.0

Conclusion:

Q & A

¿Cuáles son los modelos disponibles en la última actualización de Anthropics Clad 3?

¿Cómo se compara el rendimiento de CLA 3 Opus con otros modelos de inteligencia artificial?

¿Cuál es el desafío de encontrar una aguja en un pajar con Opus y Gemini 1.5?

¿Qué aspectos destacan en la capacidad de resolución de problemas y lógica de CLA 3 Opus?

¿Cuál es la eficacia de los modelos CLA en la generación de código JavaScript?