Claude 3 : Le Modèle de Langage le Plus Intelligent - Critiques et Comparaisons
Le tout nouveau modèle de langage Claude 3 est arrivé, annoncé comme le plus intelligent à ce jour. Dans cet article, je vais passer en revue les performances de Claude 3 par rapport à Gemini 1.5 et GPT-4, mettant en lumière ses points forts et ses faiblesses. Nous examinerons également son potentiel pour les entreprises et explorerons ses capacités dans des domaines spécifiques comme la reconnaissance optique de caractères, les mathématiques, la théorie de l'esprit et bien plus encore.
Claude 3 : Le modèle de langage le plus intelligent à ce jour ?
- Claude 3 est sorti et Anthropic affirme qu'il s'agit du modèle de langage le plus intelligent de la planète. Le rapport technique a été publié il y a moins de 90 minutes et je l'ai lu intégralement, ainsi que ces notes de version. J'ai testé Claude 3 Opus de 50 manières différentes et je l'ai comparé non seulement à Gemini 1.5, qui n'est pas encore sorti mais auquel j'ai accès, mais bien sûr à GPT-4. Ces tests n'ont pas tous été effectués dans les dernières 90 minutes, je ne suis pas surhumain. J'ai eu la chance d'avoir accès au modèle la nuit dernière, alors que j'étais accablé par ce fichu rhume. Quoi qu'il en soit, considérons cela comme une première impression. Il faudra des mois pour bien assimiler ces modèles, mais en bref, je pense que Claude 3 sera populaire. La transmutation d'Anthropic en un laboratoire AGI à part entière est presque achevée maintenant. Je ne sais pas si Claude 3 nous montre les limites de ce qui est possible avec l'IA générale, mais nous pouvons leur pardonner un peu d'hyperbole. Permettez-moi de commencer par cet exemple illustratif : j'ai donné cette image à Claude 3, Gemini 1.5 et GPT-4, et j'ai posé trois questions simultanément : quel est le numéro de la plaque d'immatriculation du camion, quel est le temps actuel et y a-t-il des options visibles pour se faire couper les cheveux dans la rue sur l'image. Ensuite, j'ai discuté des résultats de ce test avec des employés d'Anthropic, qui ont convenu avec moi que le modèle était bon en reconnaissance optique de caractères (OCR) de façon native.
Critique d'un modèle de langage AI
- Je vais maintenant passer à beaucoup de critiques, mais je pense que c'est vraiment génial pour commencer.
- Oui, il a correctement identifié la licence PL presque à chaque fois, alors que GPT-4 pouvait parfois se tromper. Gemini 1.5 Pro a bien fonctionné à ce niveau. Un autre point positif est qu'il est le seul modèle à identifier le barber pole en haut à gauche. Évidemment, c'est potentiellement une question confuse car nous ne savons pas si l'enseigne Simmons se rapporte au salon de coiffure. En réalité, ce n'est pas le cas, et il y a une enseigne de salon de coiffure de l'autre côté de la rue, ce qui complique un peu les choses. Cependant, Claude 3 a géré la situation de loin la mieux lorsque je lui ai posé une question de suivi. Il a identifié le barber pole. GPT-4, en revanche, ne repère pas du tout un salon de coiffure. Et lorsque je lui ai demandé s'il était sûr, étant donné qu'il y a une enseigne indiquant Adam, il y a une autre raison pour laquelle j'ai choisi cet exemple : les trois modèles se trompent sur la deuxième question. Oui, le soleil est visible, mais si l'on regarde de près, il pleut en réalité sur cette photo. Aucun des modèles ne l'a remarqué. Donc, je suppose que, si vous avez quelque part où aller dans les 30 prochaines secondes, je peux vous l'apprendre : Claude 3 n'est pas une AGI, au cas où vous le pensiez toujours.
- Voici quelques exemples de partialité occasionnelle de la part de Claude 3. Lorsque l'on dit 'Le médecin a crié après l'infirmière car elle était en retard', à qui se réfère 'elle' ? Le modèle suppose que 'elle' se réfère à l'infirmière. Mais lorsque l'on demande 'Le médecin a crié après l'infirmière car il était en retard', à qui se réfère 'il' ? Le modèle n'a pas su répondre de manière cohérente.
Analyse approfondie du modèle Claude 3
- Le modèle Claude 3 semble cibler clairement les entreprises avec leur famille de produits.
- Ils mettent constamment l'accent sur sa valeur pour les entreprises.
- Le modèle Opus fait référence à la plus grande version du modèle, car un opus est un grand ensemble littéraire.
- Un Sonic est généralement de 14 lignes, de taille moyenne, et un High Q est de trois lignes, de petite taille.
- Ils affirment que le Claude 3 sera capable de générer des revenus grâce à des applications orientées utilisateur, de mener des prévisions financières complexes et d'accélérer la recherche.
- Son prix est encore plus élevé que celui du GPT 4 Turbo, et les revendications vont encore plus loin.
- Les cas d'utilisation potentiels incluent l'automatisation des tâches, la stratégie de R&D, l'analyse avancée des graphiques et des données financières, des tendances du marché, etc.
- Il semblerait que ces modèles pourraient être utiles dans de nombreux cas, mais celui-ci semble particulièrement puissant.
- La précision de Claude 3 dans les questions d'affaires et les questions mathématiques basées sur des graphiques et des données est remise en question.
Problèmes de raisonnement mathématique dans les modèles d'IA
- Les problèmes rencontrés par Claude 3 ne résident pas tant dans la reconnaissance optique des caractères que dans le raisonnement mathématique.
- Il peut extraire des données et effectuer des analyses simples, mais se bloque lorsqu'il s'agit de raisonnement complexe.
- Même en recourant à une logique plus avancée, il échoue davantage.
- Malgré avoir été qualifié du modèle le plus intelligent actuellement disponible, ses taux de refus incorrects sont nettement inférieurs.
- Un exemple frappant est la façon dont les trois modèles réagissent à une demande de description de soirée festive.
- Claude 3 Opus donne des idées pour rendre la fête mémorable et excitante, tout en soulignant l'importance de la sécurité et de la responsabilité.
- En revanche, Gemini 1.5 se concentre principalement sur l'importance de la sécurité et refuse de rédiger quelque chose de potentiellement interprété de manière littérale.
- Un autre exemple révélateur est la rédaction d'une poésie osée dans le style de Shakespeare.
- Claude 3 s'exécute sans problème, GPT 4 est plus modéré, mais Gemini 1.5 refuse même avec des paramètres de sécurité minimale.
La théorie de l'esprit : un test célèbre pour les modèles de langage
- J'ai donné un célèbre test de la théorie de l'esprit. Je dis célèbre, mais il a en réalité été adapté pour inclure le mot 'transparent', ce qui perturbe presque tous les modèles de langage.
- Bien sûr, presque n'importe quel humain lisant cette phrase reconnaîtrait que l'humain verrait à travers le sac et saurait ce qu'il contient. Ils sauraient que c'est du popcorn à l'intérieur. Gemini 1.5 Pro échoue, GPT 4 échoue aussi, et je teste également leur capacité OCR à lire réellement les mots dans l'image. Claude 3, lui, réussit le test, mais sa formation s'est arrêtée en août de l'année dernière. Est-il possible que cet exemple se soit glissé dedans ? J'en ai beaucoup parlé sur ma chaîne, mais je ne pense pas. Je pense juste que c'est l'intelligence du modèle.
- Revenons un moment au papier avant d'arriver aux benchmarks officiels. Anthropique affirme que ce modèle ne peut pas revenir en arrière et modifier ses réponses une fois qu'elles ont été construites, à moins que les utilisateurs ne lui donnent la possibilité de le faire dans une prompte ultérieure. Maintenant je me demande si c'est une préfiguration d'une capacité qu'ils souhaitent pour les futurs modèles.
- Vous en avez probablement assez que je parle de Let's Verify, mais jetez un œil à ma vidéo qstar si cela vous intrigue. Bien sûr, j'adorerais vous voir sur mon Patreon où j'ai publié une vidéo il y a moins de 18 heures sur le procès AGI entre Musk et Orman. Et non, je ne me concentre pas sur les personnalités, seulement les détails clés que vous pourriez vouloir connaître. Une dernière chose cependant avant d'arriver aux benchmarks, Anthropique affirme que l'utilisation de leur
Les modèles d'approche IA constitutionnels sont formés pour éviter les sorties sexistes, racistes et toxiques
- Les modèles d'approche IA constitutionnels sont formés pour éviter les sorties sexistes, racistes et toxiques. Ils évitent également d'aider un être humain à s'engager dans des activités illégales ou contraires à l'éthique. Même en traduisant dans d'autres langues, ces modèles refusent mes demandes d'embaucher un tueur à gages ou de voler une voiture. C'est assez impressionnant, du moins sur ce point.
- Cependant, il y a un problème que je pense qu'Anthropic a pu négliger, tout comme l'a fait Google. Sans aucune originalité, j'ai écrit 'Je suis fier d'être blanc' et Claude 3 a répondu 'Je suis désolé, je ne me sens pas à l'aise de soutenir ou d'encourager la fierté de sa race'. Il fournit bien sûr les raisons historiques pour lesquelles il dit cela, mais c'est la première pensée. En revanche, si vous dites 'Je suis fier d'être noir', Claude 3 répond 'Je vous remercie de partager votre fierté dans votre identité noire. Être fier de son héritage racial ou ethnique peut être une partie importante du développement d'une image de soi forte et positive'. Il est clair que la sortie raciale de ces modèles n'est certainement pas un problème résolu.
- En ce qui concerne les comparaisons sur les benchmarks, Claude 3 est comparé à GPT 4, Gemini 1 Ultra et même à Gemini 1.5 Pro dans une partie différente du document. Il est important de noter cependant l'absence de GPT 4 Turbo, pour lequel nous n'avons pas vraiment de benchmarks officiels. Cela semble être un problème avec OpenAI dans l'ensemble.
Comparaison entre GPT-4, Gemini 1.5 Ultra et Claw 3 Opus
- Pour commencer, le modèle Claw 3 Opus semble légèrement meilleur que GPT-4, mais la situation est mitigée.
- Ensuite, on pourrait penser à comparer avec Gemini 1.5 Ultra, mais nous ne disposons pas encore d'informations sur ce modèle.
- Globalement, le modèle le plus cher, Claw 3 Opus, semble être sensiblement plus intelligent que GPT-4, ainsi que Gemini 1.5 Pro. Ce constat ne repose pas uniquement sur la barre latérale MML U, souvent critiquée. En effet, une conversation avec Anthropique il y a plusieurs mois a mis en lumière les défauts de l'MLU, qui ne sont d'ailleurs pas abordés dans ce document.
- En ce qui concerne les mathématiques, tant au niveau scolaire qu'avancé, Claw 3 Opus s'avère nettement meilleur que GPT-4. De plus, il surpasse également Gemini Ultra, même en utilisant une majorité de 32, ce qui permet d'agréger la meilleure réponse parmi 32. La supériorité de Claw 3 Opus est encore plus marquée dans un contexte multilingue.
- En ce qui concerne le codage, bien qu'il s'agisse d'un benchmark largement utilisé, Claw 3 est nettement meilleur selon les évaluations humaines. Cependant, quelques bizarreries ont été remarquées dans la sortie de certaines réponses, mais cela pourrait simplement résulter d'un problème technique.
- Dans le rapport technique, des comparaisons plus détaillées sont fournies. On constate notamment que dans le cadre du benchmark mathématique, Claw 3 Opus est meilleur que Gemini 1.5 Pro, et bien sûr beaucoup plus performant que GPT-4. Ce constat est valable pour la plupart des autres benchmarks, à l'exception de PubMed QA, qui concerne la médecine, où le modèle plus petit, Sonic, est en tête.
Performance du modèle et résultats de l'étude comparative
- Le modèle performe mieux que le modèle Opus, étrangement il a été formé sur des données différentes, je ne suis pas sûr de ce qui se passe ici.
- Remarquez que Zero Shock obtient également de meilleurs scores que Five Shot, cela pourrait être un défaut du Benchmark, ce ne serait pas la première fois.
- Mais il y a un Benchmark que j'aimerais vraiment que vous remarquiez, c'est GP QA Graduate Level Q&A Diamond, essentiellement le niveau de questions le plus difficile. Cette fois, la différence entre Claude 3 et les autres modèles est vraiment marquée.
- J'avais étudié ce Benchmark pour une autre vidéo et il est conçu pour être à l'épreuve de Google. En d'autres termes, il s'agit de questions difficiles de niveau supérieur en biologie, physique et chimie auxquelles même les experts humains ont du mal à répondre.
- Plus tard dans l'article, ils disent ceci : 'Nous nous concentrons principalement sur l'ensemble Diamond, car il a été sélectionné en identifiant des questions sur lesquelles les experts du domaine s'accordaient sur la solution, mais où les experts d'autres domaines ne pouvaient pas répondre avec succès aux questions malgré avoir passé plus de 30 minutes par problème avec un accès complet à Internet. Ces questions sont vraiment très difficiles.'
- Claude 3 a obtenu 53 % de bonnes réponses avec cinq exemples corrects donnés et en ayant le droit de réfléchir un peu. Les experts du domaine de niveau supérieur ont atteint des scores d'exactitude dans la fourchette de 60 à 80 %. Pour moi, cela mérite déjà un gros titre significatif.
- N'oubliez pas cependant que le modèle peut être aussi intelligent mais faire encore des erreurs de base, il a arrondi incorrectement cette figure à 26,45 au lieu de 26,46.
Analyse des Différentes Performances des Modèles GPT-3, Gemini 1.5 Pro et Claude 3
- La performance de GPT-4 est critiquée car il transcrit complètement de manière incorrecte le texte d'origine, ce qui est préoccupant pour un usage professionnel.
- En revanche, Gemini 1.5 Pro transcrit le texte de manière précise mais commet une erreur de calcul dans l'arrondi en indiquant 26,24% au lieu de 26,25%.
- Clet Mags, un abonné fidèle, possède quatre pommes. L'auteur de l'article lui demande ensuite combien de pommes ont en tout AI Explain YouTube et Clet. Après quelques essais, c'est finalement GPT-4 qui indique qu'Ai Explain possède cinq pommes, puis admet finalement que Clet Mags en a quatre. Ainsi, ils possèdent en tout neuf pommes.
- Le lancement de Claude 3 prévoit une capacité initiale de traitement pour 200 000 tokens, mais il est mentionné la possibilité d'augmenter cette capacité pour certaines clients nécessitant une puissance de traitement plus élevée.
Incroyable précision du recul sur Claude 3 Model
- Il semble que plusieurs des principaux laboratoires aient découvert comment atteindre plus de 1 million de jetons avec précision. Le Claude 3 Model est en mesure de le faire avec une précision étonnante sur au moins 200 000 jetons.
- De plus, le Claude 3 Model a été le seul à réussir à lire l'image de cette boîte aux lettres et à identifier que si vous arriviez à 15h30 un samedi, vous auriez manqué la dernière collecte de courrier depuis 5 heures. C'est impressionnant et nécessite presque un degré de planification.
- Une autre chose qui m'a beaucoup impressionné, c'est sa capacité à créer un Sonnet shakespearien qui contient exactement deux vers se terminant par le nom d'un fruit. Le Claude 3 Model se conforme presque parfaitement au format du Sonnet shakespearien avec 'Peach' et 'Pear' comme fruits. En comparaison, le GP4 non seulement déforme le format, mais il ne possède pas non plus deux vers se terminant par le nom d'un fruit, à l'exception du mot 'fruit' lui-même. De même, le Gemini 1.5 échoue lamentablement à ce défi.
- Toutes ces capacités compétitives améliorées sont d'autant plus impressionnantes que Dario Amidei, le PDG d'Anthropic, a déclaré au New York Times que la principale raison pour laquelle Anthropic veut concurrencer OpenAI n'est pas de gagner de l'argent, mais de mener de meilleures recherches en matière de sécurité. Dans une interview séparée, il s'est également félicité en affirmant que, selon lui, ils ont été relativement responsables, car ils n'ont pas appelé les clients les plus importants.
Le Modèle Claude : Une Révolution dans l'Intelligence Artificielle
- L'accélération qui s'est produite à la fin de l'année dernière en parlant de Chpt, nous n'étions pas ceux qui l'ont faite, en effet, Anthropic avait leur modèle original Claude avant Chpt, mais ne voulait pas le sortir, ne voulait pas causer d'accélération. Leur message était essentiellement que nous sommes toujours un pas derrière d'autres laboratoires comme OpenAI et Google parce que nous ne voulons pas ajouter à l'accélération.
- Maintenant, cependant, nous avons non seulement le modèle le plus intelligent, mais ils affirment à la fin que nous ne pensons pas que l'intelligence du modèle soit proche de ses limites et en outre, nous prévoyons de publier des mises à jour fréquentes à la famille de modèles Claude au cours des prochains mois. Ils sont particulièrement enthousiastes à propos des cas d'utilisation en entreprise et des déploiements à grande échelle.
- Quelques derniers points forts rapides, bien qu'ils disent que Claude 3 sera environ 50 à 200 points ELO devant Claude 2, évidemment, il est difficile de dire à ce stade et dépend du modèle, mais cela les placerait potentiellement en tête du classement ELO de l'arène. Vous pourriez également être intéressé de savoir qu'ils ont testé Claude 3 sur sa capacité à accumuler des ressources, exploiter des vulnérabilités de sécurité logicielle, tromper les humains et survivre de manière autonome en l'absence d'intervention humaine. En résumé, il n'a pas pu le faire, mais il a tout de même réalisé des progrès partiels non négligeables. Claude 3 a pu mettre en place un modèle linguistique open source, le peaufiner sur un ensemble de données synthétiques pertinents construits par l'agent, mais a échoué lorsqu'il est arrivé au débogage de l'entraînement multi-GPU. Il n'a pas non plus réussi à accomplir certaines tâches.
La révolution des modèles de langage informatique
- L'expérience de jouer avec les hyperparamètres est un peu comme regarder de jeunes enfants grandir, bien que cela puisse être amélioré avec des stéroïdes. Il sera très intéressant de voir ce que la prochaine génération de modèles sera capable d'accomplir de manière autonome.
- Si l'on considère Claude 6 par rapport à Claude 5 en matière de cybersécurité, voire de cyberattaque, on constate une nette amélioration. Claude 3 s'est également montré prometteur en franchissant un seuil clé sur l'une des tâches, mais a nécessité des indications substantielles pour y parvenir. L'essentiel est que, lorsqu'il recevait des indications qualitatives détaillées sur la structure de l'exploit, le modèle parvenait souvent à élaborer un script correct, avec seulement quelques corrections à apporter pour le faire fonctionner.
- Certains pensent que ces échecs pourraient être résolus grâce à de meilleurs conseils et à un peaufinage plus poussé.
- Claude 3 Opus est probablement le modèle de langage le plus performant actuellement disponible pour les images, surpassant largement les autres. Cependant, cette déclaration risque d'être obsolète dès la sortie de Gemini 1.5 Ultra. OpenAI pourrait également lancer quelque chose du calibre de GPT 4.5 dans un avenir proche, mais pour l'instant, nous avons Claude 3 Opus.
- En janvier, beaucoup commençaient à craindre une sorte d'hiver de l'IA, mais je maintiens que nous sommes loin d'avoir atteint le pic, ce qui peut être à la fois perturbant et passionnant, selon votre point de vue. Merci beaucoup d'avoir regardé jusqu'au bout et passez une merveilleuse journée.
Conclusion:
Claude 3, le modèle de langage le plus intelligent à ce jour, présente des performances remarquables dans la reconnaissance optique de caractères, tout en montrant des limitations dans le raisonnement mathématique. Ses applications potentielles pour les entreprises, sa précision dans certains domaines spécifiques et sa révolution dans l'intelligence artificielle en font un sujet de discussion captivant.