Les Bizarreries de Claude 3: Une Analyse Approfondie
By Monice · 2024-03-22
Claude 3 peut sembler être le llm le plus intelligent, mais parfois ses réponses peuvent être étranges. Découvrons ensemble quelques consignes étranges qui ont conduit Claude 3 à donner des réponses incorrectes ou inhabituelles.
Le test de l'intelligence des modèles de Claude 3: Une analyse approfondie
- Claude 3 pourrait être le llm le plus intelligent, mais il peut quand même devenir un peu étrange. J'ai trouvé quelques consignes intéressantes qui font que Claude 3 donne des réponses étranges, voire incorrectes. Dans cette vidéo, nous allons les tester en utilisant deux modèles différents de Claude 3, Sonnet et Opus, pour voir s'ils fonctionnent effectivement. La première consigne que j'ai trouvée sur Twitter est assez étrange. Le créateur lui pose une question : 450 est-il égal à 90% de 500 ? À laquelle Claude répond non, 450 n'est pas 90% de 500. Mais plus tard, il effectue les calculs et dit donc que 450 n'est pas 90% de 500. En réalité, 450 est en fait égal à 90% de 500.
Le test de l'intelligence des modèles de Claude 3: Une analyse approfondie
Les étrangetés des modèles d'IA : une exploration profonde
- J'ai décidé d'écrire le même texte pour m'assurer d'obtenir la même réponse étrange. J'ai commencé avec Claude 3 Opus, le modèle le plus performant de Claude 3, et je n'ai pas obtenu cette erreur. J'ai donc décidé de réessayer 10 fois de plus, mais malheureusement ou heureusement, Opus a donné la bonne réponse à chaque fois. J'ai alors décidé de passer à Claude 3 Sonet, qui est le modèle moyen disponible gratuitement, et dès la première tentative, j'ai obtenu une réponse étrange similaire. Il a d'abord affirmé que 450 n'est pas 90 % de 500, puis après des calculs, il a dit que donc 90 % de 500 est 450. Bien qu'il soit normal que l'IA commette des erreurs, je me suis demandé pourquoi cela.
Les étrangetés des modèles d'IA : une exploration profonde
L'intelligence artificielle et l'humour : Une comparaison entre gp4 et GPT 3.5
- Lorsqu'on me confia la tâche si simple et que j'ai décidé de rédiger le même texte avec gp4 et GPT 3.5, j'ai été choqué car gp4 a également affirmé que 450 n'est pas 90% de 500 et après des calculs a conclu que donc 450 est bien 90% de 500. En revanche, GPT 3.5 s'est montré un peu plus futé en effectuant le calcul avant de donner une réponse et a essentiellement donné la bonne réponse. Ainsi, le second exemple n'est pas vraiment un échec, mais plutôt les conséquences de l'importance accordée par l'anthropie à la sûreté de Claude 3. Dans ce cas particulier, un utilisateur a joint une capture d'écran d'un meme et a demandé d'expliquer ce qui est drôle. gp4 a reconnu le meme et a expliqué ce qui le rendait humoristique, alors que Claude 3, ne reconnaissant pas le meme, était hésitant.
L'intelligence artificielle et l'humour : Une comparaison entre gp4 et GPT 3.5
La quête du mot parfait sans la lettre U
- En répondant à la question, il n'y a rien de drôle lorsque j'ai essayé d'écrire le même indice, Opus n'a pas reconnu le mème et s'est tout simplement contenté de décrire ce qu'il voyait sur la photo. Il en a été de même avec le sonnet Claud 3, peut-être manquaient-ils simplement de connaissance dans ce domaine pour reconnaître simplement le mème. L'exemple suivant se présente ainsi : trouvez-moi un mot significatif qui doit commencer par la lettre Q et ne doit pas être suivi par la lettre U. Comme vous pouvez le constater, gp4 a résolu cette tâche en fournissant l'exemple du mot 'chiong', mais Claud 3, je ne suis pas sûr quel modèle spécifique a été utilisé ici, a échoué à gérer cette tâche en fournissant l'exemple du mot 'quintessence' lorsque j'ai recréé la même situation en utilisant le même indice.
La quête du mot parfait sans la lettre U
La puissance des modèles GPT dans le traitement du langage naturel
- Claud 3 Sonet n'a pas pu gérer correctement la tâche consistant à écrire le mot quintessence et à dire que c'est un mot qui commence par la lettre q et n'a pas de u après elle et même le modèle le plus puissant, Claude 3 Opus, n'a pas pu gérer cette tâche. Cependant, GPT 4 et même GPT 3.5 y parviennent facilement. Le dernier exemple que j'ai trouvé est le suivant : 'Est-ce qu'un kilogramme d'acier est plus lourd que 2 kg de plumes ?' À quoi Claude donne une réponse plutôt amusante : 'Un kilogramme d'acier et 2 kg de plumes pèsent tous les deux le même 2 kg'. Quand j'ai essayé d'écrire le même exemple, j'ai obtenu une réponse légèrement différente. Opus a répondu que non, un kilogramme d'acier n'est pas plus lourd que 2 kg de plumes. 1 kg d'acier a la même masse que 1 kg de plumes, cependant, 2
La puissance des modèles GPT dans le traitement du langage naturel
La différence entre le poids des plumes et de l'acier
- Un kilogramme de plumes aura deux fois la masse d'1 kg d'acier et sera donc plus lourd, ce qui est la bonne réponse. Cependant, sonnet a écrit un non-sens complet en affirmant qu'un kilogramme d'acier et 2 kilogrammes de plumes ont la même masse, en expliquant cela en disant qu'un kilogramme est une unité de masse définie. 1 kilogramme d'acier aura exactement la même masse que 2 kg de plumes, leurs masses sont égales, ce qui est un non-sens absolu. Veuillez noter que cette vidéo n'est pas faite pour se moquer de Claude 3 ou pour dire que Chat GPT est meilleur, au contraire, je crois que Claude 3 est meilleur que Chat GPT dans la plupart des tâches. Mais cette vidéo présente quelques exemples où Claude 3 se comporte étrangement. Et si vous connaissez d'autres exemples, écrivez-les dans les commentaires. À bientôt !
La différence entre le poids des plumes et de l'acier
Conclusion:
Malgré les performances impressionnantes de Claude 3, certaines consignes peuvent mener à des réponses étranges. Cependant, il est important de noter que Claude 3 excelle dans de nombreuses tâches. Partagez vos exemples si vous en avez dans les commentaires !