Claude 3 Sonet vs Opus: AI-modellen in de war met vreemde prompts

By Monice · 2024-03-22

In dit artikel duiken we in de wereld van Claude 3 en de vreemde antwoorden die het geeft op ongebruikelijke prompts. Ontdek hoe zelfs geavanceerde AI-modellen soms fouten kunnen maken.

Het testen van de intelligentie van Clae 3 met vreemde prompts

Clae 3 wordt beschouwd als een van de meest intelligente AI-modellen, maar zelfs zij kan soms wat vreemde antwoorden geven. In een recent onderzoek zijn interessante prompts gebruikt die Clae 3 tot rare of zelfs foute antwoorden hebben gedreven. In deze video gaan we deze prompts testen met behulp van twee verschillende modellen van Clae 3, namelijk Sonnet en Opus. We zullen zien of ze daadwerkelijk werken. Een van de prompts die ik tegenkwam op Twitter was toen Clae 3 een nogal vreemd antwoord gaf op de vraag of 450 90% van 500 is. Clae 3 antwoordde in eerste instantie 'nee, 450 is niet 90% van 500'. Maar later berekende het alsnog en concludeerde dat 450 wel degelijk gelijk is aan 90% van 500. Een intrigerend voorbeeld van hoe zelfs een geavanceerd AI-model als Clae 3 soms fouten kan maken.

Het testen van de intelligentie van Clae 3 met vreemde prompts

De mysterieuze antwoorden van kunstmatige intelligentie: een diepgaande analyse

Besloot om dezelfde prompt te schrijven om er zeker van te zijn dat ik hetzelfde vreemde antwoord krijg. Ik begon met Claude 3 Opus, het sterkste model van Claude 3, en kreeg deze fout niet. Ik besloot om het nog 10 keer te proberen, maar helaas of gelukkig beantwoordde Opus elke keer correct. Daarom besloot ik over te stappen naar Claude 3 Sonet, het gemiddelde model dat gratis beschikbaar is en bij de allereerste poging kreeg ik een soortgelijk vreemd antwoord waar eerst werd gezegd dat 450 niet 90% van 500 is en na berekeningen zei het vervolgens dat dus 90% van 500 450 is. Hoewel het normaal is voor AI om fouten te maken, vroeg ik me af waarom dit gebeurde.

De mysterieuze antwoorden van kunstmatige intelligentie: een diepgaande analyse

Het Belang van Nauwkeurigheid in Kunstmatige Intelligentie: Een Vergelijking tussen GP4 en GPT 3.5

Het gebeurde bij zo'n eenvoudige taak en besloot om dezelfde prompt in GP4 en GPT 3.5 te schrijven. Ik was geschokt omdat GP4 ook zei dat 450 niet 90% van 500 is en na berekeningen zei daarom dat 450 90% van 500 is, en GPT 3.5 was iets slimmer en deed de berekening voordat ze een antwoord gaf en gaf essentieel het juiste antwoord. Het tweede voorbeeld is dus niet echt een mislukking, maar eerder het gevolg van de sterke nadruk op de veiligheid van Claude 3 in dit specifieke geval. Een gebruiker voegde een screenshot toe van een meme en vroeg om uit te leggen wat er grappig aan was. GP4 herkende de meme en legde uit wat er grappig aan was, terwijl Claude 3, de meme niet herkennend, aarzelend was om het uit te leggen.

Het Belang van Nauwkeurigheid in Kunstmatige Intelligentie: Een Vergelijking tussen GP4 en GPT 3.5

Het ontcijferen van memes en betekenisvolle woorden zonder de letter U na de letter Q

Wanneer ik probeerde dezelfde opdracht te schrijven, herkende Opus de meme niet en beschreef alleen wat het zag op de foto. Hetzelfde gebeurde met het sonnet van Claud 3; misschien ontbreekt het hen eenvoudigweg aan kennis op dit gebied om de meme simpelweg te herkennen. Het volgende voorbeeld luidt als volgt: vertel me een betekenisvol woord dat moet beginnen met de letter q en niet gevolgd mag worden door de letter U. Zoals je kunt zien, volbracht gp4 deze taak door het voorbeeldwoord 'chiong' te geven. Maar Claud 3, ik weet niet welk specifiek model hier werd gebruikt, slaagde er niet in deze taak te voltooien en gaf als voorbeeldwoord 'quintessence'. Toen ik dezelfde situatie opnieuw creëerde met dezelfde opdracht...

Het ontcijferen van memes en betekenisvolle woorden zonder de letter U na de letter Q

De intelligentie van GPT-modellen versus menselijke fouten in tekstverwerking

Claud 3 Sonet kon de taak om het woord 'quintessential' correct te schrijven niet goed uitvoeren. Hij zei dat het een woord is dat begint met de letter q en geen u heeft en zelfs het sterkste model, Claude 3 Opus, kon deze taak niet aan. GPT-4 en zelfs GPT-3.5 konden het echter gemakkelijk aan. De laatste prompt die ik vond, luidt als volgt: 'Is een kilo staal zwaarder dan 2 kg veren?' Waarop Claude een nogal grappig antwoord geeft: 'Een kilogram staal en 2 kg veren wegen allebei hetzelfde: 2 kg.' Toen ik dezelfde prompt probeerde te schrijven, kreeg ik een iets ander antwoord. Opus antwoordde dat nee, een kilogram staal niet zwaarder is dan 2 kg veren. 1 kg staal heeft dezelfde massa als 1 kg veren, echter 2.

De intelligentie van GPT-modellen versus menselijke fouten in tekstverwerking

De massa van kilogram staal en kilogram veren vergelijken

Een kilogram veren zal twee keer de massa hebben van 1 kilogram staal en zal dus zwaarder zijn, wat het juiste antwoord is. Echter, Sonnet schreef complete onzin door te beweren dat een kilogram staal en 2 kilogram veren dezelfde massa hebben. Dit probeerde hij te verklaren door te zeggen dat een kilogram een gedefinieerde eenheid van massa is en dat 1 kilogram staal exact dezelfde massa zal hebben als 2 kg veren, wat absoluut onzin is. Let op, deze video is niet gemaakt om Claude 3 belachelijk te maken of te zeggen dat chat-GPT beter is, integendeel, ik geloof dat Claude 3 beter is dan chat-GPT voor de meeste taken. Deze video toont slechts een paar voorbeelden waar Claude 3 zich vreemd gedraagt. Als je nog meer voorbeelden kent, schrijf er dan over in de reacties. Tot de volgende keer!

De massa van kilogram staal en kilogram veren vergelijken

Conclusion:

De voorbeelden in dit artikel tonen aan dat zelfs geavanceerde AI-modellen zoals Claude 3 soms moeite hebben met ongebruikelijke prompts. Ontdek meer over hun reacties en laat ons weten wat jij ervan vindt!

Het testen van de intelligentie van Clae 3 met vreemde prompts

De mysterieuze antwoorden van kunstmatige intelligentie: een diepgaande analyse

Het Belang van Nauwkeurigheid in Kunstmatige Intelligentie: Een Vergelijking tussen GP4 en GPT 3.5

Het ontcijferen van memes en betekenisvolle woorden zonder de letter U na de letter Q

De intelligentie van GPT-modellen versus menselijke fouten in tekstverwerking

De massa van kilogram staal en kilogram veren vergelijken

Conclusion:

Q & A

Welke AI-modellen werden gebruikt in de test met vreemde prompts?

Wat was een vreemde reactie die Claude 3 gaf tijdens het testen met de prompt over 450 en 90% van 500?

Hoe reageerden andere AI-modellen zoals GP4 en GPT 3.5 op de prompt over 450 en 90% van 500?

Wat was het grappige antwoord van Claude op de vraag over het gewicht van een kilo staal en 2 kg veren?