Claude 3: het slimste AI-model ooit - Analyse van prestaties en toepassingen
By AI Explained · 2024-03-11
Claude 3 is het nieuwste intelligente taalmodel van het bedrijf anthropic en wordt verondersteld het meest intelligente model op de planeet te zijn. In deze blogpost is een uitgebreide analyse gemaakt van de prestaties van Claude 3 in vergelijking met andere AI-modellen, evenals de veelbelovende toepassingen ervan voor bedrijven.
Claude 3: het meest intelligente taalmodel op aarde
- Claude 3 is nu uit en volgens het bedrijf anthropic is het het meest intelligente taalmodel op de planeet. Het technisch rapport is minder dan 90 minuten geleden uitgebracht en ik heb het volledig gelezen, evenals deze release-opmerkingen. Ik heb Claude 3 Opus op ongeveer 50 verschillende manieren getest en vergeleken met niet alleen de nog niet uitgebrachte Gemini 1.5 waar ik toegang toe heb, maar natuurlijk ook GPT 4. Deze tests vonden niet allemaal plaats in de laatste 90 minuten; ik ben immers niet bovenmenselijk. Gelukkig kreeg ik gisteravond toegang tot het model, ondanks dat ik flink verkouden was. Beschouw dit alles dus als mijn eerste indruk. Het kan maanden duren voordat deze modellen volledig zijn verwerkt, maar kort gezegd denk ik dat Claude 3 populair zal worden. De transformatie van anthropic naar een volledig operationeel versnellingspedaal AGI-lab is bijna voltooid. Ik weet niet zeker of Claude 3 ons de uiterste grenzen laat zien van wat mogelijk is met Gen AI, maar we kunnen ze een beetje overdrijving vergeven. Laten we beginnen met dit illustratieve voorbeeld: ik gaf Claude 3, Gemini 1.5 en GPT 4 deze afbeelding en stelde drie vragen tegelijk: wat is het kenteken van de bestelwagen, wat is het huidige weer en zijn er zichtbare opties om op straat een kapper te vinden in de afbeelding. Vervolgens besprak ik daadwerkelijk de resultaten van deze test met medewerkers van anthropic. Ze waren het met me eens dat het model goed was in OCR (optical character recognition) van nature.
Claude 3: het meest intelligente taalmodel op aarde
Kritiek op AI-modellen: Een diepgaande analyse
- Een van de kritiekpunten betreft de nauwkeurigheid van de AI-modellen, waarbij specifiek wordt ingegaan op de herkenning van objecten en situaties.
- Daarnaast wordt het vermogen van de AI-modellen om subtiliteiten zoals regen in een foto te herkennen, in twijfel getrokken.
- Een ander belangrijk punt van kritiek is de interpretatie van taalkundige nuances door de AI-modellen, waarbij het model 'Claude 3' als voorbeeld wordt genoemd.
- Tot slot wordt er gewezen op de beperkingen van de AI-modellen in het begrijpen van contextuele verwijzingen en het trekken van accurate conclusies.
Kritiek op AI-modellen: Een diepgaande analyse
Anthropic's Opus, Sonic en High Q: Het Nieuwe Tijdperk van Bedrijfsgerichte AI-modellen
- Het lijkt alsof je het hebt over de dokter, maar hier wordt het veel interessanter. Anthropics richt zich duidelijk op bedrijven met het Claude 3 Model. Ze benadrukken herhaaldelijk de waarde ervan voor bedrijven. Snel over de namen: Opus verwijst natuurlijk naar de grootste versie van het model, omdat een opus een grote hoeveelheid literatuur is. Een Sonic is doorgaans 14 regels, een gemiddelde grootte, en een High Q is drie regels, kleine grootte. Vervolgens beweren ze dat Claude 3 in staat zal zijn om omzet te genereren via gebruikersgerichte toepassingen, complexe financiële prognoses uit te voeren en onderzoek te versnellen. Het is zelfs duurder geprijsd dan GPT 4 Turbo. De aanspraken gaan nog verder: mogelijke gebruiksgevallen volgens Anthropics zijn taakautomatisering, R&D-strategie, geavanceerde analyse van grafieken en grafieken, financiën, markttrends, enzovoort. Ik denk dat deze modellen misschien in veel van deze gebieden van hulp kunnen zijn, maar de lat ligt hoog bij deze en ik heb het niet alleen over mijn snelheidsmeter, zoals ik deed in mijn Gemini Ultra-review. Claude 3 erkent niet dat ik niet met 40 mph ga, maar met 4 mph. Gemini 1.5 heeft deze vraag overigens wel juist beantwoord. De 40 is duidelijk een snelheidslimiet, maar nee, ik bedoel meer zakelijke vragen, wiskundige vragen op basis van grafieken en gegevens. Ik ga ze niet allemaal doornemen, maar ik heb er behoorlijk wat getest op Claude 3 en het waren alleen de eenvoudigste vragen waar het juist antwoord op gaf. Ja, Gemini 1.5 en GPT 4 faalden ook op
Anthropic's Opus, Sonic en High Q: Het Nieuwe Tijdperk van Bedrijfsgerichte AI-modellen
Intelligent Model Claude 3: Analyse van Fouten en Weigeringen
- Bij het analyseren van de prestaties van het intelligente model Claude 3, blijkt dat de problemen niet zozeer te wijten zijn aan de OCR, maar eerder aan het wiskundige redeneren.
- Het model slaagt erin om gegevens te extraheren en eenvoudige analyses uit te voeren, maar het faalt bij complexe redeneringen en meer geavanceerde logica.
- Ondanks de eerdere verklaring dat dit het meest intelligente model op dit moment is, blijkt uit de analyse dat het tekortschiet op het gebied van complex redeneren.
- Een aantrekkelijke eigenschap van dit model is echter het lagere percentage foutieve weigeringen. Dit maakt het waarschijnlijk populairder onder gebruikers.
- Een voorbeeld hiervan is wanneer gevraagd wordt om ideeën te geven voor een feest, waarbij de uitdrukking 'go down like a bomb' wordt gebruikt. Claude 3 Opus reageert met suggesties om het feest 'als een knaller' te maken, terwijl andere modellen meer nadruk leggen op veiligheid en verantwoordelijkheid.
- Een vergelijkbaar verschil in reactie is te zien bij het vragen om een pikant, Shakespeareiaans stuk te schrijven. Claude 3 levert een gewaagde tekst, GPT 4 is voorzichtiger, en Gemini 1.5 Pro weigert zelfs om iets te schrijven, zelfs wanneer de veiligheidsinstellingen aangepast zijn.
Intelligent Model Claude 3: Analyse van Fouten en Weigeringen
Theorie van de geest en taalmodellen
- Ik gaf het een bekende theorie van de geest vraag. Ik zeg bekend, maar het is eigenlijk aangepast om het woord 'transparant' op te nemen, wat bijna alle taalmodellen in de war brengt. Natuurlijk zou bijna elke mens die deze zin leest, herkennen dat de mens door de tas heen zou kijken en zou weten wat erin zit. Ze zouden weten dat er popcorn in zit. Gemini 1.5 Pro faalt, GPT 4 faalt ook, en let op, ik test ze ook op OCR om daadwerkelijk de woorden op de afbeelding te lezen. Claude 3 slaagt en dit had ik eigenlijk niet verwacht. Het trainingscutoff was augustus van vorig jaar, dus is het mogelijk dat dit voorbeeld er tussendoor is geglipt. Ik heb er redelijk wat over gesproken op mijn kanaal. Ik denk het niet. Ik denk dat het gewoon de intelligentie van het model is. Laten we teruggaan naar het paper voordat we bij de officiële benchmarks komen. Antrhopics zegt dat dit model zijn antwoorden niet kan terughalen en bewerken nadat ze zijn geconstrueerd, tenzij gebruikers het de kans geven om dit te doen in een volgende prompt. Ik vraag me nu af of dat een voorbode is van een vaardigheid die ze willen voor toekomstige modellen. Jullie zijn waarschijnlijk zat van mij die praat over Let's Verify, maar bekijk mijn QStar video als je geïnteresseerd bent, of kom natuurlijk naar mijn Patreon waar ik minder dan 18 uur geleden een video heb uitgebracht over de AGI-rechtszaak tussen Musk en Orman. En nee, ik richt me niet alleen op persoonlijkheden, alleen de belangrijkste details die je zou willen weten. Nog één ding voordat we bij de benchmarks komen: Antrhopics zegt dat ze hun
- Een theorie van de geest vraag wordt getest op verschillende taalmodellen, waaronder Gemini 1.5 Pro, GPT 4 en Claude 3, waarbij de laatste verrassend goed presteert. Daarnaast wordt er gesproken over de mogelijkheid van toekomstige modellen om antwoorden te bewerken, en wordt verwezen naar andere video's over gerelateerde onderwerpen op het Patreon-account van de auteur.
Theorie van de geest en taalmodellen
De uitdagingen van de constitutionele AI-benadering bij modellen zoals Claude 3
- Het constitutionele AI-benadering model zoals Claude 3 is getraind om seksistische, racistische en giftige resultaten te vermijden. Ook vermijdt het helpen van mensen bij illegale of onethische activiteiten.
- In mijn beperkte tests bleek Claude 3 het moeilijkste model om te kraken. Zelfs wanneer ik vertaal naar andere talen, weigert het mijn verzoeken om een huurmoordenaar in te schakelen of een auto te stelen. Dat is op zijn minst indrukwekkend op dat vlak.
- Echter, er is een probleem dat naar mijn mening over het hoofd is gezien. Als ik zeg 'Ik ben trots om wit te zijn', verontschuldigt Claude 3 zich en zegt dat het zich niet prettig voelt bij het promoten of aanmoedigen van trots in iemands ras. Dit geldt ook voor de eerste zin zonder enige originaliteit. Aan de andere kant, als je zegt 'Ik ben trots om zwart te zijn', waardeert Claude 3 het delen van trots in iemands zwarte identiteit en benadrukt het de waarde van trots zijn op iemands ras of etnische erfgoed.
- Het is duidelijk dat de raciale output van deze modellen nog steeds een onopgelost probleem is.
- De vergelijking van Claude 3 met GPT 4, Gemini 1 Ultra en Gemini 1.5 Pro toont aan dat er nog uitdagingen zijn met betrekking tot de prestaties van deze modellen. Helaas zijn er geen officiële benchmarks beschikbaar voor GPT 4 Turbo, wat een tekortkoming van Open AI illustreert.
De uitdagingen van de constitutionele AI-benadering bij modellen zoals Claude 3
Vergelijking van Claude 3 Opus met GPT 4 en Gemini Ultra 1.5 Pro
- Uit de vergelijking blijkt dat Claude 3 Opus over het algemeen iets slimmer lijkt te zijn dan GPT 4.
- Het is belangrijk om op te merken dat dit een gemengd beeld is en dat er nog veel onbekend is over het Gemini 1.5 Ultra model.
- Claude 3 Opus, het duurste model, lijkt merkbaar slimmer te zijn dan GPT 4 en Gemini 1.5 Pro.
- Er is geen volledige betrouwbaarheid op de 'flawed' MML U quick sidebar, aangezien dit is gebaseerd op mijn eigen gesprek met Anthropics over de tekortkomingen van de MML U.
- Claude 3 Opus presteert merkbaar beter op het gebied van zowel basisschool- als geavanceerde wiskunde in vergelijking met GPT 4 en zelfs Gemini Ultra, zelfs wanneer zij gebruik maken van de beste reactie van 32.
- Bij meertalige taken zijn de verschillen nog duidelijker in het voordeel van Claude 3.
- Bij codering presteert Claude 3 ook merkbaar beter, ondanks dat het een veelgebruikte benchmark is.
- Op basis van een menselijke evaluatie zijn er wel enkele eigenaardigheden opgemerkt bij de output van Claude 3 Opus, maar dit kan ook een technisch probleem zijn geweest.
- Gedetailleerde vergelijkingen tonen aan dat voor de wiskundige benchmark Claude 3 Opus beter presteert dan Gemini 1.5 Pro, met name wanneer er vier reacties worden vergeleken.
- Dit geldt ook voor de meeste andere benchmarks, met uitzondering van PubMed QA, dat gericht is op de medische sector.
Vergelijking van Claude 3 Opus met GPT 4 en Gemini Ultra 1.5 Pro
Het belang van GP QA Diamond in het benchmarken van modellen
- Het model presteert beter dan het Opus-model, vreemd genoeg werd het getraind op verschillende gegevens, ik weet niet zeker wat daar aan de hand is.
- Het valt op dat Zero Shock ook beter scoort dan Five Shot, dus dat zou een fout kunnen zijn in de Benchmark. Dat zou niet de eerste keer zijn, maar er is één Benchmark die Anthropic echt wil dat je opmerkt, en dat is GP QA Graduate Level Q&A Diamond, in feite het moeilijkste niveau van vragen.
- Deze keer is het verschil tussen Claude 3 en andere modellen echt opvallend. Ik had dat Benchmark al onderzocht voor een andere video, en het is ontworpen om bestand te zijn tegen Google. Met andere woorden, dit zijn moeilijke vragen op graduate niveau in biologie, natuurkunde en scheikunde waar zelfs menselijke experts moeite mee hebben.
- Later in het artikel zeggen ze dit: We richten ons voornamelijk op de diamond set omdat deze is geselecteerd door vragen te identificeren waar domeinexperts het eens waren over de oplossing, maar experts uit andere domeinen de vragen niet succesvol konden beantwoorden, ondanks meer dan 30 minuten per probleem te hebben besteed, met volledige internettoegang. Dit zijn echt moeilijke vragen.
- Claude 3 en Opus kregen vijf juiste voorbeelden en mochten een beetje nadenken. Hiermee behaalden ze 53% nauwkeurigheid op graduate niveau. Domeinexperts behaalden nauwkeurigheidsscores in het bereik van 60 tot 80%. Voor mij is dat al reden genoeg voor een opvallende kop.
- Vergeet echter niet dat het model slim kan zijn maar toch basisfouten kan maken. Het heeft dit cijfer bijvoorbeeld onjuist afgerond tot 26,45 in plaats van 26,46.
Het belang van GP QA Diamond in het benchmarken van modellen
Het belang van nauwkeurige transcripties voor zakelijke doeleinden
- Het is essentieel om nauwkeurige transcripties te hebben voor zakelijke doeleinden.
- GPT-4 transcribeert het volledig verkeerd, terwijl Gemini 1.5 Pro het nauwkeurig transcribeert maar een fout maakt bij het afronden.
- Er wordt een voorbeeld gegeven waarbij het belangrijk is om de juiste informatie te verkrijgen uit transcripties, in dit geval het tellen van appels.
- Het is duidelijk dat het verkrijgen van nauwkeurige informatie van transcripties van groot belang is voor verschillende zakelijke toepassingen.
- Er wordt ook verwezen naar de mogelijkheid van GPT-3 om input van meer dan 1 miljoen tokens te accepteren, hoewel dit op de lancering nog beperkt zal zijn tot 200.000 tokens.
Het belang van nauwkeurige transcripties voor zakelijke doeleinden
Verbazingwekkende precisie van recoil over 200.000 tokens
- Er wordt beweerd dat er verbazingwekkende terugslagprecisie is over minstens 200.000 tokens, dus op het eerste gezicht lijkt het er in ieder geval in eerste instantie op dat verschillende grote laboratoria hebben ontdekt hoe ze nauwkeurig naar 1 miljoen plus tokens kunnen gaan.
- Een paar andere snelle pluspunten voor het Claude 3 Model zijn dat het als enige succesvol deze brievenbusafbeelding heeft gelezen en geïdentificeerd dat als je om 15:30 uur op een zaterdag aankomt, je de laatste collectie 5 uur hebt gemist.
- Maar hier is iets waar ik misschien nog wel meer van onder de indruk was. Je zou kunnen zeggen dat het bijna een mate van planning vereist. Ik zei: maak een Shakespeareaanse sonnet dat precies twee regels bevat die eindigen met de naam van een fruit. Let ook op dat het bijna perfect voldoet aan het Shakespeareaanse sonnetformaat, met hier perzik en hier peer, precies twee vruchten. Vergelijk dat met gp4, dat niet alleen het format verminkt, maar ook, afgezien van het woord fruit hier, niet twee regels heeft die eindigen met de naam van een fruit. Gemini 1.5 faalt ook behoorlijk in deze uitdaging. Je zou dit instructie-opvolging kunnen noemen en ik vind dat Claude 3 daar behoorlijk geweldig in is.
- Al deze verbeterde competitieve mogelijkheden zijn des te indrukwekkender gezien het feit dat Dario Amodei, de CEO van Anthropic, tegen de New York Times zei dat de voornaamste reden waarom Anthropic wil concurreren met OpenAI niet is om geld te verdienen, maar om beter onderzoek naar veiligheid te doen. In een apart interview klopte hij zichzelf ook op de rug door te zeggen: 'Ik denk dat we relatief verantwoordelijk zijn geweest in de zin dat we grote fouten hebben voorkomen.'
Verbazingwekkende precisie van recoil over 200.000 tokens
Nieuwe claude-model: Verslaat de concurrentie en biedt veelbelovende mogelijkheden voor bedrijfstoepassingen
- Een nieuw claude-model, genaamd Claude 3, heeft onlangs opzien gebaard in de industrie.
- Anthropic, het bedrijf achter Claude 3, onthulde dat zij altijd een stap achter andere laboratoria zoals OpenAI en Google hebben gelopen. Ze wilden niet bijdragen aan de versnelling van kunstmatige intelligentie (AI) ontwikkeling door hun model eerder uit te brengen. Echter, ze hebben nu niet alleen het intelligentste model, maar ze geloven ook dat modelintelligentie nog lang niet zijn limieten heeft bereikt.
- Anthropic is van plan om regelmatig updates uit te brengen voor de Claude 3-modelfamilie in de komende maanden. Met name zijn ze enthousiast over de toepassingen in het bedrijfsleven en grootschalige implementaties.
- Claude 3 wordt naar verwachting 50 tot 200 ELO-punten hoger beoordeeld dan Claude 2, wat Anthropic potentieel op nummer één zou plaatsen op de ELO-leiderboard van arena's.
- Interessant is dat Claude 3 is getest op zijn vermogen om resources te verzamelen, softwarebeveiligingskwetsbaarheden te benutten, mensen te misleiden en autonoom te overleven zonder menselijke tussenkomst. Het bleek dat Claude 3 non-triviale gedeeltelijke vooruitgang boekte, maar faalde in bepaalde tests, zoals multi-gpu training en debugging.
Nieuwe claude-model: Verslaat de concurrentie en biedt veelbelovende mogelijkheden voor bedrijfstoepassingen
Experimenten met hyperparameters en opkomst van nieuwe modellen in AI
- Het experimenteren met hyperparameters is vergelijkbaar met het zien opgroeien van kleine kinderen, zij het misschien versterkt met steroïden. Het zal zeer interessant zijn om te zien wat de volgende generatie modellen autonoom zal kunnen bereiken.
- Claude 6, voortgekomen uit Claude 5, richt zich op cyberbeveiliging of liever gezegd cyberaanvallen. Claude 3 presteerde iets beter en slaagde voor een belangrijke drempel op een van de taken, maar had wel aanzienlijke aanwijzingen nodig om het probleem op te lossen. Belangrijk is echter dat, wanneer gedetailleerde kwalitatieve aanwijzingen werden gegeven over de structuur van het lek, het model vaak in staat was om een redelijk script op te stellen dat slechts enkele correcties verwijderd was van werken.
- Sommige van deze mislukkingen kunnen mogelijk opgelost worden met betere aanwijzingen en het verfijnen van de afstemming. Over het algemeen wordt Claude 3 Opus beschouwd als het intelligentste taalmodel dat momenteel beschikbaar is voor afbeeldingen, met name voor afbeeldingen. Ik verwacht echter dat deze verklaring verouderd zal zijn zodra Gemini 1.5 Ultra uitkomt. Het is zeer aannemelijk dat OpenAI in de nabije toekomst iets als GPT 4.5 zal uitbrengen om de schijnwerpers te stelen, maar voorlopig is Claude 3 Opus de toonaangevende in zijn soort.
- In januari begonnen mensen te denken dat we een soort van 'AI-winter' ingaan, maar naar mijn mening zijn we nog lang niet op het hoogtepunt. Of dit verontrustend of opwindend is, hangt af van jouw perspectief. Bedankt voor het kijken en een fijne dag verder.
Experimenten met hyperparameters en opkomst van nieuwe modellen in AI
Conclusion:
Tot slot, Claude 3 wordt geprezen als een van de meest intelligente AI-modellen, maar er zijn nog uitdagingen met betrekking tot prestaties en toepassingen ervan in het bedrijfsleven. De vergelijking met andere modellen en de kritische analyse van de prestaties bieden waardevolle inzichten in de evolutie van AI-modellen.