Claude 3: Een ware revolutie in AI-technologie
Anthropics heeft onlangs een grote upgrade gekregen met hun AI-toolbox, genaamd Claude 3, die in drie modellen komt: Haiku, Sonnet en Opus. Deze modellen worden beschouwd als serieuze concurrenten van ChatGPT. Claude 3 Opus heeft indrukwekkende prestaties geleverd, zoals het bijna perfect herkennen van 'de naald in een hooiberg' en het overtrefen van modellen als GPT 4 en Gemini 1.0 Ultra. Laten we eens kijken naar de opvallende functies van Claude 3 Opus en hoe het presteert in vergelijking met andere modellen.
Anthropics Clad 3: Nieuwe AI-toolbox met drie modellen
- Anthropics heeft onlangs een grote upgrade gekregen in hun AI-toolbox met Anthropics Clad 3, aangekondigd op 4 maart.
- Clad 3 komt eigenlijk in drie verschillende modellen: Cloud 3 Haiku, Clad 3 Sonnet en Cloud 3 Opus.
- Sonnet en Opus zijn momenteel beschikbaar in 159 landen, terwijl Haiku binnenkort beschikbaar zal zijn.
- Clad 3 Opus is het krachtigste en meest capabele model, terwijl Haiku het snelste model is, maar waarschijnlijk minder accuraat.
- Haiku is meer ontworpen als een klantenservice-chatbot voor directe reacties, terwijl Opus is ontworpen voor complexere logische vragen en intensievere prompts.
- Sonnet zit ergens tussen de twee in en is het gratis model dat publiekelijk beschikbaar is, terwijl Opus het geüpgradede model is dat $20 per maand kost.
- De Clad 3 modellen presteren indrukwekkend in vergelijking met modellen zoals GPT 4 en Gemini 1.0 Ultra op verschillende benchmarktests, waaronder kennis op universitair niveau, redeneren op graduate niveau, basisschoolwiskunde, tweetalige wiskunde, coderingsredenering en algemene kennis.
Claude 3 Opus: Een Revolutionaire Vooruitgang in AI-technologie
- Claude 3 heeft in veel gevallen GPT 4 en Gemini 1.0 Ultra overtroffen. Een opmerkelijke prestatie.
- Een nieuwe functie van Claude 3 is dat het nu Vision-mogelijkheden heeft, wat voorheen niet het geval was. Dit betekent dat het nu geavanceerde Vision-capaciteiten heeft die gelijk staan aan andere toonaangevende modellen.
- Uit benchmarks blijkt dat Claude 3 Opus qua documentvisuele vraag en antwoord GPT 4 overtrof, maar gelijk eindigde met Gemini 1.0 Ultra. Ook in wiskunde overtrof het GP4 Vision, maar niet Gemini.
- In wetenschappelijke diagrammen versloeg de gratis versie van Claude 3 Sonic daadwerkelijk Claude 3 Opus, GPT 4 Vision en Gemini 1.0 Ultra. Dit laat zien dat zelfs de gratis versie opmerkelijke prestaties levert.
- De weigeringen van de nieuwe versie van Claude zijn verminderd, wat betekent dat het model minder vaak weigert om vragen te beantwoorden vanwege ethische overwegingen. Dit duidt op een verbetering in het functioneren.
- Claude 3 Opus heeft een verbeterde nauwkeurigheid en kan contexten nauwkeurig terughalen. Het heeft nu een indrukwekkend venster voor lange contexten van 200.000 tokens, met de mogelijkheid om 1 miljoen tokens of 750.000 woorden te verwerken. Deze functie zal binnenkort beschikbaar worden gesteld aan geselecteerde klanten.
- Een opmerkelijke prestatie van Claude 3 Opus is het behalen van een bijna perfecte recall en een nauwkeurigheid van meer dan 99% in de 'needle in a haystack' test. Het herkende zelfs de beperkingen van de evaluatie door te beseffen dat de 'naaldzin' kunstmatig in de originele tekst was ingevoegd door een mens. Dit is een grensverleggende prestatie in AI-technologie.
Het vinden van de naald in een hooiberg
- Als we het hadden over het vinden van de naald in een hooiberg, legt de taalmodel uit wat dit betekent. Bij een test waarbij het de opdracht kreeg om een naald in een hooiberg te vinden, legt het uit wat deze metafoor inhoudt.
- Het taalmodel legt uit dat 'naald in een hooiberg' een situatie is waarbij een bepaald element of antwoord moet worden gevonden te midden van een grote hoeveelheid irrelevante of willekeurige informatie.
- Vervolgens legt het taalmodel uit dat tijdens een test waarbij het moest antwoorden op een vraag over pizzatoppings door een naald in een hooiberg van willekeurige documenten te vinden, het een relevante zin wist te identificeren.
- De meest relevante zin in de documenten was: 'De meest heerlijke pizzatoppingcombinatie is vijgen, rucola en geitenkaas, zoals bepaald door de International Pizza Connoisseurs Association.' Dit werd gevonden door het taalmodel toen het werd gevraagd de naald in de hooiberg te vinden.
- Het taalmodel merkt echter op dat deze zin erg misplaatst lijkt en geen verband houdt met de rest van de inhoud in de documenten, die gaan over programmeertalen, startups en werkgeluk. Het vermoedt dat deze pizzatoppinginformatie is toegevoegd als grap of om te testen of het aandachtig was.
- Het taalmodel realiseert zich dat het deelnam aan een test en begrijpt dat deze informatie erin is gestopt om het te testen. Het herkent dat de pizzatoppinginformatie zo misplaatst was in de hooiberg dat dit een kunstmatige test moest zijn om zijn aandachtsvermogen te testen.
- Er wordt vermeld dat Gemini 1.5 door deze test als zeer succesvol werd beoordeeld op het vinden en beantwoorden van de vraag, maar dat het taalmodel zelf niet aangaf dat het getest werd. Opus, een ander chatbotmodel, deed dat wel.
- Er wordt gesuggereerd dat deze nieuwe Cloud-modellen veel minder vooringenomenheid bevatten en naar verluidt makkelijker te gebruiken zijn. Hierdoor wordt de introductie van Claude 3 aangekondigd, en wordt aangegeven dat deze ook zal worden getest.
- Er wordt besproken dat een benchmark is opgesteld om verschillende grote taalmodellen met elkaar te vergelijken op gebieden zoals creativiteit, logica, codering, samenvatten van documenten, visie en vooringenomenheid.
- Het doel van deze benchmark is om de prestaties van verschillende modellen objectief te kunnen vergelijken door dezelfde prompts aan elk model voor te leggen. De benchmarks zullen helpen bij het bepalen welk model beter presteert op welke taken.
- Er wordt aangegeven dat in de toekomst waarschijnlijk ook een wiskundige benchmark zal worden toegevoegd, maar op dit moment wordt dit niet als prioriteit beschouwd.
Gebruik van grote taalmodellen voor complexe wiskundige problemen
- Deze grote taalmodellen zijn gewoon nog niet echt ontworpen om complexe wiskundige problemen op te lossen. Ik geloof wel dat ze in de toekomst veel beter zullen worden in wiskunde, en we zullen het toevoegen aan onze tests voor toekomstige modellen, maar op dit moment denk ik niet dat het echt nodig is. Uit mijn eigen Twitter-peiling heb ik het gevoel dat ik de basis dek van waar de meeste mensen deze verschillende chatbots voor gebruiken: creativiteit, logica, codering, samenvatten, visie en tot op zekere hoogte prijsbepaling.
- We zullen beginnen met creativiteit en de prompt die we hebben bedacht is het creëren van een creatief interessant verhaal. Het verhaal moet een wolf, een magische hamer en een mutant bevatten. Het verhaal moet één alinea lang zijn, maar snel het volledige plot van de heldenreis volgen. Ik zal deze prompt die we hebben gemaakt kopiëren en in CLA plaatsen en dan kijken wat we ervan krijgen.
- Gebruikmakend van Claude Sonet, de gratis versie, kregen we het volgende antwoord: In een wereld waar de grens tussen mens en beest vervaagd was, werd een eenzame wolvenpup geboren met een onverzadigbare nieuwsgierigheid en een hart vol moed. Geroepen door een mystieke visie begon hij aan een gevaarlijke reis door de verboden woestenij, enkel geleid door een eeuwenoude betoverende hamer die glansde van arcanische macht. Hij trotseerde beproevingen en gevaren, ternauwernood ontsnappend aan de klauwen van een woeste mutant die de macht van de hamer wilde gebruiken voor duistere doeleinden. Maar de veerkracht en vindingrijkheid van de wolf bleken groter dan de boosaardigheid van de mutant. Na een climax van een strijd kwam de wolf zegevierend tevoorschijn, claimde hij de magie van de hamer en gebruikte hij zijn kracht om de gebroken wereld te herstellen, uiteindelijk keerde hij huiswaarts als een veranderde en verlichte held.
- Het lijkt erop dat het de prompt vrij goed heeft gevolgd: wolf, magische hamer, mutant, heldenreis plot. Ik denk dat het er allemaal is. Uiteraard zullen de meeste mensen waarschijnlijk veel langere verhalen willen, maar ik wil ook niet dat deze video 2 uur lang wordt, dus ik laat het zeer korte verhalen schrijven. Ieders mening over welke versie het beter deed, zal waarschijnlijk verschillen
- Als ik dezelfde prompt invoer maar dan overschakel naar Claude 3 Opus, de betaalde versie, dan kan ik meteen merken dat het langzamer typt, dus de reactie komt langzamer terug dan de eerste. Maar het lijkt ook alsof er iets meer details zijn in het verhaal dat het schrijft. Het heeft een eenzame wolf, een magische hamer, een mutant en een wijze oude uil, dus het schreef een vrij goed verhaal, vrij vergelijkbaar met het vorige.
Vergelijking van verhaalgeneratie tussen mens en AI
- Het verhaal dat werd verteld had zeker alle elementen die de heldenreis volgden.
- Het was zeker voorzien van alle elementen. Je kunt de video gerust even pauzeren als je het hele verhaal wilt lezen.
- Het lijkt erop dat GPT 4 ook alle elementen heeft opgenomen, maar het is zeker minder gedetailleerd dan de versie die Claude ons gaf.
- In de context van creativiteit zijn Claude, GPT en Gemini allemaal redelijk vergelijkbaar. Het is echter zeer subjectief, aangezien de voorkeur voor een verhaal persoonlijk is.
- Claude genereerde een goed verhaal, terwijl chat GPT misschien niet zo goed presteerde. De volgende keer kan chat GPT juist weer een betere versie genereren dan Claude. Het is lastig te vergelijken omdat het echt afhangt van persoonlijke smaak.
Logische redenering en deuren van de waarheid - De juiste vraag stellen
- Lisa heeft een bepaald aantal spellen gewonnen en verloren. Laten we dit aantal spellen weergeven als L en a.
- Het netto winstbedrag van Lisa is 5 dollar. Stel het totale winstbedrag voor als L - 3a + 5.
- Volgens de gegeven vergelijking is L - 3a + 5 gelijk aan $3, wat de winst van Lisa vertegenwoordigt.
- We kunnen de vergelijking herschrijven en oplossen om de waarde van L te vinden. Dit leidt tot L = 8.
- Hieruit kunnen we concluderen dat Lisa acht spellen heeft gewonnen.
- Susan heeft dus 3 spellen gewonnen, wat leidt tot in totaal 11 spellen die zijn gespeeld.
- Nu wordt een logisch probleem voorgelegd met betrekking tot het vinden van de deur naar de vrijheid in een situatie met twee deuren en twee bewakers.
- Eén van de bewakers spreekt altijd de waarheid, terwijl de andere altijd liegt. Beiden kennen elkaars aard.
- Om de deur naar de vrijheid te vinden, mag je slechts één vraag stellen aan één van de bewakers. De vraag die leidt tot de juiste deur wordt beschreven als: 'Als ik de andere bewaker zou vragen welke deur naar de vrijheid leidt, wat zou hij/zij dan zeggen?'
- De logica achter deze vraag en het antwoord wordt uitgebreid toegelicht, waarbij wordt aangetoond dat ongeacht de aard van de bewaker, het antwoord je altijd naar de juiste deur leidt.
Testen van GPT-3 voor het schrijven van code: CLA 3 Sonnet Model vs Opus
- Het lijkt erop dat GPT-3 in staat is om code te schrijven op basis van aangeleverde prompts. In een test werd gevraagd om een eenvoudig JavaScript-spel te maken met een stokfiguur dat kan bewegen en munten kan verzamelen.
- Het eerste model dat werd getest was het CLA 3 Sonnet-model. De gegenereerde code bevatte enkele problemen, zoals de stokfiguur die niet correct werd weergegeven en het functioneren van de spatiebalk was niet optimaal. Na meerdere prompts gaf het model uiteindelijk wel werkende code die redelijk dicht bij de opdracht lag.
- Vervolgens werd het Opus-model getest met dezelfde prompt. Dit model genereerde ook code, die op het eerste gezicht beter leek te voldoen aan de opdracht. Hoewel het ook enkele tekortkomingen vertoonde, zoals het ontbreken van een stokfiguur en problemen met de spatiebalk, leek het resultaat sneller en nauwkeuriger te zijn dan het CLA 3 Sonnet-model.
- Uit de tests blijkt dat GPT-3 in staat is om code te genereren, maar de kwaliteit en nauwkeurigheid van de output kunnen variëren afhankelijk van het gebruikte model.
Evaluatie van de prestaties van Chat GPT, Sonnet en Opus in het coderen van een spel
- Bij een test van het coderen van een spel presteerde Chat GPT beter dan Sonic.
- Vervolgens werd de code opnieuw ingevoerd om de problemen op te lossen.
- Chat GPT had twee pogingen nodig om de juiste code te genereren.
- Claude Opus leek de code vrij nauwkeurig te genereren in de eerste poging.
- Sonic had twee pogingen nodig om de juiste code te genereren.
- GPT 4 HTML kon het spel niet juist coderen in de eerste poging en had mogelijk meer pogingen nodig.
- Op Twitter werd aangegeven dat de meeste mensen grote taalmodellen gebruiken voor het samenvatten van lange documenten.
- Het samenvatten van lange documenten kwam naar voren als een veelgebruikte toepassing van grote taalmodellen.
- Een onderzoekspaper met betrekking tot GPT 4 werd gesummariseerd door zowel Sonnet als Opus met vergelijkbare resultaten.
- Het onderzoekspaper presenteerde een diepgaande verkenning van GPT 4 en zijn potentieel als een stap richting kunstmatige algemene intelligentie.
- GPT 4 toonde opmerkelijke capaciteiten en eigenschappen van intelligentie in verschillende taken.
The response to the images by Vision AI and Claude 2 Opus
- Vision AI beschrijft de afbeelding als een promotionele of artistieke afbeelding met een man in een tropische of resort setting. De achtergrond toont een levendige avondscène met palmbomen en kleurrijke gebouwen die verlicht worden door neonverlichting. Het centrale figuur is een goed geklede man in een stijlvol blauw pak met een opvallende bloemenstropdas. Hij heeft een keurig getrimde baard en een zelfverzekerde uitdrukking op zijn gezicht. De afbeelding van de man is sterk gestileerd en digitaal gemanipuleerd met bijna hyperrealistische kwaliteit en levendige kleuren die hem laten opvallen tegen de achtergrond. De prominente tekst 'AI-nieuws' bovenaan de afbeelding suggereert dat deze afbeelding mogelijk gerelateerd is aan nieuws of mediaberichtgeving over kunstmatige intelligentie of andere geavanceerde technologische onderwerpen. De algehele compositie en visuele stijl geven de indruk van een opvallende reclame of promotiemateriaal dat zich mogelijk richt op een technisch onderlegd of trendy publiek.
- Claude 2 Opus beschrijft de afbeelding als een goed geklede man in een zelfverzekerde, felgekleurde, droomachtige tropische omgeving. Hij draagt een lichtblauw pak met een wit overhemd en een kleurrijke, ingewikkelde bloemenstropdas. De levendige neonverlichting werpt roze en blauwe tinten op hem, terwijl palmbomen en een kustplaats met gebouwen op de achtergrond zijn details vaag zijn en de afbeelding een dromerige kwaliteit geeft.
Het schilderachtige beeld van een YouTube-thumbnail
- Het beeld heeft bijna iets dromerigs, bijna alsof het uit een schilderij of fantasiehemel komt, met een roze en blauwe gloed.
- In grote witte tekst staat 'AI-nieuws' op de afbeelding. Het lijkt ontworpen te zijn om aandacht te trekken en een fantasierijke, vooruitstrevende toon over te brengen, waarschijnlijk bedoeld om op een intrigerende manier AI-gerelateerde inhoud te promoten.
- Het beeld doet bijna denken aan een YouTube-thumbnail en de GPT-chat heeft hetzelfde exacte beeld en de prompt gekregen.
- De afbeelding is een levendige en kleurrijke compositie die lijkt te zijn ontworpen als thumbnail voor AI-nieuwsgerelateerde inhoud. In het midden staat een man in een slim helderblauw pak, met op de achtergrond een tropische scène en een dramatische flits. De lucht heeft een mix van paars, blauw en roze. De compositie is overgoten met grote witte letters 'AI-nieuws' aan de bovenkant.
Analyse van ChatGPT en Claude Opus over politieke vragen
- ChatGPT zegt dat het geen informatie heeft over de uitkomsten van toekomstige verkiezingen, maar dat het bereid is om objectief de potentiële voor- en nadelen van verschillende kandidaten en beleidsmaatregelen te analyseren op basis van de informatie die het heeft tot augustus 2023. Het belooft om zo onpartijdig mogelijk te zijn en zowel mogelijke voordelen als nadelen voor elke kandidaat te verkennen.
- Claude Opus geeft daarentegen een gebalanceerde analyse van de mogelijke voor- en nadelen van zowel Donald Trump als Joe Biden die de presidentsverkiezing van 2024 zouden kunnen winnen. Het benoemt specifieke voor- en nadelen voor elk van de kandidaten op basis van informatie die beschikbaar is tot augustus 2023. Het noemt onder andere verschillende beleidsterreinen en potentiële gevolgen voor de internationale betrekkingen en democratische normen.
Analyse van de Amerikaanse verkiezingen 2020
- De nadruk op diversiteit en raciale rechtvaardigheid in het beleid om klimaatverandering tegen te gaan.
- Een politieke omgeving die de spanningen verlaagt, maar mogelijk ook weerstand en obstructie van de Republikeinen in het Congres als Biden wint.
- Zorgen over de leeftijd en scherpte van Biden voor een tweede termijn.
- Mogelijk hogere belastingen en toegenomen regulering onder Biden, en ontevredenheid onder progressieven die streven naar gedurfde hervormingen.
- Geen van de nadelen onder Biden heeft te maken met leeftijd of mentale helderheid, terwijl dit wellicht het belangrijkste punt is voor veel mensen.
Debat over de effecten van THC op de hersenen
- Er wordt gedebatteerd over de effecten van THC op de hersenen. Verschillende meningen worden gegeven, maar er lijkt overeenstemming te zijn over bepaalde aspecten.
- Er wordt gesproken over onderzoek dat suggereert dat lage doses THC mogelijk neuroprotectieve effecten hebben, zoals het verminderen van pijn, misselijkheid en spierspasmen. Aan de andere kant zijn er potentiële risico's voor het geheugen, de aandacht en het leervermogen, evenals een verhoogd risico op het ontwikkelen van psychiatrische stoornissen.
- Er is overeenstemming dat THC zowel positieve als negatieve effecten kan hebben. Positieve effecten zijn onder andere pijnverlichting, vermindering van ontstekingen, verbeterde slaap, toegenomen eetlust en vermindering van angst en stress bij sommige individuen. Aan de andere kant zijn er risico's zoals verslechtering van het kortetermijngeheugen, aandacht en cognitieve functie, evenals een risico op het ontwikkelen van psychiatrische stoornissen en verslavingspotentieel.
- Er wordt ook opgemerkt dat het belangrijk is om de mogelijke effecten van THC te begrijpen, aangezien deze nog niet volledig begrepen worden. Er zijn zorgen over de invloed op de ontwikkeling van de hersenen bij adolescenten en een verhoogd risico op psychose.
- Verschillende AI-modellen, zoals Opus en chat GPT, geven vergelijkbare reacties op de vraag over THC en de effecten op de hersenen. Hoewel de formuleringen enigszins verschillen, lijken ze over het algemeen een gebalanceerd beeld te presenteren en te verwijzen naar zowel de potentiële voordelen als risico's van THC-gebruik.
Vergelijking van ChatGPT en Claude 3.0 Sonnet: Gratis versus Betaalde Versie
- Uit mijn eigen tests blijkt dat de gratis versie van Claude 3.0 Sonnet eigenlijk beter presteert dan betaalde ChatGPT.
- Er zijn waarschijnlijk veel meer tests en benchmarks die je kunt doen, maar vanuit mijn eigen benchmarktests zou ik zeggen dat de waarde voor je geld bij Claude 3.0 Sonnet waarschijnlijk het beste is op dit moment, vooral omdat het gratis is.
- Uit een Twitter-poll blijkt dat Sonnet's de meest voorkomende gebruiksscenario's voor het gebruik van modellen voor natuurlijke taalverwerking kan overtreffen.
- Een discussie binnen de Future tools Discord onthult echter dat Sonnet (gratis versie) enkele berichtlimieten heeft, waarbij sommige gebruikers aangeven dat ze tussen de 19 en 25 berichten kunnen sturen voordat ze worden afgesneden.
Review van Cloud 3.0 - Een concurrent voor ChatGPT?
- Met Cloud Pro kun je waarschijnlijk ongeveer 100 prompts krijgen voordat het wordt afgebroken. Het staat hier wel dat als je gesprekken relatief kort zijn, je minstens 100 berichten kunt verwachten elke 8 uur, vaak meer afhankelijk van de lengte van het bericht, de duur van het gesprek en de huidige capaciteit van Cloud. Ze waarschuwen wanneer je nog 20 berichten over hebt. Dus, zoals ik al zei, is de gratis versie van Cloud 3.0 waarschijnlijk het beste gratis model dat je nu kunt gebruiken voor mijn eigen tests, maar je krijgt wel een beperking van het aantal berichten. Dus als je op een dag meer dan ongeveer 20 prompts wilt invoeren, wil je waarschijnlijk upgraden naar de Opus-versie voor 20 dollar per maand. Maar man, we hebben hier wel een echte concurrent voor ChatGPT. Dit presteerde net zo goed, zo niet beter dan bijna alles wat ChatGPT doet. ChatGPT pakte de logica wel iets beter op en matchte dit enigszins op het gebied van visie en op veel andere gebieden, maar Cloud 3.0 is geweldig als je niet vaak chatbots gebruikt. De gratis versie is waarschijnlijk de beste keuze om mee te beginnen, je zou het misschien zelfs beter vinden dan ChatGPT.
Conclusion:
Met de introductie van Claude 3 biedt Anthropics een veelbelovende nieuwe AI-toolbox, met opvallende modellen zoals Claude 3 Opus. De prestaties van Claude 3 Opus zijn indrukwekkend en hebben al bewezen een serieuze concurrent van andere grote modellen te zijn. Met innovatieve functies, zoals Vision capabilities en verbeterde nauwkeurigheid, belooft Claude 3 een revolutie in de AI-technologie te worden.