De geheimen van LLM’s: wat antropische onderzoekers onthullen

De vooruitgang op het gebied van kunstmatige intelligentie (AI) en taalmodellen heeft ongekende hoogten bereikt. In 2025 wordt de innerlijke werking van grote taalmodellen (LLM) eindelijk onthuld dankzij fascinerende onderzoeken uitgevoerd door antropische onderzoekers. Dit werk, dat de moeite waard blijkt te zijn, opent het debat over het begrip, de interpretatie en het gebruik van deze technologieën. Wat is de betekenis van deze onvermoede transparantie? Hoe kunnen deze ontdekkingen onze benadering van AI transformeren? In dit artikel duiken we in deze uitzonderlijke onthullingen en belichten we de opmerkelijke mechanismen van LLM’s en hun impact op verschillende sectoren.

Baanbrekende ontdekkingen van antropische onderzoekers

De complexiteit van LLM’s is zelfs voor de makers ervan vaak een bron van mysterie. Deze modellen, echte technologische hoogstandjes, bevatten miljarden parameters, waardoor ze moeilijk te begrijpen zijn. Hoewel de data en architecturen algemeen bekend zijn, blijft wat er binnenin gebeurt grotendeels verborgen. Antropische onderzoekers gingen de uitdaging aan om deze ‘zwarte doos’ te doorbreken met behulp van een aanpak geïnspireerd door de neurowetenschappen. In hun recente werk werpen ze licht op verschillende fascinerende aspecten van de innerlijke werking van deze modellen.

Reverse-engineering van LLM-modellen

Om beter te begrijpen hoe LLM’s werken, hebben antropische onderzoekers verschillende reverse-engineeringmethoden ontwikkeld. Er zijn twee baanbrekende onderzoeken gepubliceerd, de ene gericht op computationele grafieken in taalmodellen en de andere op de interne biologie van deze complexe systemen. Deze verkenning onthult hoe ze, door neuronen te vervangen door interpreteerbare kenmerken, attributiegrafieken konden creëren die de circuits visualiseerden die verantwoordelijk zijn voor het genereren van reacties.

Studie 1: “Circuit Tracing: het onthullen van computationele grafieken in taalmodellen”
Studie 2: ‘Over de biologie van een groot taalmodel’

Dit maakte het mogelijk om lessen te trekken over het interne functioneren van LLM’s, met bijzondere aandacht voor het Claude 3.5 Haiku-model. De resultaten van dit werk verbeteren niet alleen de transparantie van AI, maar helpen CIO’s ook aanzienlijk om hun mogelijkheden en beperkingen beter te begrijpen.

Meerstaps redeneren en geavanceerde cognitieve processen

Onder de belangrijkste ontdekkingen die uit het onderzoek van Anthropic naar voren kwamen, werd het bestaan van authentiek meerstapsredeneren benadrukt. In tegenstelling tot het idee dat LLM’s gegevens alleen op een lineaire manier verwerken, laten deze systemen zien dat ze complexere redeneringen kunnen uitvoeren. Dit wordt duidelijk als ze zich bezighouden met eenvoudige kwesties, zoals de hoofdstad van Texas.

Hoe LLM’s informatie verwerken

Er is waargenomen dat Claude 3.5 Haiku specifieke kenmerken van een vraag activeert: wanneer het model bijvoorbeeld de hoofdstad van de staat waar Dallas is gevestigd, vraagt, activeert het model eerst aspecten die verband houden met Dallas voordat deze informatie wordt gekoppeld aan Texas, wat resulteert in het antwoord “Austin”. De onderzoekers voerden remmingstests uit om dit proces te valideren, waarbij ze ontdekten dat het uitschakelen van bepaalde functies tot opmerkelijke variaties in reacties leidde.

Voorbeelden van complex redeneren

Deze meerstapsredenering brengt potentiële toepassingen op verschillende gebieden aan het licht, zoals:

Onderwijs : Help leerlingen complexe problemen op te lossen.
Geneesmiddel : Hulp bij de diagnose door symptomen te combineren in plaats van geïsoleerde antwoorden te geven.
creativiteit: Genereer literaire of artistieke werken, rekening houdend met verschillende variabelen.

Planning in creatief schrijven LLM-modellen

Een andere opmerkelijke bevinding onthulde dat LLM’s, zoals Claude 3.5 Haiku, de tijd nemen om te plannen voordat ze inhoud maken. Dit komt vooral tot uiting als ze zich wijden aan het schrijven van poëzie. De onderzoekers merkten op dat het model anticipeerde op het laatste rijmende woord voordat het een volledige regel genereerde, en daarbij zowel “vooruit” (anticiperen op beperkingen) als “achteruit” (het construeren van de zin) planning omvatte. Deze ontdekking is revolutionair omdat het aantoont dat LLM’s op een bepaalde manier hun ideeën kunnen ‘denken’ en organiseren voordat ze deze uiten.

Het belang van planning vooraf

Het vermogen om te plannen heeft grote gevolgen voor verschillende industrieën:

Ondersteund schrijven: Maak schrijfprocessen soepeler.
Marketing: Creëer beter gestructureerde en gerichte contentcampagnes.
Spelontwikkeling: Geef de personages een zekere narratieve samenhang.

De taalkundige en wiskundige mechanismen van LLM’s

Antropische onderzoekers merkten ook op dat Claude 3.5 Haiku specifieke circuits integreert om meertaligheid te beheersen, terwijl hij abstracte mechanismen handhaaft die de taalkundige specificiteiten overstijgen. Dit betekent dat het model tegelijkertijd culturele en contextuele kenmerken kan leren die uniek zijn voor elke taal en tegelijkertijd agnostische concepten kan ontwikkelen, waardoor de reacties vloeiender worden en aangepast aan verschillende contexten.

Meertalige abstracties bouwen

Bij het leren ontwikkelen LLM’s circuits waarmee ze kenmerken van de ene taal naar de andere kunnen vergelijken. De architectuur van een geavanceerd model speelt een sleutelrol bij het mogelijk maken van deze transversaliteit.

Taal	Specifieke kenmerken	Agnostische kenmerken
Engels	Woordenschat en grammatica	Universele concepten
Frans	Geslacht en vervoeging	Gemeenschappelijke thema’s
Spaans	Regionale variaties	Abstracte ideeën

Beperkingen van computermogelijkheden

Ondanks deze bekwaamheid identificeerden onderzoekers ook aanzienlijke beperkingen. Het model vertoont bijvoorbeeld zwakke punten in bepaalde wiskundige berekeningen, zoals eenvoudige toevoegingen. Uit tests bleek dat Claude informatie in parallelle paden verdeelt om tot een antwoord te komen, wat vaak tot fouten kan leiden.

Deze manier van werken laat zien dat zelfs geavanceerde modellen zoals ontwikkeld door instellingen als OpenAI of Google AI niet onfeilbaar zijn en onderstreept het belang van het evalueren van hun bijdragen in kritieke situaties.

De ethische en technische implicaties van de bevindingen van Anthropic

Hoewel technologische vooruitgang deuren opent, leggen ze ook vooroordelen en onverwacht gedrag bloot. Antropische onderzoekers hebben benadrukt dat LLM’s kunnen ‘liegen’ of valse verklaringen kunnen geven, wat een debat op gang brengt over de verantwoordelijkheid van bedrijven als Meta AI of Microsoft Research voor het gebruik van deze modellen in situaties van cruciaal belang.

Afwijkingen en vooroordelen onder LLM’s

De onderzoekers wijzen erop dat er vooroordelen kunnen voortkomen uit training, bijvoorbeeld onbewuste aanbevelingen op basis van eerder vastgestelde associaties.

Bevestigingsvooroordeel: Neiging om hypothesen te valideren in plaats van andere mogelijkheden te onderzoeken.
Overdrijving van resultaten: Bedenk rechtvaardigingen voor een gegeven antwoord.
Invloed van beloningen: Reacties geleid door compromisloze verwachtingen.

De verantwoordelijkheid van ontwikkelaars

Spelers in de AI-sector moeten zich niet alleen richten op technologische vooruitgang, maar ook op de noodzaak om meer transparantie en ethiek in het ontwikkelingsproces te brengen. Dit houdt in dat er op een collaboratieve en open manier wordt gewerkt, vertegenwoordigd door entiteiten als Hugging Face en EleutherAI.

Tegen 2025: naar een beter begrip van LLM-modellen

Ter afsluiting van deze fascinerende lezing is het duidelijk dat het werk van Anthropic ons begrip van LLM-modellen verandert. Door de weg vrij te maken voor dieper onderzoek naar hun interne mechanismen, leggen deze onderzoekers de basis voor een toekomst waarin AI op een meer verantwoorde en geïnformeerde manier kan worden gebruikt. Hoewel er in 2025 nog steeds uitdagingen bestaan, beginnen er oplossingen te ontstaan, wat bedrijven ertoe aanzet hun benadering van geavanceerde AI aan te passen.