Aleph Alpha wil taalmodellen bevrijden van hun afhankelijkheid van tokenizers

De startup Aleph Alpha, erkend als een van de Europese pareltjes in de kunstmatige intelligentiesector, onthulde onlangs een grote vooruitgang op het gebied van grote taalmodellen (LLM). Op het Davos Economic Forum presenteerde het bedrijf een innovatieve architectuur die ontworpen was om zonder tokenizer te werken. Deze aanpak onthult een duidelijke ambitie: het verminderen van de vereisten voor computerbronnen, zowel voor training als voor het afleiden van modellen. Het verwijderen van tokenizers zou wel eens een keerpunt kunnen betekenen voor generatieve AI.

Het is essentieel om te begrijpen hoe tokenizers werken. Deze tools zetten tekenreeksen om in lijsten met symbolen die modellen voor natuurlijke taalverwerking (NLP) kunnen interpreteren. Hoewel het gebruik ervan cruciaal is geweest bij de opkomst van de huidige LLM’s, vestigt Aleph Alpha de aandacht op de inefficiëntie die deze systemen kunnen genereren, vooral tijdens het afstemmen en begeleiden van trainingen. Taalmodellen leren op basis van patronen die aanwezig zijn in getokeniseerde teksten, waardoor hun aanpassing aan voorheen onzichtbare gegevens complexer wordt.

De uitdagingen van tokenisatie

Tokenisatie is geen triviaal proces en brengt verschillende uitdagingen met zich mee. Aan de ene kant is de methode om zinnen in karakters te segmenteren geleidelijk verlaten vanwege het overmatige verbruik van computer- en geheugenbronnen. De huidige methode, die woorden verdeelt in reeksen van aangrenzende karakters, hoewel een efficiënt beheer van onbekende woorden mogelijk is, ‘belast’ de modellen en maakt ze minder efficiënt bij innovatieve teksten. De vooroordelen die worden geïntroduceerd door de statische woordenschat die wordt gebruikt om de modellen te trainen, maken het inderdaad niet mogelijk om de toegewezen middelen te prioriteren op basis van de complexiteit van de eerste tekens van een zin.

Aleph Alpha stelt een radicale verandering voor met de Hiërarchische Architectuur Transformer (HAT). Dit raamwerk combineert tekengebaseerde en woordgebaseerde verwerking, te beginnen met een eenvoudige verdeling van teksten in woorden, met behulp van regels die voldoen aan de Unicode-definitie. Elk woord wordt vervolgens gecodeerd in een inbeddingsvector, die een veel krachtiger hoofdmodel zal voeden.

Problemen met betrekking tot tokenizers

De beperkingen van tokenizers lijken vooral significant in industriële omgevingen, waar gebruikers op zoek zijn naar modellen die vragen kunnen beantwoorden die specifiek zijn voor hun domein. Vaak zijn tokenized modellen slecht geschikt als het gaat om het werken met andere talen dan Engels. Het verwijderen van de tokenizer presenteert zichzelf dus als een veelbelovende oplossing om de soevereiniteit van modellen te garanderen en de ecologische voetafdruk die verband houdt met hun training te verkleinen.

Naarmate Aleph Alpha efficiëntere modellen bouwt, is er een groeiende behoefte aan modellen die zich niet alleen aanpassen aan de specifieke kenmerken van de sector, maar ook aan diverse talen. De huidige voorkeur voor meertalige taalmodellen vereist aanpassingen in het kader van tokenisatie, dat momenteel te rigide en statisch blijft.

De tokenizer-vrije architectuur van Aleph Alpha

De Aleph Alpha HAT beoogt een volledige herdefinitie van de verwerking van tekstgegevens. Door de omvang van het vocabulaire terug te brengen tot slechts 256 tokens en tegelijkertijd te vertrouwen op UTF-8 als alfabet, valt deze architectuur op door zijn eenvoud en efficiëntie. Het systeem maakt end-to-end training mogelijk zonder dat u hoeft te vertrouwen op een vaste, vooraf getrainde tokenizer, wat een aanzienlijke vooruitgang betekent ten opzichte van traditionele architecturen.

Om zijn concept te testen implementeerde Aleph Alpha een model met 7 miljard parameters, getraind op een enorme dataset met 2,3 biljoen tokens in het Engels en Fins. De verkregen resultaten zijn indrukwekkend, zowel wat betreft inferentiekosten als prestaties in vergelijking met op tokenizer gebaseerde modellen.

Voordelen van het HAT-model

De eerste feedback op deze “Tokenizer Free”-architectuur van Aleph Alpha benadrukt een aantal opmerkelijke voordelen. Naast een duidelijke vermindering van de gevolgtrekkingskosten zijn er ook superieure prestaties in termen van efficiëntie waargenomen, die die van veel andere modellen in ontwikkeling overtreffen. Bovendien zijn de modellen minder gevoelig voor veelvoorkomende fouten zoals typografische fouten of onvolledige woorden, waardoor ze robuuster zijn. Deze kenmerken maken de HAT bijzonder veelbelovend voor geavanceerde toepassingen waarbij precisie cruciaal is. In een context waarin AI steeds meer wordt geïntegreerd in industriële oplossingen, zou dit ook een aanzienlijke verlaging van de operationele kosten kunnen betekenen.

De grenzen en vooruitzichten van Aleph Alpha

Niet alle uitdagingen worden echter overwonnen door het verwijderen van tokenizers. De architectuur van Aleph Alpha, hoewel effectief, moet haar levensvatbaarheid nog aantonen in logografische talen, zoals Chinees of Japans, waar een personage hele betekenissen kan dragen. Deze realiteit vormt obstakels voor de implementatie van modellen in programmeren of complexe wiskunde. Aleph Alpha blijft andere methoden onderzoeken voor het scheiden van invoerwoorden en past zijn aanpak dienovereenkomstig aan.

Geconfronteerd met concurrenten als Meta die ook tokenizer-vrije oplossingen nastreven, zal voortdurende innovatie cruciaal zijn voor Aleph Alpha. Het internationale laboratorium moet zijn datasets aanpassen en capaciteiten met betrekking tot multisectorale modellen ondersteunen, terwijl hoge kwaliteitsnormen gehandhaafd blijven.

Het AI-competitieve landschap zonder tokenizer

Terwijl Aleph Alpha zijn HAT-architectuur ontwikkelt, werken andere onderzoekslaboratoria zoals Meta in dezelfde richting. Meta’s recente voorstel, de Byte Latent Transformer, deelt vergelijkbare doelen, maar richt zich op complexere benaderingen gericht op het vervangen van de tokenizer met behulp van dynamische karakterrepresentaties. Deze ontwikkelingen benadrukken een groeiende belangstelling voor gedecentraliseerde modellen die goed aan uiteenlopende behoeften kunnen voldoen en tegelijkertijd de kosten kunnen verlagen. Het debat over de toekomst van tokenisatie is relevanter dan ooit en betrekt de verschillende stakeholders in de AI-sector.

De toekomst van LLM’s met Aleph Alpha

Met de nieuwe architectuur wil Aleph Alpha zichzelf positioneren als een belangrijke speler in het taalmodellandschap. De transitie naar meer autonome generatieve AI-systemen zou de huidige ontwikkelingsprocessen kunnen verstoren, waardoor bedrijven een haalbaar alternatief krijgen voor reeds bestaande modellen.

De steun van Aleph Alpha voor deze aanpak belooft aanzienlijke veranderingen teweeg te brengen, waardoor bedrijven de mogelijkheden van AI volledig kunnen benutten zonder de beperkingen die door tokenizers worden opgelegd. Het potentieel om de productiviteit te verbeteren en de trainingskosten te verlagen zou deuren kunnen openen voor een nog bredere adoptie van kunstmatige intelligentie in verschillende sectoren. Uiteindelijk zou Aleph Alpha’s toewijding aan innovatie op het gebied van LLM’s het aanbreken van een nieuw tijdperk voor AI kunnen betekenen.