Aleph Alpha vill befria språkmodeller från deras beroende av tokenizers

Startupen Aleph Alpha, erkänd som en av de europeiska pärlorna inom artificiell intelligenssektorn, avslöjade nyligen ett stort framsteg inom området för stora språkmodeller (LLM). På Davos Economic Forum presenterade företaget en innovativ arkitektur designad för att fungera utan tokenizer. Detta tillvägagångssätt avslöjar en tydlig ambition: att minska kraven på datorresurser både för utbildning och för slutledning av modeller. Borttagandet av tokenizers kan mycket väl representera en vattendelare för generativ AI.

Det är viktigt att förstå hur tokenizers fungerar. Dessa verktyg omvandlar strängar till listor med symboler som NLP-modeller (natural language processing) kan tolka. Även om deras användning har varit avgörande för framväxten av nuvarande LLM, uppmärksammar Aleph Alpha den ineffektivitet som dessa system kan generera, särskilt under finjustering och övervakad träning. Språkmodeller lär sig utifrån mönster som finns i tokeniserade texter, vilket gör deras anpassning till tidigare osynliga data mer komplex.

Utmaningarna med tokenisering

Tokenisering är inte en trivial process och väcker flera utmaningar. Å ena sidan har metoden att segmentera meningar i tecken gradvis övergivits på grund av dess överdrivna förbrukning av beräknings- och minnesresurser. Den nuvarande metoden, som delar in ord i sekvenser av intilliggande tecken, även om den tillåter effektiv hantering av okända ord, ”belastar” modellerna och gör dem mindre effektiva på innovativa texter. Faktum är att de fördomar som introduceras av det statiska ordförrådet som används för att träna modellerna gör det inte möjligt att prioritera de resurser som allokeras efter komplexiteten hos de första symbolerna i en mening.

Aleph Alpha föreslår en radikal förändring med Hierarchical Architecture Transformer (HAT). Detta ramverk kombinerar teckenbaserad och ordbaserad bearbetning, som börjar med en enkel uppdelning av texter i ord, med regler som överensstämmer med Unicode-definitionen. Varje ord kodas sedan in i en inbäddningsvektor, som kommer att mata en mycket kraftfullare huvudmodell.

Frågor relaterade till tokenizers

Begränsningarna för tokenizers verkar särskilt betydande i industriella miljöer, där användare letar efter modeller som kan svara på frågor som är specifika för deras domän. Ofta är tokeniserade modeller dåligt lämpade när det gäller att arbeta med andra språk än engelska. Att ta bort tokenizern presenterar sig därför som en lovande lösning för att garantera modellernas suveränitet och minska koldioxidavtrycket kopplat till deras träning.

När Aleph Alpha bygger mer effektiva modeller, finns det ett växande behov av modeller som anpassar sig inte bara till branschspecifikationer utan också till olika språk. Den nuvarande förkärleken för flerspråkiga språkmodeller kräver justeringar inom ramen för tokenisering, som för närvarande förblir alltför stel och statisk.

Aleph Alphas tokenizer-fria arkitektur

Aleph Alpha HAT föreställer sig en fullständig omdefiniering av textdatabehandling. Genom att minska storleken på ordförrådet till endast 256 tokens samtidigt som man förlitar sig på UTF-8 som alfabet, utmärker sig denna arkitektur för sin enkelhet och effektivitet. Systemet möjliggör end-to-end-träning utan att behöva förlita sig på en fast, förtränad tokenizer, vilket representerar ett betydande framsteg jämfört med traditionella arkitekturer.

För att testa sitt koncept implementerade Aleph Alpha en modell med 7 miljarder parametrar, tränad på en enorm datauppsättning inklusive 2,3 biljoner tokens på engelska och finska. De erhållna resultaten är imponerande, både när det gäller slutledningskostnader och prestanda jämfört med tokenizer-baserade modeller.

Fördelar med HAT-modellen

Den första feedbacken på denna ”Tokenizer Free”-arkitektur från Aleph Alpha belyser flera anmärkningsvärda fördelar. Utöver en tydlig minskning av slutledningskostnader har överlägsen prestanda i termer av effektivitet observerats, som överträffar många andra modeller under utveckling. Dessutom är modellerna mindre känsliga för vanliga misstag som typografiska fel eller ofullständiga ord, vilket ger bättre robusthet. Dessa egenskaper gör HAT särskilt lovande för avancerade applikationer där precision är avgörande. I ett sammanhang där AI alltmer integreras i industriella lösningar kan detta också innebära en betydande minskning av driftskostnaderna.

Gränserna och utsikterna för Aleph Alpha

Men alla utmaningar övervinns inte med borttagning av tokenizer. Aleph Alphas arkitektur, även om den är effektiv, har ännu inte visat sin livskraft mot logografiska språk, som kinesiska eller japanska, där en karaktär kan bära hela betydelser. Denna verklighet utgör hinder för implementeringen av modeller inom programmering eller komplex matematik. Aleph Alpha fortsätter att utforska andra metoder för att separera inmatningsord och anpassa sitt tillvägagångssätt därefter.

Inför konkurrenter som Meta som också strävar efter tokenizerfria lösningar kommer fortsatt innovation att vara avgörande för Aleph Alpha. Det internationella laboratoriet måste anpassa sina datauppsättningar och stödja kapaciteter relaterade till multisektormodeller samtidigt som höga kvalitetsstandarder upprätthålls.

AI-konkurrenslandskapet utan tokenizer

När Aleph Alpha utvecklar sin HAT-arkitektur arbetar andra forskningslabb som Meta i samma riktning. Metas senaste förslag, Byte Latent Transformer, delar liknande mål men fokuserar på mer komplexa tillvägagångssätt som syftar till att ersätta tokenizern med hjälp av dynamiska teckenrepresentationer. Denna utveckling visar på ett växande intresse för decentraliserade modeller som på rätt sätt kan möta olika behov samtidigt som kostnaderna minskar. Debatten om framtiden för tokenisering är mer relevant än någonsin och involverar de olika intressenterna inom AI-sektorn.

LLM:s framtid med Aleph Alpha

Med sin nya arkitektur strävar Aleph Alpha efter att positionera sig som en nyckelspelare i språkmodelllandskapet. Övergången till mer autonoma generativa AI-system kan störa nuvarande utvecklingsprocesser, vilket ger företag ett hållbart alternativ till redan existerande modeller.

Aleph Alphas stöd för detta tillvägagångssätt lovar att driva betydande förändringar, vilket gör det möjligt för företag att fullt ut utnyttja AI-kapaciteten utan de begränsningar som tokenizers ålägger. Potentialen att förbättra produktiviteten och minska utbildningskostnaderna skulle kunna öppna dörrar för ännu bredare användning av artificiell intelligens inom olika branscher. I slutändan kan Aleph Alphas engagemang för innovation inom LLM-området innebära början på en ny era för AI.