Aleph Alpha ønsker å frigjøre språkmodeller fra deres avhengighet av tokenizere

Oppstarten Aleph Alpha, anerkjent som en av de europeiske perlene i sektoren for kunstig intelligens, avduket nylig et stort fremskritt innen store språkmodeller (LLM). På Davos Economic Forum presenterte selskapet en innovativ arkitektur designet for å fungere uten tokenizer. Denne tilnærmingen avslører en klar ambisjon: å redusere kravene til dataressurser både for opplæring og for slutninger om modeller. Fjerningen av tokenizers kan godt representere et vannskille øyeblikk for generativ AI.

Det er viktig å forstå hvordan tokenizere fungerer. Disse verktøyene konverterer strenger til lister over symboler som NLP-modeller (natural language processing) kan tolke. Selv om bruken deres har vært avgjørende i fremveksten av nåværende LLM-er, trekker Aleph Alpha oppmerksomheten til ineffektiviteten som disse systemene kan generere, spesielt under finjustering og overvåket trening. Språkmodeller lærer basert på mønstre som er tilstede i tokeniserte tekster, noe som gjør deres tilpasning til tidligere usett data mer kompleks.

Utfordringene ved tokenisering

Tokenisering er ikke en triviell prosess og reiser flere utfordringer. På den ene siden har metoden for å segmentere setninger i tegn gradvis blitt forlatt på grunn av dens overdrevne forbruk av beregnings- og minneressurser. Den nåværende metoden, som deler ord inn i sekvenser av tilstøtende tegn, selv om den tillater effektiv håndtering av ukjente ord, «belaster» modellene og gjør dem mindre effektive på nyskapende tekster. Fordommene introdusert av det statiske vokabularet som brukes til å trene modellene, gjør det faktisk ikke mulig å prioritere ressursene som tildeles i henhold til kompleksiteten til de første symbolene i en setning.

Aleph Alpha foreslår en radikal endring med Hierarchical Architecture Transformer (HAT). Dette rammeverket kombinerer tegnbasert og ordbasert behandling, starter med en enkel inndeling av tekster i ord, ved å bruke regler som samsvarer med Unicode-definisjonen. Hvert ord blir deretter kodet inn i en innebyggingsvektor, som vil mate en mye kraftigere hovedmodell.

Problemer knyttet til tokenizers

Begrensningene til tokenizere er spesielt viktige i industrielle miljøer, der brukere leter etter modeller som kan svare på spørsmål som er spesifikke for deres domene. Ofte er tokeniserte modeller dårlig egnet når det gjelder å jobbe med andre språk enn engelsk. Å fjerne tokenizeren presenterer seg dermed som en lovende løsning for å garantere modellens suverenitet og redusere karbonavtrykket knyttet til treningen deres.

Ettersom Aleph Alpha bygger mer effektive modeller, er det et økende behov for modeller som tilpasser seg ikke bare bransjespesifikt, men også forskjellige språk. Den nåværende forkjærligheten for flerspråklige språkmodeller krever justeringer innenfor rammen av tokenisering, som for tiden fortsatt er for rigid og statisk.

Aleph Alphas tokenizer-frie arkitektur

Aleph Alpha HAT ser for seg en fullstendig omdefinering av tekstdatabehandling. Ved å redusere størrelsen på vokabularet til bare 256 tokens mens du stoler på UTF-8 som alfabetet, skiller denne arkitekturen seg ut for sin enkelhet og effektivitet. Systemet muliggjør ende-til-ende-trening uten å måtte stole på en fast, forhåndstrent tokenizer, som representerer et betydelig fremskritt i forhold til tradisjonelle arkitekturer.

For å teste konseptet, implementerte Aleph Alpha en modell med 7 milliarder parametere, trent på et massivt datasett inkludert 2,3 billioner tokens på engelsk og finsk. Resultatene som er oppnådd er imponerende, både når det gjelder slutningskostnader og ytelse sammenlignet med tokenizer-baserte modeller.

Fordeler med HAT-modellen

Den første tilbakemeldingen på denne «Tokenizer Free»-arkitekturen fra Aleph Alpha fremhever flere bemerkelsesverdige fordeler. Utover en klar reduksjon i slutningskostnader, har overlegen ytelse når det gjelder effektivitet blitt observert, som overgår mange andre modeller under utvikling. Videre er modellene mindre følsomme for vanlige feil som typografiske feil eller ufullstendige ord, noe som gir bedre robusthet. Disse egenskapene gjør HAT spesielt lovende for avanserte applikasjoner hvor presisjon er avgjørende. I en sammenheng hvor AI i økende grad integreres i industrielle løsninger, kan dette også bety en betydelig reduksjon i driftskostnadene.

Grensene og utsiktene til Aleph Alpha

Imidlertid er ikke alle utfordringer overvunnet med fjerning av tokenizer. Aleph Alphas arkitektur, selv om den er effektiv, har ennå ikke demonstrert sin levedyktighet mot logografiske språk, som kinesisk eller japansk, der en karakter kan bære hele betydninger. Denne virkeligheten utgjør hindringer for implementering av modeller i programmering eller kompleks matematikk. Aleph Alpha fortsetter å utforske andre metoder for å skille innord og tilpasse tilnærmingen deretter.

Stilt overfor konkurrenter som Meta som også søker tokenizer-frie løsninger, vil fortsatt innovasjon være avgjørende for Aleph Alpha. Det internasjonale laboratoriet må tilpasse sine datasett og støttefunksjoner knyttet til multisektormodeller samtidig som de opprettholder høye kvalitetsstandarder.

AI-konkurranselandskapet uten tokenizer

Mens Aleph Alpha utvikler sin HAT-arkitektur, jobber andre forskningslaboratorier som Meta i samme retning. Metas nylige forslag, Byte Latent Transformer, deler lignende mål, men fokuserer på mer komplekse tilnærminger som tar sikte på å erstatte tokenizeren ved å bruke dynamiske tegnrepresentasjoner. Denne utviklingen fremhever en økende interesse for desentraliserte modeller som kan møte varierte behov og samtidig redusere kostnadene. Debatten om fremtiden for tokenisering er mer relevant enn noen gang og involverer de ulike interessentene i AI-sektoren.

Fremtiden til LLM med Aleph Alpha

Med sin nye arkitektur ønsker Aleph Alpha å posisjonere seg som en nøkkelaktør i språkmodelllandskapet. Overgangen til mer autonome generative AI-systemer kan forstyrre dagens utviklingsprosesser, og gi bedrifter et levedyktig alternativ til eksisterende modeller.

Aleph Alphas støtte til denne tilnærmingen lover å drive betydelige endringer, slik at bedrifter kan utnytte mulighetene til AI fullt ut uten begrensningene pålagt av tokenizers. Potensialet for forbedret produktivitet og reduserte opplæringskostnader kan åpne dører for enda bredere bruk av kunstig intelligens på tvers av ulike bransjer. Til syvende og sist kan Aleph Alphas forpliktelse til innovasjon innen LLM-er bety begynnelsen på en ny æra for AI.