Aleph Alpha quer libertar modelos de linguagem de sua dependência de tokenizadores

A startup Aleph Alpha, reconhecida como uma das joias europeias no setor da inteligência artificial, revelou recentemente um grande avanço na área dos grandes modelos de linguagem (LLM). No Fórum Econômico de Davos, a empresa apresentou uma arquitetura inovadora projetada para funcionar sem tokenizer. Esta abordagem revela uma ambição clara: reduzir os requisitos de recursos computacionais tanto para formação como para inferência de modelos. A remoção dos tokenizadores pode muito bem representar um divisor de águas para a IA generativa.

É essencial entender como funcionam os tokenizadores. Essas ferramentas convertem strings em listas de símbolos que os modelos de processamento de linguagem natural (PNL) podem interpretar. Embora seu uso tenha sido crucial no surgimento dos atuais LLMs, Aleph Alpha chama a atenção para a ineficiência que esses sistemas podem gerar, principalmente durante o ajuste fino e o treinamento supervisionado. Os modelos de linguagem aprendem com base em padrões presentes em textos tokenizados, tornando mais complexa sua adaptação a dados inéditos.

Os desafios da tokenização

A tokenização não é um processo trivial e levanta vários desafios. Por um lado, o método de segmentação de frases em caracteres tem sido gradativamente abandonado devido ao consumo excessivo de recursos computacionais e de memória. O método atual, que divide palavras em sequências de caracteres adjacentes, embora permita um gerenciamento eficiente de palavras desconhecidas, “sobrecarrega” os modelos e os torna menos eficientes em textos inovadores. Com efeito, os preconceitos introduzidos pelo vocabulário estático utilizado para treinar os modelos não permitem priorizar os recursos alocados de acordo com a complexidade dos primeiros tokens de uma frase.

Aleph Alpha propõe uma mudança radical com o Hierarchical Architecture Transformer (HAT). Esta estrutura combina processamento baseado em caracteres e em palavras, começando com uma simples divisão de textos em palavras, usando regras em conformidade com a definição Unicode. Cada palavra é então codificada em um vetor de incorporação, que alimentará um modelo principal muito mais poderoso.

Problemas relacionados a tokenizadores

As limitações dos tokenizadores parecem particularmente significativas em ambientes industriais, onde os utilizadores procuram modelos que possam responder a questões específicas do seu domínio. Freqüentemente, os modelos tokenizados são pouco adequados quando se trata de trabalhar com outros idiomas além do inglês. A remoção do tokenizer apresenta-se assim como uma solução promissora para garantir a soberania dos modelos e reduzir a pegada de carbono associada à sua formação.

À medida que Aleph Alpha constrói modelos mais eficientes, há uma necessidade crescente de modelos que se adaptem não apenas às especificidades da indústria, mas também a diversas linguagens. A atual predileção por modelos linguísticos multilíngues exige ajustes no quadro da tokenização, que atualmente permanece demasiado rígido e estático.

Arquitetura livre de tokenizer do Aleph Alpha

O Aleph Alpha HAT prevê uma redefinição completa do processamento de dados de texto. Ao reduzir o tamanho do vocabulário para apenas 256 tokens e contar com UTF-8 como alfabeto, essa arquitetura se destaca pela simplicidade e eficiência. O sistema permite o treinamento ponta a ponta sem a necessidade de contar com um tokenizer fixo e pré-treinado, representando um avanço significativo em relação às arquiteturas tradicionais.

Para testar seu conceito, Aleph Alpha implementou um modelo com 7 bilhões de parâmetros, treinados em um enorme conjunto de dados que inclui 2,3 trilhões de tokens em inglês e finlandês. Os resultados obtidos são impressionantes, tanto em termos de custos de inferência quanto de desempenho em comparação com modelos baseados em tokenizer.

Vantagens do modelo HAT

O primeiro feedback sobre esta arquitetura “Tokenizer Free” da Aleph Alpha destaca várias vantagens notáveis. Além de uma clara redução nos custos de inferência, tem-se observado um desempenho superior em termos de eficiência, superando o de muitos outros modelos em desenvolvimento. Além disso, os modelos são menos sensíveis a erros comuns, como erros tipográficos ou palavras incompletas, proporcionando melhor robustez. Estas características tornam o HAT particularmente promissor para aplicações avançadas onde a precisão é crucial. Num contexto em que a IA está cada vez mais integrada em soluções industriais, isto também poderá significar uma redução significativa dos custos operacionais.

Os limites e perspectivas do Aleph Alpha

No entanto, nem todos os desafios são superados com a remoção do tokenizer. A arquitetura de Aleph Alpha, embora eficaz, ainda não demonstrou sua viabilidade em relação às línguas logográficas, como o chinês ou o japonês, onde um caractere pode carregar significados inteiros. Esta realidade coloca obstáculos à implementação de modelos em programação ou matemática complexa. Aleph Alpha continua a explorar outras metodologias para separar palavras de entrada e adaptar sua abordagem de acordo.

Diante de concorrentes como a Meta, que também buscam soluções livres de tokenizer, a inovação contínua será crucial para Aleph Alpha. O laboratório internacional deve adaptar os seus conjuntos de dados e apoiar capacidades relacionadas com modelos multissectoriais, mantendo simultaneamente elevados padrões de qualidade.

O cenário competitivo de IA sem tokenizador

À medida que Aleph Alpha desenvolve sua arquitetura HAT, outros laboratórios de pesquisa como o Meta trabalham na mesma direção. A proposta recente da Meta, o Byte Latent Transformer, compartilha objetivos semelhantes, mas concentra-se em abordagens mais complexas destinadas a substituir o tokenizer usando representações dinâmicas de caracteres. Estes desenvolvimentos realçam um interesse crescente em modelos descentralizados que possam satisfazer adequadamente necessidades variadas e, ao mesmo tempo, reduzir custos. O debate sobre o futuro da tokenização é mais relevante do que nunca e envolve os diversos stakeholders do setor de IA.

O futuro dos LLMs com Aleph Alpha

Com sua nova arquitetura, Aleph Alpha aspira se posicionar como um ator-chave no cenário de modelos de linguagem. A transição para sistemas de IA generativos mais autónomos poderá perturbar os actuais processos de desenvolvimento, proporcionando às empresas uma alternativa viável aos modelos pré-existentes.

O apoio da Aleph Alpha a esta abordagem promete impulsionar mudanças significativas, permitindo que as empresas aproveitem totalmente os recursos da IA sem as limitações impostas pelos tokenizadores. O potencial para melhorar a produtividade e reduzir os custos de formação poderá abrir portas a uma adoção ainda mais ampla da inteligência artificial em vários setores. Em última análise, o compromisso da Aleph Alpha com a inovação no campo dos LLMs pode significar o início de uma nova era para a IA.