Aleph Alpha souhaite affranchir les modèles de langage de leur dépendance aux tokenizers

La startup Aleph Alpha, reconnue comme l’une des pépites européennes dans le secteur de l’intelligence artificielle, a récemment dévoilé une avancée majeure dans le domaine des grands modèles de langage (LLM). Lors du Forum économique de Davos, l’entreprise a présenté une architecture innovante conçue pour fonctionner sans tokenizer. Cette démarche révèle une ambition claire : réduire les besoins en ressources de calcul tant pour l’entraînement que pour l’inférence des modèles. La suppression des tokenizers pourrait bien représenter un tournant décisif pour l’IA générative.

Il est essentiel de comprendre le fonctionnement des tokenizers. Ces outils convertissent des chaînes de caractères en listes de symboles que les modèles de traitement du langage naturel (NLP) peuvent interpréter. Même si leur utilisation a été cruciale dans l’émergence des actuels LLM, Aleph Alpha attire l’attention sur l’inefficacité que ces systèmes peuvent engendrer, en particulier lors du fine-tuning et de l’entraînement supervisé. Les modèles de langage apprennent en se basant sur des schémas présents dans des textes tokenisés, rendant leur adaptation à des données non vues précédemment plus complexe.

Les enjeux de la tokenization

La tokenization n’est pas un processus trivial et soulève plusieurs défis. D’une part, la méthode qui consiste à segmenter les phrases en caractères a été progressivement abandonnée en raison de sa consommation excessive de ressources en calcul et en mémoire. La méthode actuelle, qui divise les mots en séquences de caractères adjacents, bien que permettant une gestion efficace des mots inconnus, « alourdit » les modèles et les rend moins performants sur des textes novateurs. En effet, les préjugés introduits par le vocabulaire statique utilisé pour former les modèles ne permettent pas de hiérarchiser les ressources allouées en fonction de la complexité des premiers tokens d’une phrase.

Aleph Alpha propose un changement radical avec le Hierarchical Architecture Transformer (HAT). Ce cadre combine un traitement basé sur les caractères et sur les mots, en commençant par une division simple des textes en mots, utilisant des règles conformes à la définition Unicode. Chaque mot est ensuite encodé en un vecteur d’embedding, qui va alimenter un modèle principal beaucoup plus puissant.

Problématiques liées aux tokenizers

Les limitations des tokenizers apparaissent de manière particulièrement significative dans des environnements industriels, où les utilisateurs recherchent des modèles capables de répondre à des questions spécifiques à leur domaine. Souvent, les modèles tokenisés sont mal adaptés lorsqu’il s’agit de travailler avec des langues autres que l’anglais. La suppression du tokenizer se présente ainsi comme une solution prometteuse pour garantir la souveraineté des modèles et réduire l’empreinte carbone liée à leur entraînement.

Tandis qu’Aleph Alpha élabore des modèles plus efficaces, il existe un besoin croissant pour des modèles qui s’adaptent non seulement aux spécificités sectorielles mais aussi aux divers langages. La prédilection actuelle pour des modèles de langage multi-langues nécessite des ajustements dans le cadre de la tokenization, qui à l’heure actuelle, demeure trop rigide et statique.

L’architecture sans tokenizer d’Aleph Alpha

Le HAT d’Aleph Alpha envisage une redéfinition complète du traitement des données textuelles. En réduisant la taille du vocabulaire à seulement 256 tokens tout en s’appuyant sur l’UTF-8 comme alphabet, cette architecture se démarque par sa simplicité et son efficacité. Le système permet une formation end-to-end sans avoir besoin de dépendre d’un tokenizer fixé et préentraîné, ce qui représente une avancée considérable par rapport aux architectures classiques.

Pour tester son concept, Aleph Alpha a mis en œuvre un modèle comptant 7 milliards de paramètres, entraîné sur un ensemble de données considérable comprenant 2 300 milliards de tokens en anglais et en finnois. Les résultats obtenus sont impressionnants, tant en termes de coûts d’inférence que de performance par rapport aux modèles basés sur tokenizer.

Avantages du modèle HAT

Les premiers retours sur cette architecture « Tokenizer Free » d’Aleph Alpha mettent en avant plusieurs avantages notables. Au-delà d’une réduction manifeste des coûts d’inférence, des performances supérieures en termes d’efficacité ont été observées, dépassant celles de nombreux autres modèles en cours de développement. Par ailleurs, les modèles sont moins sensibles aux fautes courantes comme les erreurs de typographie ou les mots incomplets, offrant une meilleure robustesse. Ces caractéristiques rendent le HAT particulièrement prometteur pour des applications avancées où la précision est cruciale. Dans un contexte où l’IA se retrouve de plus en plus intégrée dans des solutions industrielles, cela pourrait également signifier une réduction significative des coûts opérationnels.

Les limites et perspectives d’Aleph Alpha

Cependant, tous les défis ne sont pas surmontés avec la suppression du tokenizer. L’architecture d’Aleph Alpha, bien qu’efficace, doit encore démontrer sa viabilité face à des langues logographiques, comme le chinois ou le japonais, où un caractère peut porter des significations entières. Cette réalité pose des obstacles pour l’implémentation des modèles en programmation ou en mathématiques complexes. Aleph Alpha continue d’explorer d’autres méthodologies pour séparer les mots en entrée et adapter son approche en conséquence.

Face à des concurrents comme Meta qui s’engagent également dans la recherche de solutions sans tokenizer, l’innovation continue sera cruciale pour Aleph Alpha. Le laboratoire international doit adapter ses jeux de données et soutenir les capacités relatives à des modèles multisectoriels tout en maintenant des standards de qualité élevés.

Le paysage concurrentiel de l’IA sans tokenizer

Alors qu’Aleph Alpha développe son architecture HAT, d’autres laboratoires de recherche comme Meta travaillent dans la même direction. La récente proposition de Meta, le Byte Latent Transformer, partage des objectifs similaires mais se concentre sur des approches plus complexes visant à remplacer le tokenizer en utilisant des représentations dynamiques de caractères. Ces évolutions soulignent un intérêt croissant pour des modèles décentralisés qui peuvent répondre correctement à des besoins variés tout en réduisant les coûts. Le débat sur l’avenir de la tokenization est plus que jamais actuel et engage les différentes parties prenantes du secteur de l’IA.

Le futur des LLM avec Aleph Alpha

Avec sa nouvelle architecture, Aleph Alpha aspire à se positionner comme un acteur clé dans le paysage des modèles de langage. La transition vers des systèmes d’IA générative plus autonomes pourrait bouleverser les processus de développement actuels, offrant aux entreprises une alternative viable aux modèles préexistants.

Le soutien d’Aleph Alpha à cette approche promet d’initier un changement significatif, permettant ainsi aux entreprises d’exploiter pleinement les capacités de l’IA sans les limitations imposées par les tokenizers. Le potentiel d’amélioration de la productivité et de réduction des coûts d’entraînement pourrait ouvrir des portes vers une adoption encore plus large de l’intelligence artificielle dans divers secteurs. En fin de compte, l’engagement d’Aleph Alpha envers l’innovation dans le domaine des LLM pourrait signifier l’aube d’une nouvelle ère pour l’IA.