Aleph Alpha は言語モデルをトークナイザーへの依存から解放したいと考えています

人工知能分野におけるヨーロッパの至宝のひとつとして知られる新興企業 Aleph Alpha は、最近、大規模言語モデル (LLM) の分野における大きな進歩を発表しました。ダボス経済フォーラムで、同社はトークナイザーなしで動作するように設計された革新的なアーキテクチャを発表しました。このアプローチは、モデルのトレーニングと推論の両方に必要なコンピューティングリソースを削減するという明確な目標を明らかにしています。トークナイザーの削除は、生成型 AI にとって大きな転機となる可能性があります。

トークナイザーがどのように機能するかを理解することが不可欠です。これらのツールは、文字列を自然言語処理 (NLP) モデルが解釈できる記号のリストに変換します。これらの使用は、現在の LLM の出現において極めて重要でしたが、Aleph Alpha は、これらのシステムが、特に微調整や教師付きトレーニング中に生成する非効率性に注意を喚起しています。言語モデルは、トークン化されたテキストに存在するパターンに基づいて学習するため、これまでに見たことのないデータへの適応がより複雑になります。

トークン化の課題

トークン化は簡単なプロセスではなく、いくつかの課題を引き起こします。一方で、文章を文字に分割する方法は、計算リソースとメモリリソースを過剰に消費するため、徐々に放棄されました。単語を一連の隣接する文字に分割する現在の方法では、未知の単語を効率的に管理できますが、モデルに「負担」がかかり、革新的なテキストでは効率が低下します。実際、モデルのトレーニングに使用される静的語彙によってもたらされる偏見により、文の最初のトークンの複雑さに応じて割り当てられるリソースに優先順位を付けることができなくなります。

Aleph Alpha は、Hierarchical Architecture Transformer (HAT) による根本的な変化を提案しています。このフレームワークは、Unicode 定義に準拠したルールを使用して、テキストを単語に単純に分割することから始めて、文字ベースと単語ベースの処理を組み合わせます。次に、各単語は埋め込みベクトルにエンコードされ、より強力なメインモデルに供給されます。

トークナイザーに関連する問題

トークナイザーの制限は、ユーザーが自分のドメイン固有の質問に答えることができるモデルを探している産業環境では特に顕著です。多くの場合、トークン化モデルは、英語以外の言語を扱う場合にはあまり適していません。したがって、トークナイザーを削除することは、モデルの主権を保証し、トレーニングに関連する二酸化炭素排出量を削減するための有望なソリューションとなります。

Aleph Alpha がより効率的なモデルを構築するにつれて、業界の特殊性だけでなく多様な言語にも適応するモデルのニーズが高まっています。現在多言語言語モデルが好まれているため、トークン化のフレームワーク内での調整が必要ですが、現時点ではあまりにも厳格で静的なままです。

Aleph Alpha のトークナイザーのないアーキテクチャ

Aleph Alpha HAT は、テキストデータ処理の完全な再定義を構想しています。アルファベットとして UTF-8 に依存しながら語彙のサイズをわずか 256 トークンに削減することにより、このアーキテクチャはそのシンプルさと効率性において際立っています。このシステムは、固定の事前トレーニングされたトークナイザーに依存する必要なくエンドツーエンドのトレーニングを可能にし、従来のアーキテクチャに比べて大幅な進歩を示しています。

そのコンセプトをテストするために、Aleph Alpha は、英語とフィンランド語の 2 兆 3000 億のトークンを含む大規模なデータセットでトレーニングされた 70 億のパラメーターを持つモデルを実装しました。得られた結果は、トークナイザーベースのモデルと比較して、推論コストとパフォーマンスの両方の点で印象的です。

HATモデルの利点

Aleph Alpha からのこの「Tokenizer Free」アーキテクチャに関する最初のフィードバックでは、いくつかの注目すべき利点が強調されています。推論コストの明らかな削減に加えて、効率の点で優れたパフォーマンスが観察され、開発中の他の多くのモデルを上回っています。さらに、モデルはタイプミスや不完全な単語などのよくある間違いの影響を受けにくく、堅牢性が向上します。これらの特性により、HAT は精度が重要な高度なアプリケーションに特に有望です。 AI が産業ソリューションにますます統合されている状況では、これは運用コストの大幅な削減を意味する可能性もあります。

アレフ・アルファの限界と展望

ただし、トークナイザーの削除によってすべての課題が解決されるわけではありません。 Aleph Alpha のアーキテクチャは効果的ではありますが、中国語や日本語など、文字が完全な意味を伝えることができる表語言語に対して有効であることはまだ実証されていません。この現実は、プログラミングや複雑な数学におけるモデルの実装に障害をもたらします。 Aleph Alpha は、入力単語を分離するための他の方法論を引き続き探索し、それに応じてアプローチを適応させます。

同様にトークナイザーのないソリューションを追求している Meta のような競合他社に直面して、Aleph Alpha にとっては継続的なイノベーションが不可欠です。国際研究所は、高品質基準を維持しながら、データセットを適応させ、マルチセクターモデルに関連する機能をサポートする必要があります。

トークナイザーのない AI の競争環境

Aleph Alpha が HAT アーキテクチャを開発するにつれて、Meta のような他の研究機関も同じ方向に取り組んでいます。 Meta の最近の提案である Byte Latent Transformer も同様の目標を共有していますが、動的な文字表現を使用してトークナイザーを置き換えることを目的とした、より複雑なアプローチに焦点を当てています。これらの開発は、コストを削減しながらさまざまなニーズに適切に対応できる分散型モデルへの関心の高まりを浮き彫りにしています。トークン化の将来に関する議論はこれまで以上に関連性が高まっており、AI 分野のさまざまな関係者が関与しています。

Aleph Alpha による LLM の未来

Aleph Alpha は、その新しいアーキテクチャにより、言語モデル環境における主要なプレーヤーとしての地位を確立することを目指しています。より自律的な生成型 AI システムへの移行は、現在の開発プロセスを混乱させ、既存のモデルに代わる実行可能な代替手段を企業に提供する可能性があります。

Aleph Alpha によるこのアプローチのサポートは、大きな変化を促進し、企業がトークナイザーによる制限を受けることなく AI の機能を最大限に活用できるようにすることを約束します。生産性の向上とトレーニングコストの削減の可能性により、さまざまな業界での人工知能のさらに幅広い導入への扉が開かれる可能性があります。最終的に、LLM 分野におけるイノベーションへの Aleph Alpha の取り組みは、AI の新時代の幕開けを意味する可能性があります。