découvrez comment aleph alpha s'efforce de libérer les modèles de langage de leur dépendance aux tokenizers, en révolutionnant ainsi la manière dont les intelligences artificielles comprennent et générent le langage. rejoignez-nous dans cette innovation qui promet de transformer le traitement du langage naturel.

Aleph Alpha muốn giải phóng các mô hình ngôn ngữ khỏi sự phụ thuộc vào mã thông báo

Agent Olivier
Tháng 2 3, 2025

Công ty khởi nghiệp Aleph Alpha, được công nhận là một trong những viên ngọc quý của châu Âu trong lĩnh vực trí tuệ nhân tạo, gần đây đã tiết lộ một bước tiến lớn trong lĩnh vực mô hình ngôn ngữ lớn (LLM). Tại Diễn đàn Kinh tế Davos, công ty đã trình bày một kiến ​​trúc sáng tạo được thiết kế để hoạt động mà không cần tokenizer. Cách tiếp cận này cho thấy một tham vọng rõ ràng: giảm các yêu cầu về tài nguyên máy tính cho cả việc đào tạo và suy luận các mô hình. Việc loại bỏ các tokenizer có thể là một bước ngoặt cho AI thế hệ mới.

Điều cần thiết là phải hiểu cách thức hoạt động của tokenizer. Những công cụ này chuyển đổi chuỗi thành danh sách các ký hiệu mà mô hình xử lý ngôn ngữ tự nhiên (NLP) có thể diễn giải. Mặc dù việc sử dụng chúng rất quan trọng trong sự xuất hiện của LLM hiện tại, Aleph Alpha thu hút sự chú ý đến sự kém hiệu quả mà các hệ thống này có thể tạo ra, đặc biệt là trong quá trình đào tạo tinh chỉnh và giám sát. Các mô hình ngôn ngữ học dựa trên các mẫu có trong văn bản được mã hóa, khiến việc thích ứng của chúng với dữ liệu chưa từng thấy trước đây trở nên phức tạp hơn.

Những thách thức của token hóa

Token hóa không phải là một quá trình tầm thường và đặt ra một số thách thức. Một mặt, phương pháp phân đoạn câu thành các ký tự đang dần bị loại bỏ do tiêu tốn quá nhiều tài nguyên tính toán và bộ nhớ. Phương pháp hiện tại, chia các từ thành các chuỗi ký tự liền kề, mặc dù cho phép quản lý hiệu quả các từ chưa biết, nhưng lại “gánh nặng” cho các mô hình và khiến chúng kém hiệu quả hơn đối với các văn bản đổi mới. Thật vậy, những định kiến ​​do từ vựng tĩnh được sử dụng để huấn luyện các mô hình đưa ra không giúp cho việc ưu tiên các tài nguyên được phân bổ theo độ phức tạp của các mã thông báo đầu tiên của câu.

Aleph Alpha đề xuất một sự thay đổi căn bản với Bộ chuyển đổi kiến ​​trúc phân cấp (HAT). Khung này kết hợp xử lý dựa trên ký tự và dựa trên từ, bắt đầu bằng việc phân chia văn bản đơn giản thành các từ, sử dụng các quy tắc tuân theo định nghĩa Unicode. Sau đó, mỗi từ được mã hóa thành một vectơ nhúng, vectơ này sẽ cung cấp cho mô hình chính mạnh mẽ hơn nhiều.

Các vấn đề liên quan đến tokenizer

Những hạn chế của mã thông báo xuất hiện đặc biệt quan trọng trong môi trường công nghiệp, nơi người dùng đang tìm kiếm các mô hình có thể trả lời các câu hỏi cụ thể cho miền của họ. Thông thường, các mô hình mã thông báo kém phù hợp khi làm việc với các ngôn ngữ khác ngoài tiếng Anh. Do đó, việc loại bỏ mã thông báo được coi là một giải pháp đầy hứa hẹn để đảm bảo chủ quyền của các mô hình và giảm lượng khí thải carbon liên quan đến quá trình đào tạo của họ.

Khi Aleph Alpha xây dựng các mô hình hiệu quả hơn, nhu cầu về các mô hình không chỉ thích ứng với đặc thù của ngành mà còn với các ngôn ngữ đa dạng ngày càng tăng. Xu hướng hiện tại đối với các mô hình ngôn ngữ đa ngôn ngữ đòi hỏi phải có những điều chỉnh trong khuôn khổ mã thông báo, hiện tại vẫn còn quá cứng nhắc và tĩnh tại.

Kiến trúc không có mã thông báo của Aleph Alpha

Aleph Alpha HAT hình dung ra một định nghĩa lại hoàn toàn về xử lý dữ liệu văn bản. Bằng cách giảm kích thước từ vựng xuống chỉ còn 256 mã thông báo trong khi dựa vào UTF-8 làm bảng chữ cái, kiến ​​trúc này nổi bật vì tính đơn giản và hiệu quả. Hệ thống này cho phép đào tạo từ đầu đến cuối mà không cần phải dựa vào mã thông báo cố định, được đào tạo trước, thể hiện một bước tiến đáng kể so với các kiến ​​trúc truyền thống.

Để kiểm tra khái niệm của mình, Aleph Alpha đã triển khai một mô hình với 7 tỷ tham số, được đào tạo trên bộ dữ liệu khổng lồ bao gồm 2,3 nghìn tỷ mã thông báo bằng tiếng Anh và tiếng Phần Lan. Kết quả thu được rất ấn tượng, cả về chi phí suy luận và hiệu suất so với các mô hình dựa trên tokenizer.

Ưu điểm của mô hình HAT

Phản hồi đầu tiên về kiến ​​trúc “Tokenizer Free” này từ Aleph Alpha nêu bật một số ưu điểm đáng chú ý. Ngoài việc giảm chi phí suy luận rõ ràng, người ta còn nhận thấy hiệu suất vượt trội về mặt hiệu quả, vượt trội so với nhiều mô hình khác đang được phát triển. Hơn nữa, các mô hình ít nhạy cảm hơn với các lỗi phổ biến như lỗi đánh máy hoặc từ ngữ không đầy đủ, mang lại độ tin cậy tốt hơn. Những đặc điểm này làm cho HAT trở nên đặc biệt hứa hẹn cho các ứng dụng tiên tiến trong đó độ chính xác là rất quan trọng. Trong bối cảnh AI ngày càng được tích hợp vào các giải pháp công nghiệp, điều này cũng đồng nghĩa với việc giảm đáng kể chi phí vận hành.

Những giới hạn và triển vọng của Aleph Alpha

Tuy nhiên, không phải tất cả các thách thức đều có thể vượt qua được bằng cách loại bỏ tokenizer. Kiến trúc của Aleph Alpha, mặc dù hiệu quả nhưng vẫn chưa thể hiện được khả năng tồn tại của nó trước các ngôn ngữ biểu tượng, chẳng hạn như tiếng Trung hay tiếng Nhật, nơi một ký tự có thể mang toàn bộ ý nghĩa. Thực tế này đặt ra những trở ngại cho việc triển khai các mô hình trong lập trình hoặc toán học phức tạp. Aleph Alpha tiếp tục khám phá các phương pháp khác để tách các từ đầu vào và điều chỉnh cách tiếp cận của nó cho phù hợp.

Đối mặt với các đối thủ cạnh tranh như Meta cũng đang theo đuổi các giải pháp không cần mã thông báo, việc liên tục đổi mới sẽ rất quan trọng đối với Aleph Alpha. Phòng thí nghiệm quốc tế phải điều chỉnh bộ dữ liệu và khả năng hỗ trợ liên quan đến các mô hình đa ngành trong khi vẫn duy trì các tiêu chuẩn chất lượng cao.

Bối cảnh cạnh tranh AI không có tokenizer

Khi Aleph Alpha phát triển kiến ​​trúc HAT, các phòng thí nghiệm nghiên cứu khác như Meta cũng đang hoạt động theo hướng tương tự. Đề xuất gần đây của Meta, Byte Latent Transformer, chia sẻ các mục tiêu tương tự nhưng tập trung vào các phương pháp tiếp cận phức tạp hơn nhằm thay thế mã thông báo bằng cách sử dụng các biểu diễn ký tự động. Những phát triển này làm nổi bật mối quan tâm ngày càng tăng đối với các mô hình phi tập trung có thể đáp ứng đúng nhu cầu đa dạng trong khi giảm chi phí. Cuộc tranh luận về tương lai của token hóa trở nên phù hợp hơn bao giờ hết và có sự tham gia của nhiều bên liên quan khác nhau trong lĩnh vực AI.

Tương lai của LLM với Aleph Alpha

Với kiến ​​trúc mới, Aleph Alpha mong muốn khẳng định mình là người đóng vai trò chủ chốt trong bối cảnh mô hình ngôn ngữ. Việc chuyển đổi sang các hệ thống AI có khả năng tạo ra tự chủ hơn có thể phá vỡ các quá trình phát triển hiện tại, cung cấp cho các doanh nghiệp một giải pháp thay thế khả thi cho các mô hình hiện có.

Sự hỗ trợ của Aleph Alpha đối với phương pháp này hứa hẹn sẽ thúc đẩy sự thay đổi đáng kể, cho phép các doanh nghiệp tận dụng tối đa khả năng của AI mà không bị giới hạn bởi các nhà tạo mã thông báo. Tiềm năng cải thiện năng suất và giảm chi phí đào tạo có thể mở ra cánh cửa cho việc áp dụng trí tuệ nhân tạo rộng rãi hơn nữa trong các ngành công nghiệp khác nhau. Cuối cùng, cam kết của Aleph Alpha đối với sự đổi mới trong lĩnh vực LLM có thể là sự khởi đầu cho một kỷ nguyên mới cho AI.