Bài #4: LLM là gì? Token là gì và mô hình dự đoán từ tiếp theo ra sao?


Ở bài trước, ta đã học về NLP: cách máy tính xử lý ngôn ngữ tự nhiên bằng cách tách văn bản, mã hóa thành tín hiệu số và học mẫu từ dữ liệu. Bài này đi vào nhân vật đang làm NLP thay đổi mạnh nhất trong vài năm gần đây: LLM, hay mô hình ngôn ngữ lớn.
Nếu bạn từng dùng chatbot AI để hỏi bài, tóm tắt tài liệu, viết email, sửa câu tiếng Anh hoặc giải thích một khái niệm khó, rất có thể bạn đang tương tác với một LLM. Nhưng để dùng LLM tốt, ta cần hiểu một ý nền tảng: mô hình không “nghĩ ra cả bài trả lời” trong một lần. Nó thường tạo văn bản bằng cách dự đoán từng đơn vị nhỏ gọi là token.
Sau bài này, bạn cần nắm được 5 ý: LLM là gì; token là gì; vì sao mô hình dự đoán token tiếp theo có thể tạo ra câu trả lời dài; context ảnh hưởng đến câu trả lời ra sao; và vì sao cơ chế này vừa mạnh vừa có giới hạn.
LLM là viết tắt của Large Language Model, nghĩa là mô hình ngôn ngữ lớn. “Ngôn ngữ” cho biết mô hình làm việc chính với văn bản. “Lớn” thường nói đến quy mô: mô hình có rất nhiều tham số, được huấn luyện trên lượng dữ liệu văn bản rất lớn và có khả năng xử lý nhiều kiểu nhiệm vụ khác nhau.
Một LLM không chỉ thuộc lòng vài câu trả lời mẫu. Trong quá trình huấn luyện, nó học các quan hệ thống kê rất phức tạp giữa từ, cụm từ, câu, đoạn văn, phong cách viết và ngữ cảnh. Vì vậy, khi bạn hỏi “giải thích phân số bằng ví dụ cái bánh”, mô hình có thể nhận ra đây là yêu cầu giải thích khái niệm toán học cho người mới, nên câu trả lời nên đơn giản, có ví dụ trực quan và tránh dùng thuật ngữ quá nặng.
Token là đơn vị nhỏ mà mô hình dùng để đọc và tạo văn bản. Token không nhất thiết luôn là một từ. Một token có thể là một từ ngắn, một phần của từ dài, một dấu câu, một ký tự đặc biệt hoặc khoảng trắng. Cách chia phụ thuộc vào bộ tokenizer của từng hệ thống.
Ví dụ câu “AI rất hữu ích” có thể được chia thành các token gần giống “AI”, “rất”, “hữu”, “ích”. Với tiếng Việt, một từ ghép như “học sinh” hoặc “trí tuệ nhân tạo” có thể bị chia thành nhiều token. Điều quan trọng là LLM không nhìn câu như một bức ảnh nguyên khối. Nó xử lý chuỗi token theo thứ tự và theo ngữ cảnh.
Khi nhận một prompt, mô hình tính toán xem token nào có khả năng xuất hiện tiếp theo. Ví dụ sau cụm “Trí tuệ nhân tạo là”, các token có xác suất cao có thể liên quan đến “một”, “lĩnh”, “công”, “hệ”. Mô hình chọn một token, thêm token đó vào chuỗi, rồi lại dự đoán token tiếp theo. Lặp đủ nhiều lần, ta có một câu, một đoạn, rồi cả bài trả lời.
Hãy tưởng tượng bạn đang chơi trò điền từ: “Hôm nay trời rất ...”. Nếu ngữ cảnh là dự báo thời tiết, bạn có thể đoán “nắng”, “mưa”, “lạnh”. Nếu câu trước nói về kẹt xe và oi bức, “nóng” có vẻ hợp hơn. LLM làm điều tương tự ở quy mô lớn hơn rất nhiều: nó xem toàn bộ ngữ cảnh đang có để tính xác suất cho token tiếp theo.
Bí quyết nằm ở vòng lặp. Sau khi mô hình chọn token đầu tiên, token đó trở thành một phần của ngữ cảnh mới. Mô hình không chỉ nhìn prompt ban đầu, mà nhìn cả những gì nó vừa tạo. Vì vậy, câu trả lời có thể phát triển dần theo hướng mạch lạc: mở đầu, giải thích, ví dụ, cảnh báo, tóm tắt.
Ví dụ bạn hỏi: “Giải thích LLM cho học sinh lớp 8.” Mô hình có thể bắt đầu bằng “LLM là một mô hình AI...”. Sau khi đã tạo cụm đó, nó tiếp tục dự đoán phần sau sao cho phù hợp với đối tượng lớp 8. Nếu prompt yêu cầu “không dùng thuật ngữ khó”, xác suất của những cách diễn đạt đơn giản sẽ được ưu tiên hơn.
Context là phần nội dung mô hình nhìn thấy trong một lần trả lời: câu hỏi của bạn, hướng dẫn hệ thống, lịch sử hội thoại gần đây, tài liệu được đưa vào và cả những token mô hình vừa tạo. Context window là giới hạn độ dài của phần mô hình có thể xem cùng lúc.
Nếu thông tin quan trọng không nằm trong context, mô hình có thể không biết hoặc đoán sai. Đây là lý do khi dùng LLM để học tập hoặc làm việc, prompt nên cung cấp đủ ngữ cảnh: mục tiêu, đối tượng đọc, yêu cầu về độ dài, nguồn tài liệu, ví dụ đúng và ví dụ sai nếu cần.
Giả sử ta có prompt: “Viết một câu giải thích machine learning cho người mới: Machine learning là”. Mô hình không lấy sẵn một câu duy nhất trong kho. Nó tạo danh sách xác suất cho token tiếp theo. Token “cách” có thể có xác suất cao, token “một” cũng có thể cao, token “quả” thì thấp vì ít phù hợp. Nếu chọn “cách”, chuỗi trở thành “Machine learning là cách”. Lượt kế tiếp, các token như “để”, “máy”, “học” trở nên hợp lý hơn.
Trong sản phẩm thực tế, nhà phát triển có thể điều chỉnh cách chọn token. Nếu muốn câu trả lời ổn định, hệ thống chọn các token xác suất cao hơn. Nếu muốn sáng tạo, hệ thống có thể cho phép nhiều lựa chọn bất ngờ hơn, nhưng đổi lại rủi ro lan man hoặc sai cũng tăng.
Hiểu nhầm 1: LLM có một kho câu trả lời cố định. Thực tế, LLM tạo câu trả lời theo ngữ cảnh và xác suất token. Nó có thể tạo nhiều cách diễn đạt khác nhau cho cùng một câu hỏi.
Hiểu nhầm 2: Dự đoán từ tiếp theo nghe đơn giản nên chắc không thông minh. Nhiệm vụ nghe đơn giản, nhưng khi học trên lượng văn bản rất lớn, mô hình học được nhiều mẫu về kiến thức, lập luận, phong cách và cấu trúc ngôn ngữ.
Hiểu nhầm 3: Trả lời trôi chảy nghĩa là luôn đúng. Vì mô hình tối ưu việc tạo chuỗi token hợp lý, nó có thể tạo câu nghe rất tự tin nhưng vẫn sai. Với kiến thức quan trọng, ta cần kiểm chứng bằng nguồn đáng tin.
Hãy viết một câu chưa hoàn chỉnh: “Một cách học từ vựng hiệu quả là ...”. Tự liệt kê 5 từ hoặc cụm từ có thể xuất hiện tiếp theo. Sau đó thay ngữ cảnh thành “cho học sinh lớp 3” hoặc “cho người luyện IELTS”. Bạn sẽ thấy chỉ cần đổi ngữ cảnh, lựa chọn tiếp theo đã khác. Đó là cách dễ hình dung về dự đoán token trong LLM.
LLM là mô hình ngôn ngữ lớn được huấn luyện để xử lý và tạo văn bản. Token là đơn vị nhỏ mà mô hình dùng để đọc và viết. Khi trả lời, LLM thường dự đoán token tiếp theo dựa trên toàn bộ context, chọn một token, thêm vào ngữ cảnh rồi lặp lại. Cơ chế này giúp mô hình viết rất linh hoạt, nhưng cũng giải thích vì sao ta cần prompt rõ ràng và kiểm chứng câu trả lời khi độ chính xác quan trọng.