Token AI là gì? Đơn vị nhỏ nhất đứng sau mỗi câu trả lời của ChatGPT

Chữ darkness trong tiếng Anh là hai token. Hầu hết tokenizer hiện đại cắt nó thành dark và ness, rồi gán mỗi mảnh một con số — chẳng hạn 217 và 655 — trước khi mô hình "nhìn" thấy prompt của bạn. Mọi câu trả lời ChatGPT, mọi đoạn Claude viết, mọi bản tóm tắt Gemini đều được ghép từ những mảnh nhỏ này. Giá bạn trả mỗi lần gọi API và lượng văn bản mô hình "nhớ" được trong một lượt — cả hai đều đo bằng token, không phải bằng từ.

Hình minh hoạ AI xử lý dữ liệu — màn hình toả ra dòng mã nhị phân, bong bóng chat và biểu tượng dữ liệu trên nền tím

Nguồn: What Are AI Tokens? — NVIDIA Blog

Token AI là gì?

Token là đơn vị nhỏ nhất mà một mô hình ngôn ngữ thực sự xử lý. Theo NVIDIA, "tokens are units of data processed by AI models during training and inference, enabling prediction, generation and reasoning" — token là đơn vị dữ liệu mà mô hình AI xử lý trong cả huấn luyện và suy luận, làm nền cho dự đoán, sinh văn bản và suy luận. Microsoft Copilot nói thẳng hơn: "AI tokens are the small units of text and data that AI models read, remember, and generate" — token là những đơn vị văn bản nhỏ mà mô hình AI đọc, nhớ và sinh ra.

Cái bẫy lớn nhất là nghĩ một token bằng một từ. Microsoft viết rõ: "Tokens are not the same as words; a single word can be one token or many tokens" — token không phải là từ; một từ có thể là một token hoặc nhiều token. Từ ngắn quen thuộc như the hay and thường là một token. Từ dài hoặc hiếm bị cắt thành mảnh. Ví dụ NVIDIA dùng — cắt darkness thành dark + ness — chính là việc tokenizer thật làm hàng ngày.

Hai quy tắc nhẩm cho tiếng Anh:

~1 token ≈ ¾ từ — theo Microsoft
~1 token ≈ 4 ký tự — theo nlighten

Vậy 100 token tiếng Anh tương đương khoảng 75 từ. Một bài luận 2.000 từ là tầm 2.700 token. Tỷ lệ này chỉ đúng cho tiếng Anh. Tiếng Việt thường tốn nhiều token hơn trên cùng độ dài ký tự — phần do dấu thanh, phần do cách tokenizer xử lý chữ ngoài bảng Latin cơ bản.

Tokenization hoạt động như thế nào?

Tokenization là việc đầu tiên mô hình làm với prompt của bạn — trước khi có bất kỳ "suy nghĩ" nào. Quy trình theo nlighten: "Before an AI model processes any input, it divides the text based on spaces, punctuation and other delimiters" — trước khi xử lý bất kỳ đầu vào nào, mô hình chia văn bản theo dấu cách, dấu câu và các ký tự phân tách. Sau đó nó áp dụng thuật toán subword (phổ biến nhất là BPE và SentencePiece) để cắt những từ hiếm thành mảnh mà mô hình đã thấy trong huấn luyện.

Mỗi mảnh trở thành một con số. Microsoft viết: "Each token is mapped to a number (or more precisely, a numerical vector)" — mỗi token được ánh xạ thành một con số (chính xác hơn là một vector số). Con số đó là thứ duy nhất mạng nơ-ron làm việc với. Từ darkness trong prompt của bạn, vào bên trong mô hình, chỉ còn là cặp số nguyên [217, 655] — không hơn.

Hệ quả quan trọng: cùng một câu, đếm trên các mô hình khác nhau sẽ ra số token khác nhau, vì mỗi mô hình có tokenizer riêng. Microsoft xác nhận: "Different models use different tokenization methods, which means the same text can produce different token counts" — các mô hình dùng phương pháp tokenization khác nhau, nên cùng một văn bản có thể cho số token khác nhau. GPT-4 và Claude có thể lệch nhau 20–30% trên cùng một prompt. Điều này quan trọng khi bạn so sánh giá API.

LLM dùng token để sinh câu trả lời như thế nào?

Trong mọi cuộc chat có hai loại token. nlighten tách rõ: "We distinguish between input tokens, which are the human prompt (e.g. 'Find me hiking routes in South of Europe'), and output tokens, which are the answers generated by the AI model" — input token là prompt của người dùng, output token là câu trả lời do mô hình sinh ra. Phần lớn bảng giá API liệt kê hai con số riêng — output token thường đắt gấp 2–5 lần input.

Quá trình sinh là một vòng lặp. Theo Microsoft: "When generating text, AI models predict the next most likely token, one token at a time, based on everything that came before" — khi sinh văn bản, mô hình dự đoán token kế tiếp có xác suất cao nhất, từng token một, dựa trên mọi thứ đã đến trước. Nghĩa là câu trả lời 300 từ không phải mô hình viết một lèo — đó là khoảng 400 lần đoán liên tiếp, mỗi lần nhìn lại toàn bộ hội thoại và chọn mảnh có xác suất cao nhất. Đây là lý do câu trả lời dài thì chậm: phải nối nhiều lần đoán hơn. Cùng cơ chế này nằm sau mọi LLM hiện đại — xem LLM là gì để hiểu kiến trúc bên dưới.

Context window là gì và đếm bằng cái gì?

Context window là số token tối đa mô hình "nhìn" được trong một lượt. Nó tính cả prompt của bạn và câu trả lời đang sinh ra. Theo Microsoft: "AI models can only process a limited number of tokens at once. This limit is called the context window" — mô hình AI chỉ xử lý được một số token giới hạn cùng lúc, và giới hạn đó gọi là context window. Cách hình dung dễ nhớ nhất là của Jim Canary trên Medium: "Think of a context window as an AI's working memory — it's the amount of information it can consider at once" — coi context window như trí nhớ ngắn hạn của AI, là lượng thông tin nó có thể cân nhắc trong cùng một lúc.

NVIDIA cho thang đo cụ thể: "A model that can process a few thousand tokens at once might be able to process a single high-resolution image or a few pages of text. With a context length of tens of thousands of tokens, another model might be able to summarize a whole novel or an hourlong podcast episode" — mô hình xử lý được vài nghìn token một lúc có thể đọc một ảnh độ phân giải cao hoặc vài trang văn bản; mô hình có context window vài chục nghìn token có thể tóm tắt cả một cuốn tiểu thuyết hoặc một tập podcast dài một tiếng.

Token trong context	Tương đương (tiếng Anh)
1.000	Một bài blog ngắn (~750 từ)
8.000	Một bài dài (~6.000 từ)
32.000	Một truyện vừa
200.000	Cả một cuốn tiểu thuyết
1.000.000	Cả bộ Harry Potter (trên giấy)

Hai lưu ý. Một, prompt và câu trả lời phải cùng nằm trong ngân sách này — bạn dán tài liệu 190K token vào context window 200K thì mô hình chỉ còn 10K để nghĩ. Hai, con số quảng cáo là trần, không phải bảo đảm — chất lượng thường tụt rõ trước khi chạm trần (hiện tượng "lost in the middle"). Danh sách mô hình và số liệu cập nhật nằm trong LLM là gì.

Token được đếm thế nào trong huấn luyện và thanh toán?

Có hai chỗ token trở thành con số thật bạn phải trả.

Huấn luyện. Theo NVIDIA: "Based on the size of the training data, the number of tokens can number in the billions or trillions" — tùy quy mô dữ liệu huấn luyện, tổng số token có thể lên tới hàng tỷ hoặc hàng nghìn tỷ. Các mô hình tiên phong như GPT-4 hay Claude được pretraining trên hàng nghìn tỷ token cào từ web, sách, mã nguồn và bài báo. Tổng token huấn luyện là chỉ số gọn nhất để hình dung "lượng văn bản thô" đã đi vào mô hình.

Suy luận (trả tiền để dùng API). Mọi nhà cung cấp lớn đều tính tiền theo token. Theo nlighten: "Large foundational model builders such as Open AI, Anthropic or Mistral charge based on token-usage when consumers access their AI services" — các nhà xây dựng mô hình nền tảng lớn như OpenAI, Anthropic hay Mistral đều tính phí theo số token khi người dùng truy cập dịch vụ. Một trang giá Claude hay GPT điển hình luôn có hai con số — một cho input, một cho output, đều niêm yết trên một triệu token.

Hệ quả thực dụng: prompt dài + câu trả lời ngắn rẻ hơn nhiều so với prompt ngắn + câu trả lời dài. Dán hợp đồng 50 trang rồi bảo "tóm tắt trong ba gạch đầu dòng" — bạn chủ yếu trả tiền input. Bảo "viết cho tôi kế hoạch kinh doanh 10.000 từ" — bạn chủ yếu trả tiền output, ở mức gấp 2–5 lần.

Muốn đếm token trước khi gửi, OpenAI có trang tokenizer công khai và Anthropic có endpoint count-tokens trong SDK. Cả hai miễn phí.

Những hiểu lầm thường gặp về token

"Một token bằng một từ." Microsoft bác trực tiếp: "Tokens are not the same as words; a single word can be one token or many tokens" — token không phải là từ; một từ có thể là một hoặc nhiều token. Nhớ con số 100 token ≈ 75 từ tiếng Anh là đủ. Tiếng Việt tỷ lệ tệ hơn — dấu thanh và cách tokenizer xử lý chữ ngoài Latin cơ bản đẩy mức trung bình lên khoảng 1 từ ≈ 1,5–2 token.

"Mô hình nào đếm token cũng giống nhau." Không. Microsoft viết: "Different models use different tokenization methods, which means the same text can produce different token counts" — các mô hình dùng phương pháp tokenization khác nhau, nên cùng văn bản có thể cho số token khác nhau. Tài liệu 1.000 từ có thể là 1.300 token trên GPT-4 và 1.500 trên Claude. Khi so giá API, chuẩn hóa con số — hoặc đơn giản là chạy cùng đoạn văn qua tokenizer của từng hãng.

"Token là cách mô hình 'hiểu' ngôn ngữ." Token là cách mô hình đọc ngôn ngữ. Cái gọi là "hiểu" — nếu từ đó còn áp dụng được — sinh ra từ hàng tỷ ví dụ huấn luyện đã dạy mô hình rằng chuỗi token nào thường nối tiếp chuỗi nào. Một token đứng riêng chỉ là một con số. Ý nghĩa là tính chất thống kê của chuỗi token, không phải của bất kỳ token đơn lẻ nào. Bài LLM là gì đi sâu vào chỗ này.

"Đếm token là chuyện chỉ lập trình viên API quan tâm." Đa phần đúng, không hoàn toàn. Nếu bạn hay dán tài liệu dài vào ChatGPT, Claude, Gemini bản miễn phí, bạn vẫn có thể chạm trần context mà không nhận cảnh báo nào — mô hình sẽ âm thầm bỏ phần đầu hội thoại. Biết prompt của mình "khoảng 5.000 token" là khác biệt giữa bản tóm tắt dùng được và bản trả lời sai một cách tự tin.

Vậy ngày qua ngày bạn nên nghĩ về token thế nào?

Nếu bạn chỉ dùng AI qua chat (ChatGPT, Claude, Gemini), 95% thời gian bỏ qua token là ổn. Hai trường hợp ngoại lệ: khi dán tài liệu dài hơn ~30 trang, và khi thấy mô hình "quên" thứ bạn nói ở đầu cuộc trò chuyện dài.

Nếu bạn dựng sản phẩm trên API, token là đơn vị chi phí. Ba thói quen đáng giữ:

Cắt prompt. Mỗi chữ system prompt bạn bỏ là tiền thật khi gọi triệu lần.
Đặt trần output. Cấu hình max_tokens ở mức hợp lý để một mô hình nói nhiều không thổi bay hóa đơn.
Cache phần context dài. Cả OpenAI và Anthropic giờ đều có prompt caching — trả tiền một lần cho tài liệu lớn, rồi tham chiếu rẻ trong nhiều lần gọi sau.

Câu hỏi thường gặp

1.000 token bằng bao nhiêu từ? Khoảng 750 từ tiếng Anh, theo quy tắc nhẩm của Microsoft. Tiếng Việt thì 1.000 token thường chỉ phủ 500–600 từ — dấu thanh và cấu trúc âm tiết tốn token hơn.

Tiếng Việt tốn nhiều token hơn tiếng Anh không? Có, thường gấp 1,5–2 lần cho cùng nội dung. Phần lớn tokenizer huấn luyện chủ yếu trên dữ liệu tiếng Anh, nên dấu thanh tiếng Việt hay bị cắt thành nhiều byte mỗi ký tự.

Làm sao kiểm tra số token trong prompt của tôi? Dùng trang tokenizer miễn phí của OpenAI cho mô hình GPT, hoặc endpoint count-tokens của Anthropic cho Claude. Cả hai đều hiển thị chính xác cách câu bị cắt.

Token có giống embedding không? Không. Token là con số đại diện cho một mảnh văn bản. Embedding là vector dài (thường 1.536 chiều trở lên) mà mô hình tạo ra từ token để biểu diễn ý nghĩa của nó trong ngữ cảnh. Embedding là bước tiếp theo sau tokenization.