Context Window là gì? Hiểu về cửa sổ ngữ cảnh trong AI & LLM

Đỗ Minh Đức Đỗ Minh Đức
Chia sẻ bài viết

Context window cửa sổ ngữ cảnh mô hình ngôn ngữ lớn LLM token limit

Context window hay cửa sổ ngữ cảnh là giới hạn bộ nhớ làm việc của mô hình ngôn ngữ lớn, thường gọi là LLM. Giới hạn này cho biết AI có thể “nhìn thấy” và xử lý tối đa bao nhiêu thông tin trong một lần tương tác.

Context window được đo bằng token, không phải số từ hay số ký tự. Mỗi câu hỏi, lịch sử hội thoại, tài liệu đính kèm, kết quả từ công cụ và phần trả lời đều dùng chung ngân sách token này.

Với doanh nghiệp Việt Nam, context window ảnh hưởng trực tiếp đến chất lượng chatbot, AI Agent, hệ thống hỏi đáp nội bộ, phân tích tài liệu và tự động hóa chăm sóc khách hàng. Hiểu đúng giới hạn này giúp doanh nghiệp chọn mô hình phù hợp, giảm lỗi phản hồi và quản lý chi phí AI tốt hơn.

Cơ chế hoạt động của Context Window?

Context window được đo bằng token. Token là đơn vị văn bản mà mô hình AI dùng để đọc, xử lý và tạo phản hồi. Đây không phải là “từ” theo cách con người thường hiểu.

Ví dụ, một câu tiếng Việt có thể được chia thành nhiều token khác nhau tùy mô hình. Một từ có dấu, một ký tự đặc biệt, một khoảng trắng hoặc một đoạn mã lập trình có thể làm tăng số token cần xử lý.

Điều này có nghĩa là cùng một nội dung nhưng khi đưa vào GPT-4, Llama hoặc một mô hình khác, số token có thể khác nhau. Nguyên nhân nằm ở tokenizer. Tokenizer là bộ chia văn bản thành token trước khi mô hình xử lý.

Vì vậy, khi doanh nghiệp tính dung lượng context window cho chatbot, AI Assistant hoặc hệ thống phân tích tài liệu, không nên chỉ đếm số trang hoặc số từ. Cần ước lượng theo token để tránh vượt giới hạn trong quá trình vận hành.

Token là gì trong context window?

Token là đơn vị văn bản nhỏ nhất mà LLM xử lý. Một token có thể là một ký tự, một phần của từ, cả một từ hoặc một ký hiệu.

Ví dụ:

  • “AI” có thể là 1 token.

  • “khách hàng” có thể được tách thành nhiều token.

  • Một dòng code hoặc URL dài thường tốn nhiều token hơn văn xuôi thông thường.

Với tiếng Anh, 1 từ thường tương đương khoảng 0,75–1,3 token. Nhưng với tiếng Việt và nhiều ngôn ngữ không dùng hoàn toàn ký tự Latin, cùng một ý nghĩa có thể tiêu tốn nhiều token hơn. Điều này làm giảm dung lượng thực tế mà doanh nghiệp có thể đưa vào context window.

Context window bao gồm những thành phần nào?

Thành phần context window system prompt conversation history documents tool outputs response token

Context window không chỉ chứa câu hỏi của người dùng. Đây là ngân sách token chung cho toàn bộ thông tin trong một request.

Các thành phần chính gồm:

  1. System prompt: hướng dẫn nền cho AI, ví dụ vai trò, quy tắc trả lời, giọng văn, giới hạn bảo mật.

  2. User prompt: câu hỏi hoặc yêu cầu của người dùng.

  3. Conversation history: lịch sử hội thoại trước đó.

  4. Retrieved documents: tài liệu được truy xuất từ CRM, Google Drive, file server hoặc hệ thống nội bộ.

  5. Tool outputs: kết quả từ công cụ, ví dụ API, công cụ tìm kiếm, bảng dữ liệu hoặc phần mềm nghiệp vụ.

  6. Response tokens: phần token dành cho câu trả lời mà AI tạo ra.

Trong thực tế, system prompt có thể tiêu tốn từ vài trăm đến hàng nghìn token trước khi người dùng nhập bất kỳ nội dung nào. Với một AI Agent chăm sóc khách hàng, phần hướng dẫn ẩn này có thể bao gồm quy trình xử lý khiếu nại, cách tra cứu đơn hàng, quy tắc chuyển tiếp cho nhân viên và tiêu chuẩn giọng nói thương hiệu.

Do đó, context window luôn nhỏ hơn con số lý thuyết mà nhà cung cấp công bố.

Context window khác gì so với training data và bộ nhớ dài hạn của AI?

Context window so với training data fine-tuning bộ nhớ tạm thời session-scoped LLM

Khái niệm Vai trò Ví dụ trong doanh nghiệp
Context window Bộ nhớ tạm thời trong một request hoặc một phiên làm việc Đưa chính sách đổi trả vào câu hỏi để chatbot trả lời đúng
Training data Dữ liệu đã dùng để huấn luyện mô hình trước khi triển khai Kiến thức chung mà mô hình đã học từ dữ liệu huấn luyện
Bộ nhớ dài hạn / fine-tuning Cách lưu hoặc điều chỉnh hành vi mô hình lâu dài Fine-tuning chatbot theo dữ liệu ngành bán lẻ hoặc tài chính

Context window là bộ nhớ tạm thời, giới hạn theo phiên. Thông tin trong context chỉ có hiệu lực khi nó còn nằm trong cửa sổ ngữ cảnh. Nếu không có hệ thống lưu trữ bên ngoài, AI không tự ghi nhớ nội dung đó cho các cuộc hội thoại khác nhau.

Fine-tuning thì khác. Fine-tuning thay đổi hành vi mô hình lâu dài. Ví dụ, doanh nghiệp có thể fine-tune chatbot bằng dữ liệu ngành để mô hình trả lời theo phong cách và quy tắc nhất định. Trong khi đó, việc gửi một tài liệu vào context chỉ giúp mô hình dùng tài liệu đó trong phiên hiện tại.

Context window hoạt động như thế nào trong mô hình Transformer?

Self-attention mechanism Transformer context window token relationship positional encoding

Phần lớn LLM hiện đại dựa trên kiến trúc Transformer. Khi nhận input, mô hình không đọc văn bản như con người đọc từng dòng. Nó mã hóa toàn bộ token trong context window, sau đó dùng cơ chế self-attention để đánh giá mối liên quan giữa các token.

Self-attention có thể hiểu đơn giản là cách AI xác định token nào quan trọng với token nào. Ví dụ, khi khách hàng hỏi “Đơn hàng này giao khi nào?”, AI cần liên kết “đơn hàng này” với mã đơn, lịch sử hội thoại, dữ liệu vận chuyển và chính sách giao hàng.

Quy trình thường gồm 4 bước:

  1. Chia văn bản thành token
    Prompt, lịch sử chat, tài liệu và dữ liệu công cụ được tokenizer chuyển thành token.

  2. Gắn vị trí cho token
    Mô hình cần biết token nào đứng trước, token nào đứng sau để hiểu thứ tự câu.

  3. Tính quan hệ giữa token
    Self-attention giúp mô hình đánh giá mức độ liên quan giữa từng cặp token trong context window.

  4. Tạo phản hồi mới
    Mô hình dùng thông tin đã chú ý để dự đoán và sinh token tiếp theo cho đến khi hoàn thành câu trả lời.

Điểm cần lưu ý là chi phí tính toán của self-attention tăng theo bình phương số token. Nếu context window tăng gấp đôi, chi phí xử lý có thể tăng khoảng 4 lần. Đây là lý do context window lớn thường đi kèm chi phí cao hơn và độ trễ lớn hơn.

Kích thước context window ảnh hưởng thế nào đến chất lượng phản hồi AI?

Context window ảnh hưởng trực tiếp đến khả năng hiểu ngữ cảnh của AI.

Một context window lớn hơn có thể giúp:

  • Duy trì mạch hội thoại dài hơn.

  • Giảm nguy cơ AI trả lời sai do thiếu thông tin.

  • Phân tích tài liệu dài như hợp đồng, báo cáo, quy trình nội bộ.

  • Tạo phản hồi nhất quán hơn trong chatbot đa lượt.

  • Hỗ trợ AI Agent thực hiện nhiều bước liên tiếp.

  • Giảm hallucination khi thông tin liên quan vẫn còn trong context.

Ngược lại, context window quá nhỏ có thể làm AI mất thông tin quan trọng. Khi input vượt giới hạn, hệ thống phải cắt bớt, tóm tắt hoặc loại bỏ một phần nội dung. Thông tin ở đầu cuộc hội thoại thường bị mất trước.

Ví dụ, khách hàng đã cung cấp mã đơn hàng ở đầu cuộc trò chuyện. Sau nhiều lượt trao đổi, mã đơn bị rơi khỏi context. Chatbot vẫn tiếp tục trả lời, nhưng có thể tra cứu sai đơn hoặc yêu cầu khách hàng nhập lại thông tin.

Context window trong các mô hình AI phổ biến

So sánh context window GPT Claude Gemini Llama Mistral kích thước token 2025 2026

Mô hình Nhà phát triển Context Window Ghi chú
GPT-4o OpenAI 128K tokens Output tối đa 16.384 tokens
Claude Sonnet 4.6 Anthropic 1M tokens GA từ 3/2026, không phụ phí
Gemini 3.1 Pro Google DeepMind 1M tokens Output tối đa 65K tokens
Llama 4 Scout Meta 10M tokens Open-source, hiệu suất giảm sau 256K
Mistral Large 2 Mistral AI 128K tokens Flagship model

Dữ liệu từ codingscape.com, ibm.com, datanorth.ai — tháng 3–6/2026.

Đến năm 2026, nhiều LLM thương mại đã đạt context window ở mức 1 triệu token. Đây là bước tăng rất lớn so với GPT-3.5 ra mắt năm 2022, vốn chỉ có khoảng 4K token.

Tuy nhiên, context window lớn không tự động đảm bảo kết quả tốt. Doanh nghiệp vẫn cần kiểm soát chất lượng dữ liệu đưa vào, cách sắp xếp thông tin, chi phí xử lý và độ trễ phản hồi.

Context window LLM từ 2022 đến nay.

Context window đã tăng theo cấp số nhân trong vài năm gần đây.

GPT-3.5 năm 2022 có khoảng 4K tokens. GPT-4 Turbo và GPT-4o tăng lên 128K tokens. Gemini 1.5 Pro năm 2024 đạt 1M tokens. Đến Llama 4 Scout năm 2025, con số được công bố là 10M tokens.

Sự tăng trưởng này mở ra nhiều ứng dụng mới, như phân tích kho tài liệu lớn, đọc codebase dài hoặc vận hành AI Agent nhiều bước. Nhưng trong triển khai thực tế, giới hạn hữu ích thường thấp hơn giới hạn công bố.

Context window được ứng dụng ở đâu trong thực tế?

Context window quyết định AI có thể xử lý loại tác vụ nào trong doanh nghiệp.

Các ứng dụng phổ biến gồm:

  • Chatbot đa lượt: ghi nhớ nội dung trao đổi gần nhất với khách hàng.

  • Hỏi đáp nội bộ: trả lời dựa trên quy trình, chính sách, tài liệu đào tạo.

  • RAG: chỉ đưa các đoạn tài liệu liên quan vào context thay vì nạp toàn bộ dữ liệu. Doanh nghiệp có thể tìm hiểu thêm về Retrieval-Augmented Generation (RAG) để hiểu cách truy xuất dữ liệu trước khi AI trả lời.

  • Tóm tắt tài liệu dài: hợp đồng, báo cáo tài chính, hồ sơ khách hàng, biên bản họp.

  • Phân tích codebase: hỗ trợ đội kỹ thuật tìm lỗi hoặc hiểu hệ thống cũ.

  • AI Agent đa bước: lập kế hoạch, gọi công cụ, đọc kết quả và đưa ra hành động tiếp theo.

Ví dụ, một AI Assistant kết nối với CRM, Google Drive và file server cần context window đủ lớn để chứa câu hỏi, lịch sử hội thoại và các đoạn tài liệu đã truy xuất. Nếu mỗi tài liệu chiếm vài trăm đến vài nghìn token, việc chọn đúng phần liên quan là rất quan trọng.

Điều gì xảy ra khi context window bị vượt quá giới hạn?

Vượt giới hạn context window truncation silent degradation cascading failures AI agent

Khi input vượt giới hạn context window, hệ thống phải xử lý phần thừa theo một trong nhiều cách. Nó có thể cắt bớt nội dung, tóm tắt lại hoặc từ chối request. Trong nhiều trường hợp, thông tin ở đầu hội thoại bị xóa trước.

Ba cấp độ lỗi thường gặp gồm:

  • Truncation
    Nội dung bị cắt khỏi context. AI không còn thấy phần thông tin đó khi trả lời.

  • Silent degradation
    AI vẫn trả lời trôi chảy nhưng sai chi tiết quan trọng. Người dùng khó nhận ra vì không có cảnh báo rõ ràng.

  • Cascading failures
    Trong AI Agent workflow, một kết quả công cụ bị rơi khỏi context có thể làm các bước sau dựa trên dữ liệu thiếu. Output cuối cùng vẫn có vẻ mạch lạc nhưng sai cơ sở.

Ví dụ, AI Agent được giao kiểm tra đơn hàng, gửi yêu cầu kho và báo lại cho khách. Nếu kết quả kiểm tra tồn kho bị loại khỏi context, bước gửi thông báo có thể dựa trên thông tin cũ hoặc sai.

"Lost in the middle" trong context window là hiện tượng gì?

“Lost in the middle” là hiện tượng LLM xử lý thông tin ở đầu và cuối context tốt hơn thông tin nằm ở giữa. Nguyên nhân thường liên quan đến primacy bias và recency bias. Nói đơn giản, mô hình dễ chú ý hơn đến phần mở đầu và phần gần cuối của input.

Trong thực tế, điều này có thể làm AI bỏ sót một điều khoản quan trọng nằm giữa hợp đồng, một ghi chú nằm giữa lịch sử chat hoặc một kết quả công cụ nằm giữa workflow.

Một số kiểm thử cho thấy thông tin ở đầu và cuối context có thể đạt độ chính xác 85–95%, trong khi thông tin ở giữa chỉ đạt 76–82%. Vì vậy, khi thiết kế prompt hoặc hệ thống RAG, doanh nghiệp nên đặt thông tin quan trọng ở vị trí dễ được mô hình chú ý.

Cách quản lý và tối ưu context window hiệu quả là gì?

Quản lý context window RAG compression sliding window summarization token budget isolation

Doanh nghiệp không nên chỉ chọn mô hình có context window lớn nhất. Cách tốt hơn là quản lý context rõ ràng và đưa đúng thông tin vào đúng thời điểm.

Sáu kỹ thuật nên áp dụng gồm:

  1. RAG
    Chỉ đưa đoạn tài liệu liên quan vào context thay vì nạp toàn bộ kho dữ liệu. Đây là cách truy xuất thông tin có chọn lọc giúp context nhỏ gọn và chính xác hơn.

  2. Context compression
    Nén thông tin cũ, loại bỏ phần lặp lại hoặc không còn cần thiết.

  3. Sliding / rolling window
    Giữ lại phần hội thoại gần nhất, phù hợp với chatbot chăm sóc khách hàng hoặc trợ lý nội bộ.

  4. Summarization
    Tóm tắt kết quả trung gian trong workflow để AI vẫn nắm được ý chính mà không tốn quá nhiều token.

  5. Token budget monitoring
    Theo dõi số token đã dùng cho prompt, tài liệu, công cụ và response. Việc này giúp tránh vượt giới hạn bất ngờ.

  6. Context isolation
    Tách context theo từng nhiệm vụ. Ví dụ, một task phân tích hợp đồng không nên dùng chung context với task viết email bán hàng.

Context đã nén đôi khi hiệu quả hơn context chưa nén. Lý do là thông tin nhiễu được loại bỏ, giúp mô hình tập trung vào phần thực sự liên quan.

Kết luận

Context window trong mô hình ngôn ngữ lớn là ngân sách token tạm thời, giới hạn theo phiên. Nó bao gồm toàn bộ thông tin từ system prompt, câu hỏi người dùng, lịch sử hội thoại, tài liệu truy xuất, kết quả công cụ đến phần phản hồi của AI.

Với doanh nghiệp, context window quyết định trực tiếp chất lượng chatbot, AI Assistant và AI Agent. Context quá nhỏ có thể làm AI mất ngữ cảnh. Context quá lớn nhưng thiếu kiểm soát có thể tăng chi phí, tăng độ trễ và làm thông tin quan trọng bị “lost in the middle”.

Cách triển khai tốt là quản lý đúng giới hạn context window bằng RAG, compression, sliding window, summarization, token budget monitoring và context isolation. Khi làm đúng, doanh nghiệp có thể dùng AI hiệu quả hơn, giảm lỗi âm thầm và tạo trải nghiệm ổn định hơn cho khách hàng lẫn nhân viên.

Context window có phải là bộ nhớ dài hạn của mô hình AI không?

Không. Context window là bộ nhớ tạm thời, giới hạn trong một phiên làm việc. Thông tin không được lưu giữa các session nếu không có hệ thống bộ nhớ ngoài.

Context window lớn hơn có luôn cho kết quả tốt hơn không?

Không. Context window lớn hơn có thể tăng độ trễ, chi phí tính toán và rủi ro “lost in the middle”. Hiệu quả thực tế phụ thuộc vào chất lượng thông tin trong context, không chỉ kích thước.

RAG có giúp mở rộng hiệu quả context window không?

Có. RAG giúp bù đắp giới hạn context window bằng cách chỉ đưa vào context những đoạn tài liệu liên quan nhất thay vì toàn bộ nguồn dữ liệu. Context vì vậy nhỏ gọn, dễ kiểm soát và chính xác hơn.

Đỗ Minh Đức
Tác giả
Đỗ Minh Đức

Với gần 20 năm kinh nghiệm trong ngành công nghệ, Đỗ Minh Đức hiện là Giám đốc Sản phẩm Bizfly Martech tại VCCorp. Anh được biết đến là một trong bốn người đặt nền móng cho BizChatAI, giải pháp ứng dụng trí tuệ nhân tạo để chăm sóc khách hàng tự động đa kênh.

Anh tập trung phát triển BizChatAI như một "trợ lý ảo" cho doanh nghiệp, giúp tự động hóa việc tương tác và CSKH. Công nghệ này đang thay đổi mạnh mẽ cách doanh nghiệp tiếp cận khách hàng, từ việc gửi tin nhắn, quà tri ân tự động đến ứng dụng hiệu quả cho các chuỗi bán lẻ và nhà hàng... Qua các bài viết của mình, anh chia sẻ sâu hơn về những lợi ích và cách thức hoạt động của chatbot trong kinh doanh.