Tại sao AI không thể nhớ theo thiết kế gốc? Hành trình từ kiến trúc Transformer 2017 đến React + MemGPT năm 2023, và chiến lược bộ nhớ của OpenAI, Google, Anthropic cùng open-source ở hiện tại.
Xem trên YouTube
Gốc rễ nằm ở kiến trúc Transformer — bài báo "Attention Is All You Need" (2017) không có chỗ nào lưu bộ nhớ.
Xem từ 00:01:29Mọi công cụ AI (ChatGPT, Claude, Gemini...) đều dùng một Large Language Model làm bộ não. Mô hình này được sinh ra từ bài báo Attention Is All You Need năm 2017.
Kiến trúc trong bài báo gọi là Transformer: đầu vào là text → xử lý qua attention → đầu ra là text dựa trên xác suất. Không có chỗ nào lưu dữ liệu cả.
Người dùng chat → AI sinh văn bản. Người vẫn là người đi làm. AI chỉ gợi ý, không tự hành động → quên cũng không sao, chat lại được.
AI hành động. Một task có thể chạy 4–5 giờ. Nếu quên giữa chừng → làm sai → vỡ mồm. Đây là lý do bộ nhớ trở thành bắt buộc.
"Kiến trúc Transformer là nền tảng của mọi bố LLM ngoài kia — nhưng trong kiến trúc đó không có chỗ nào lưu lại thông tin gì cả."
— Trần Quốc Huy, 00:03:41
Các tác giả Sinno + Karthik Narasimhan (cũng là tác giả bài React) đề xuất: sao không mô phỏng 4 loại trí nhớ của con người cho AI Agent?
Xem từ 00:06:42Bộ nhớ làm việc (ngắn hạn)
Những gì đang nghĩ trong đầu ngay lúc này. Làm xong sẽ quên.
Phản xạ / kỹ năng
Ví dụ: đi xe đạp, gõ 10 ngón — học lâu rồi thành phản xạ.
Kiến thức chung về thế giới
"Hà Nội là thủ đô Việt Nam", "nước sôi 100°C" — không cần cố nhớ.
Ký ức về sự kiện
"Hôm qua đưa con đi bơi" — trí nhớ gắn với một mốc thời gian cụ thể.
Nhóm Princeton nhìn lại lịch sử và thấy dự án SOAR từng thử mô phỏng trí nhớ con người bằng cách đưa ra các luật IF-THEN. Ví dụ: nếu phòng nóng và quạt tắt, thì bật quạt.
Memory → Action → Decision. Đây là mô hình để agent "có nhận thức" và tương tác được với nhau.
Xem từ 00:11:48Trụ cột nền
Chia thành ngắn hạn (working) và dài hạn (procedural / semantic / episodic).
Agent có thể làm gì?
Hai nhóm: nội tại (đọc/ghi bộ nhớ, dùng LLM suy luận) và ngoại tại (API, web, robot, con người).
Quyết định hành động nào
Main loop: đề xuất hành động → đánh giá & gán trọng số → chọn → nếu chưa hài lòng → lặp lại.
Đại học Stanford tạo ra một ngôi làng ảo với 25 AI agent, mỗi ông một cuộc đời (có ông cắt tóc, có ông đi làm, có quan hệ cha-con...).
Để chúng tự trao đổi → agent nhớ được toàn bộ hội thoại → tự tổ chức sinh nhật, tự lên kế hoạch gặp nhau. Đây là bằng chứng trực quan cho việc trí nhớ dài hạn (episodic) hoạt động.
Nếu context window bị giới hạn, hãy mượn ý tưởng virtual memory từ hệ điều hành.
Xem từ 00:16:38Mọi LLM, dù mạnh đến mấy, đều có giới hạn token. Giống thùng nước — đổ đầy thì phần cũ phải tràn ra.
Các hãng có thể tăng giới hạn này, nhưng...
Dù tăng context window lên, LLM vẫn quên phần giữa. Vì LLM học từ tài liệu người — mà người thì viết trọng tâm ở đầu hoặc cuối, ít khi giữa.
→ Có giới hạn to cũng không giải quyết triệt để.
MemGPT mượn tư tưởng từ hệ điều hành máy tính:
RAM 8–32 GB (nhanh, hữu hạn) + Ổ cứng 1–2 TB (chậm hơn, rất rộng). OS tự động chuyển dữ liệu giữa hai bên.
Main context (giống RAM — nằm trong LLM prompt) + External storage (giống ổ cứng — kho nhớ bên ngoài). Agent tự động swap.
working_context.append(...) — khi gần đầy, lưu
xuống external storagerecall_storage.search(...) — khi cần thông tin
cũ, tự tra về context chính"Điều đột phá là agent có thể viết hàm để soi hệ thống và tự làm việc — không cần con người quản lý bộ nhớ thay."
— tóm ý, 00:20:20
Cùng tư tưởng "bộ nhớ ngoài", nhưng cách tiếp cận 3 hãng hoàn toàn khác nhau.
Xem từ 00:21:12Tự động lưu lịch sử chat và trích xuất thông tin về người dùng. Xem ở Settings → Memory.
Dùng hệ sinh thái Google làm bộ nhớ
ngoài. Bật ở Personal Intelligence → Connected Apps.
Gom chat + file vào Project. Mọi session trong project cùng chia sẻ bộ nhớ đó.
Hai cách tiếp cận bộ nhớ từ cộng đồng mã nguồn mở, không phải trả phí.
Xem từ 00:25:42Trợ lý cá nhân kết nối lịch, email của bạn — khi bạn lặp đi lặp lại một quy trình, agent tự đúc thành skill để dùng lại sau.
Bạn viết content nhiều lần theo quy trình: nghiên cứu đối thủ → hook → CTA → Hermes tự gói thành skill "viết content" → lần sau gọi là agent tự chạy cả flow.
Ghi bộ nhớ ra file Markdown theo ngày — memory_2025-04-22.md. Agent đọc lại file khi cần.
Khi AI nhớ được, nó không còn là chat bot — nó là nhân sự của công ty bạn.
Xem từ 00:29:18Ba năng lực này đang chín dần cùng lúc → sớm muộn sẽ áp dụng vào mọi doanh nghiệp.
"Bạn không cần biết lập trình — chỉ cần hiểu việc bạn đang làm."
Cái gì cần nhớ? Cái gì bỏ? Nhớ bừa là vô nghĩa.
Giá 1M token có thể chênh 100× giữa model. Phải biết tính.
Agent được phép làm gì, KHÔNG được phép làm gì?
Nhiều agent phối hợp với nhau như nhân sự công ty.