YouTube • 2026 Trần Quốc Huy 🧠 AI / Agent

Điểm yếu "hay quên"
của AI Agent

Tại sao AI không thể nhớ theo thiết kế gốc? Hành trình từ kiến trúc Transformer 2017 đến React + MemGPT năm 2023, và chiến lược bộ nhớ của OpenAI, Google, Anthropic cùng open-source ở hiện tại.

Xem trên YouTube
Điểm yếu hay quên của AI Agent
33:11 • 8 chương
2
bài báo nền tảng
4
loại bộ nhớ con người
5+
hãng được phân tích

Tổng quan

Bạn sẽ học được gì?

8 chủ đề — đi từ gốc rễ vấn đề đến chiến lược của từng hãng


🧠
Chương 1

Tại sao AI "hay quên"?

Gốc rễ nằm ở kiến trúc Transformer — bài báo "Attention Is All You Need" (2017) không có chỗ nào lưu bộ nhớ.

Xem từ 00:01:29
Cốt lõi

LLM = bộ não

Mọi công cụ AI (ChatGPT, Claude, Gemini...) đều dùng một Large Language Model làm bộ não. Mô hình này được sinh ra từ bài báo Attention Is All You Need năm 2017.

Kiến trúc trong bài báo gọi là Transformer: đầu vào là text → xử lý qua attention → đầu ra là text dựa trên xác suất. Không có chỗ nào lưu dữ liệu cả.

Vậy vấn đề nằm ở đâu?

  • Trong kiến trúc gốc không có slot nào để ghi nhớ.
  • Nói chuyện càng dài, AI càng quên phần trước.
  • Phải yêu cầu lặp lại → khó dùng trong công việc thực tế.

GenAI → Agentic AI: Vì sao bộ nhớ trở thành bắt buộc?

Trước đây

Generative AI

Người dùng chat → AI sinh văn bản. Người vẫn là người đi làm. AI chỉ gợi ý, không tự hành động → quên cũng không sao, chat lại được.

Hiện tại

Agentic AI

AI hành động. Một task có thể chạy 4–5 giờ. Nếu quên giữa chừng → làm sai → vỡ mồm. Đây là lý do bộ nhớ trở thành bắt buộc.

"Kiến trúc Transformer là nền tảng của mọi bố LLM ngoài kia — nhưng trong kiến trúc đó không có chỗ nào lưu lại thông tin gì cả."

— Trần Quốc Huy, 00:03:41


🧬
Chương 2 · Bài báo #1 (Princeton, 2023)

Mô phỏng trí nhớ con người

Các tác giả Sinno + Karthik Narasimhan (cũng là tác giả bài React) đề xuất: sao không mô phỏng 4 loại trí nhớ của con người cho AI Agent?

Xem từ 00:06:42
1

Working memory

Bộ nhớ làm việc (ngắn hạn)

Những gì đang nghĩ trong đầu ngay lúc này. Làm xong sẽ quên.

2
🚴

Procedural

Phản xạ / kỹ năng

Ví dụ: đi xe đạp, gõ 10 ngón — học lâu rồi thành phản xạ.

3
📚

Semantic

Kiến thức chung về thế giới

"Hà Nội là thủ đô Việt Nam", "nước sôi 100°C" — không cần cố nhớ.

4
📸

Episodic

Ký ức về sự kiện

"Hôm qua đưa con đi bơi" — trí nhớ gắn với một mốc thời gian cụ thể.

00:10:16

Tiền lệ lịch sử: dự án SOAR (rules-based)

Nhóm Princeton nhìn lại lịch sử và thấy dự án SOAR từng thử mô phỏng trí nhớ con người bằng cách đưa ra các luật IF-THEN. Ví dụ: nếu phòng nóng và quạt tắt, thì bật quạt.

❌ Hạn chế của SOAR

  • Luật quá cứng nhắc.
  • Đời thực có vô vàn trường hợp — không bao giờ viết đủ IF.
  • Dự án phải dừng lại.

✅ LLM giải được điểm yếu đó

  • Hiểu ngôn ngữ tự nhiên, hiểu hoàn cảnh.
  • Linh hoạt — không cần đưa ra luật.
  • SOAR bổ trợ kiến trúc bộ nhớ cho LLM.
  • Hai ông kết hợp → breakthrough.

🧩
Chương 3 · Framework 3 trụ cột

Kiến trúc nhận thức cho Agent

Memory → Action → Decision. Đây là mô hình để agent "có nhận thức" và tương tác được với nhau.

Xem từ 00:11:48
💭

1. Memory

Trụ cột nền

Chia thành ngắn hạn (working) và dài hạn (procedural / semantic / episodic).

Agent lưu biến trạng thái tạm thời vào bộ nhớ ngắn hạn; trải nghiệm/kiến thức đúc kết được vào dài hạn.

2. Action

Agent có thể làm gì?

Hai nhóm: nội tại (đọc/ghi bộ nhớ, dùng LLM suy luận) và ngoại tại (API, web, robot, con người).

"Nội tại" là vòng: lấy từ dài hạn → tạm thời → LLM xử lý → đúc kết → ghi lại vào dài hạn.
🎯

3. Decision

Quyết định hành động nào

Main loop: đề xuất hành động → đánh giá & gán trọng số → chọn → nếu chưa hài lòng → lặp lại.

Đây là cơ chế tự lên kế hoạch và tự sửa lỗi của agent.
00:13:01

Demo kinh điển: ngôi làng Smallville của Stanford

Đại học Stanford tạo ra một ngôi làng ảo với 25 AI agent, mỗi ông một cuộc đời (có ông cắt tóc, có ông đi làm, có quan hệ cha-con...).

Để chúng tự trao đổi → agent nhớ được toàn bộ hội thoại → tự tổ chức sinh nhật, tự lên kế hoạch gặp nhau. Đây là bằng chứng trực quan cho việc trí nhớ dài hạn (episodic) hoạt động.

🔁 Quy trình nội tại của agent

1. Nhận
Lấy thông tin từ bộ nhớ dài hạn → đẩy vào bộ nhớ tạm thời
2. Xào nấu
LLM suy luận trong bộ nhớ tạm thời
3. Kết luận
Đúc kết thành kiến thức mới
4. Học
Ghi trải nghiệm vào bộ nhớ dài hạn
5. Hành động
Tương tác ngoại cảnh (API, UI, người dùng)

💾
Chương 4 · Bài báo #2 (2023)

MemGPT — Bộ nhớ "ảo" cho AI

Nếu context window bị giới hạn, hãy mượn ý tưởng virtual memory từ hệ điều hành.

Xem từ 00:16:38

Vấn đề 1: Context Window hữu hạn

Mọi LLM, dù mạnh đến mấy, đều có giới hạn token. Giống thùng nước — đổ đầy thì phần cũ phải tràn ra.

Các hãng có thể tăng giới hạn này, nhưng...

Vấn đề 2: "Lost in the Middle"

Dù tăng context window lên, LLM vẫn quên phần giữa. Vì LLM học từ tài liệu người — mà người thì viết trọng tâm ở đầu hoặc cuối, ít khi giữa.

→ Có giới hạn to cũng không giải quyết triệt để.

💡 Ý tưởng: Virtual Memory cho AI

MemGPT mượn tư tưởng từ hệ điều hành máy tính:

Máy tính

RAM 8–32 GB (nhanh, hữu hạn) + Ổ cứng 1–2 TB (chậm hơn, rất rộng). OS tự động chuyển dữ liệu giữa hai bên.

MemGPT

Main context (giống RAM — nằm trong LLM prompt) + External storage (giống ổ cứng — kho nhớ bên ngoài). Agent tự động swap.

Hàm quản lý tự động (do agent tự gọi):
working_context.append(...) — khi gần đầy, lưu xuống external storage
recall_storage.search(...) — khi cần thông tin cũ, tự tra về context chính

"Điều đột phá là agent có thể viết hàm để soi hệ thống và tự làm việc — không cần con người quản lý bộ nhớ thay."

— tóm ý, 00:20:20


🏢
Chương 5 · 3 ông lớn thương mại

Chiến lược bộ nhớ của OpenAI, Google, Anthropic

Cùng tư tưởng "bộ nhớ ngoài", nhưng cách tiếp cận 3 hãng hoàn toàn khác nhau.

Xem từ 00:21:12

🤖 OpenAI · ChatGPT

Auto-log
00:21:16

Tự động lưu lịch sử chat và trích xuất thông tin về người dùng. Xem ở Settings → Memory.

Ưu điểm
  • Không cần khai báo thủ công
  • Lịch sử xuyên session
Nhược: không có dấu thời gian — không biết được AI đã lưu thông tin này vào tuần trước hay năm ngoái.

🔎 Google · Gemini

Ecosystem
00:22:00

Dùng hệ sinh thái Google làm bộ nhớ ngoài. Bật ở Personal Intelligence → Connected Apps.

Nguồn dữ liệu
  • Gmail, Google Calendar
  • Google Drive, YouTube
  • Có thể hỏi: "video YouTube mới nhất của tôi là gì?"
Điểm mạnh: không cần upload — hệ thống tự chọc trực tiếp vào dịch vụ Google bạn đang dùng.

📁 Anthropic · Claude

Project-based
00:24:28

Gom chat + file vào Project. Mọi session trong project cùng chia sẻ bộ nhớ đó.

Cách dùng
  • Tạo project (VD: "demo")
  • Upload file (số liệu, tài liệu)
  • Mọi session đều biết file đó là gì
Nhược: phải tự định nghĩa file — mô tả thủ công file chứa gì.

🔓
Chương 6 · Open-source

Hermes Agent & OpenClaw

Hai cách tiếp cận bộ nhớ từ cộng đồng mã nguồn mở, không phải trả phí.

Xem từ 00:25:42

🎭 Hermes Agent

Auto-skill
00:25:49

Trợ lý cá nhân kết nối lịch, email của bạn — khi bạn lặp đi lặp lại một quy trình, agent tự đúc thành skill để dùng lại sau.

VÍ DỤ CASE STUDY

Bạn viết content nhiều lần theo quy trình: nghiên cứu đối thủ → hook → CTA → Hermes tự gói thành skill "viết content" → lần sau gọi là agent tự chạy cả flow.

Tuỳ biến: có thể yêu cầu "khi check email, đừng hiển thị link Zoom" → Hermes lưu preference đó vào memory.

📝 OpenClaw

Markdown-first
00:28:28

Ghi bộ nhớ ra file Markdown theo ngày — memory_2025-04-22.md. Agent đọc lại file khi cần.

ƯU ĐIỂM
  • Memory = plain text → dễ đọc, dễ sửa, dễ backup
  • Có timestamp ngầm qua tên file
  • Version qua git một cách tự nhiên
Tác giả có video riêng về kiến trúc OpenClaw — search "kiến trúc OpenClaw Trần Quốc Huy" trên YouTube.

🚀
Chương 7 · Xu hướng

Bộ nhớ sẽ trở thành tài sản

Khi AI nhớ được, nó không còn là chat bot — nó là nhân sự của công ty bạn.

Xem từ 00:29:18

🏆 Ba năng lực hội tụ

  • 1
    LLM siêu khoẻ — toán, code, phân tích, viết, xử lý ảnh đều làm được.
  • 2
    Bộ nhớ dài hạn — các hãng đều đang đẩy mạnh theo chiến lược MemGPT.
  • 3
    Agentic — không chat, mà thực hiện công việc liên tục 4–8h.

Ba năng lực này đang chín dần cùng lúc → sớm muộn sẽ áp dụng vào mọi doanh nghiệp.

🔀 Dịch chuyển vai trò của bạn

Từ
User — chat với AI
Sang
Designer — tạo hệ thống Agentic AI

"Bạn không cần biết lập trình — chỉ cần hiểu việc bạn đang làm."

🎯 4 câu hỏi bạn cần trả lời được khi thiết kế hệ Agentic AI

CHIẾN LƯỢC BỘ NHỚ

Cái gì cần nhớ? Cái gì bỏ? Nhớ bừa là vô nghĩa.

CHỌN BỘ NÃO (LLM)

Giá 1M token có thể chênh 100× giữa model. Phải biết tính.

PHÂN QUYỀN

Agent được phép làm gì, KHÔNG được phép làm gì?

TEAM OF AGENTS

Nhiều agent phối hợp với nhau như nhân sự công ty.


🎯
Kết

Lấy gì về sau 33 phút?

Xem từ 00:31:58

💡 5 điều đáng nhớ

  1. Gốc rễ: kiến trúc Transformer (2017) vốn không có bộ nhớ — mọi LLM đều "quên" theo thiết kế.
  2. Breakthrough: hai bài báo năm 2023 từ Princeton mở ra cách mô phỏng 4 loại trí nhớ con người + ý tưởng virtual memory của MemGPT.
  3. Tất cả hãng đang đi theo cùng một tư tưởng: bộ nhớ ngoài LLM. OpenAI auto-log, Google dùng ecosystem, Anthropic dùng Project, open-source dùng markdown hoặc skill.
  4. Bộ nhớ = tài sản — khi agent tích luỹ trải nghiệm qua thời gian, nó chuyển thành vốn của doanh nghiệp.
  5. Vai trò của bạn phải dịch chuyển từ user sang người thiết kế hệ Agentic.