Ψ₀ Hands-On (1): Tổng quan & Ý tưởng đằng sau Foundation Model cho Humanoid

Hãy tưởng tượng bạn đang đứng trong bếp. Bạn vừa đi lại giữa tủ lạnh và bàn bếp, vừa cầm dao thái rau, vừa giữ thăng bằng khi với tay lên kệ cao lấy gia vị. Đối với con người, đây là chuyện bình thường đến mức chúng ta không nghĩ về nó. Nhưng đối với robot, đây là một trong những bài toán khó nhất của ngành robotics: loco-manipulation — vừa di chuyển vừa thao tác đồ vật cùng lúc.

Và đó chính xác là bài toán mà Ψ₀ (đọc là "Psi-Zero") giải quyết. Đây là foundation model mã nguồn mở đầu tiên cho phép robot humanoid thực hiện loco-manipulation một cách trơn tru, được phát triển bởi USC Physical Superintelligence Lab (PSI Lab) phối hợp với NVIDIA.

Trong series Ψ₀ Hands-On, chúng ta sẽ đi từ hiểu ý tưởng đến cài đặt thực tế, từng bước một. Bài đầu tiên này sẽ giúp bạn nắm được bức tranh toàn cảnh trước khi lặn sâu vào code.

Tại sao Ψ₀ quan trọng?

Trước khi nói về kiến trúc hay thuật toán, hãy trả lời câu hỏi quan trọng nhất: tại sao bạn nên quan tâm đến Ψ₀?

1. Hiệu suất vượt trội với dữ liệu ít hơn

Ψ₀ đánh bại các baseline mạnh nhất hiện tại — bao gồm GR00T N1 của NVIDIA, Pi0 của Physical Intelligence, và ACT — với biên độ lớn hơn 40%, trong khi chỉ sử dụng ít hơn 10 lần dữ liệu robot. Đọc lại cho kỹ: ít dữ liệu hơn 10 lần mà kết quả tốt hơn 40%. Điều này đi ngược lại trực giác "nhiều data hơn = tốt hơn" mà ngành AI thường mặc định.

2. Giải quyết bài toán thực sự khó

Loco-manipulation không chỉ là cộng hai bài toán locomotion và manipulation lại với nhau. Khi robot vừa đi vừa cầm đồ vật, trọng tâm thay đổi liên tục, lực phản hồi từ tay ảnh hưởng đến chân, và mỗi hành động phải được phối hợp trong phạm vi mili-giây. Nếu bạn đã từng đọc về whole-body control cho humanoid, bạn sẽ hiểu đây là bài toán cực kỳ phức tạp.

3. Mã nguồn mở hoàn toàn

Không giống nhiều foundation model khác chỉ công bố paper mà giữ kín code, Ψ₀ mở toàn bộ: model weights, code huấn luyện, code inference, dataset, và cả pipeline xử lý dữ liệu. Điều này có nghĩa là bạn — có, chính bạn đang đọc bài này — có thể tải về, chạy thử, và fine-tune cho bài toán của mình.

Bài toán: Tại sao co-training thất bại?

Để hiểu tại sao Ψ₀ đặc biệt, trước tiên phải hiểu tại sao các phương pháp trước đó gặp khó khăn.

Ý tưởng cũ: Trộn dữ liệu người và robot

Nhiều nghiên cứu trước đây cố gắng huấn luyện một model duy nhất trên cả dữ liệu video người (có rất nhiều trên internet) và dữ liệu robot (ít ỏi, đắt đỏ). Ý tưởng nghe rất hợp lý: người và robot đều thao tác đồ vật, nên dữ liệu người có thể giúp robot học nhanh hơn.

Nhưng thực tế phũ phàng hơn nhiều. Có một vấn đề gọi là kinematic disparity — sự khác biệt về cơ học giữa cơ thể người và thân robot:

Bàn tay người có 27 bậc tự do (DoF), 5 ngón linh hoạt. Bàn tay Dex3-1 của Unitree chỉ có 12 DoF với 3 ngón.
Cánh tay người linh hoạt với vai, khuỷu tay, cổ tay tạo thành 7-DoF mỗi bên. Cánh tay robot có thể có cấu trúc hoàn toàn khác.
Góc nhìn camera trên đầu robot (egocentric) hoàn toàn khác với góc nhìn camera quay người từ bên ngoài (exocentric).

Khi bạn ép một model học đồng thời từ hai nguồn dữ liệu có cấu trúc khác biệt như vậy, nó giống như bắt một người vừa học lái ô tô vừa học lái máy bay cùng lúc — cả hai đều là "lái", nhưng kỹ năng cơ bản khác nhau đến mức gây nhiễu cho nhau.

Ý tưởng mới của Ψ₀: Chia để trị + Công thức dữ liệu

Ψ₀ không cố trộn mọi thứ vào một nồi. Thay vào đó, nhóm nghiên cứu nhận ra rằng cách bạn tổ chức dữ liệu và huấn luyện theo giai đoạn quan trọng hơn lượng dữ liệu bạn có. Đây là insight cốt lõi:

Staged training + data recipe > massive data

Cụ thể, Ψ₀ tách bài toán thành ba hệ thống riêng biệt, mỗi hệ thống được huấn luyện với loại dữ liệu phù hợp nhất. Và điều kỳ diệu là cách chúng kết nối với nhau.

Ba hệ thống: Não, Tay, và Chân

Cách dễ nhất để hiểu kiến trúc Ψ₀ là nghĩ về cách con người hoạt động. Khi bạn nhìn thấy một cốc nước và quyết định cầm lên uống, ba hệ thống trong cơ thể bạn phối hợp:

Não (System-2: Tư duy) — Mắt nhìn thấy cốc nước, não xử lý hình ảnh, nhận diện vật thể, và ra quyết định "cầm cốc lên". Đây là quá trình chậm, cần suy nghĩ.
Tay (System-1: Hành động) — Khi não đã quyết định, tay tự động thực hiện chuỗi hành động: với tay ra, mở bàn tay, nắm lấy cốc, nâng lên. Quá trình này nhanh, gần như phản xạ, không cần suy nghĩ từng bước.
Chân (System-0: Giữ thăng bằng) — Trong suốt quá trình, chân tự động điều chỉnh để giữ thăng bằng. Bạn không hề nghĩ về chân khi cầm cốc — chúng hoạt động hoàn toàn tự động.

Ψ₀ mô phỏng chính xác cấu trúc này:

Hệ thống	Tên gọi	Model	Tham số	Vai trò
System-2	VLM (Vision-Language Model)	Qwen3-VL-2B	2 tỷ	Nhìn + hiểu ngôn ngữ
System-1	Action Expert (MM-DiT)	Multi-Modal DiT	~500 triệu	Sinh hành động cho tay + thân trên
System-0	Locomotion Controller	RL Policy (AMO)	Nhỏ	Điều khiển chân + giữ thăng bằng

Điều quan trọng là ba hệ thống này được huấn luyện riêng biệt, mỗi hệ thống với loại dữ liệu tối ưu cho nó. Đây chính là "chia để trị" — thay vì ép một model khổng lồ học tất cả, Ψ₀ chia bài toán thành ba phần chuyên biệt.

Nếu bạn muốn hiểu sâu hơn về VLA models nói chung, bạn có thể đọc thêm bài giới thiệu VLA models trong series AI cho Robot của chúng tôi.

Ba giai đoạn huấn luyện: Từ xem YouTube đến đầu bếp chuyên nghiệp

Để giải thích quy trình huấn luyện 3 giai đoạn của Ψ₀, hãy dùng một phép so sánh mà ai cũng hiểu: học nấu ăn.

Giai đoạn 1: Xem YouTube (Pre-training trên video egocentric)

Trước khi vào bếp, bạn xem hàng trăm video nấu ăn trên YouTube. Bạn chưa biết nấu, nhưng bạn học được:

Cách người ta cầm dao, cầm xoong
Trình tự thao tác: cắt rau trước, đun nước trước khi bỏ mì
Vật thể nào đi với hành động nào (dao → cắt, muỗng → khuấy)

Trong Ψ₀, giai đoạn này sử dụng EgoDex — bộ dữ liệu 829 giờ video egocentric (góc nhìn người thứ nhất) từ các bộ dữ liệu công khai như Ego4D, EpicKitchens, và HOI4D. Model học cách hiểu hình ảnh và dự đoán hành động tay, nhưng ở dạng tổng quát — không gắn với robot cụ thể nào.

Điểm then chốt: dữ liệu egocentric được chọn có chủ đích vì góc nhìn tương tự camera trên đầu robot. Đây là lý do tại sao Ψ₀ không dùng video exocentric (quay từ bên ngoài) — vì sự khác biệt góc nhìn sẽ gây nhiễu.

Kết quả: Model có "trực giác" về thao tác đồ vật, giống như bạn xem YouTube đủ nhiều thì biết sơ sơ cách nấu ăn, dù chưa vào bếp lần nào.

Giai đoạn 2: Thực hành trong bếp (Post-training trên dữ liệu robot)

Bây giờ bạn vào bếp thực sự. Bạn có 31 giờ thực hành (tương đương 31 giờ dữ liệu teleoperation trên robot Unitree G1). Bạn áp dụng kiến thức từ YouTube vào thực tế, nhưng phải điều chỉnh vì:

Tay bạn (robot) không giống tay đầu bếp trong video
Bếp thực tế khác bếp trong video
Bạn phải học cách phối hợp tay và chân

Trong Ψ₀, giai đoạn này fine-tune action expert trên 31 giờ dữ liệu robot — một lượng nhỏ đáng ngạc nhiên. Nhưng vì model đã có kiến thức nền tảng từ giai đoạn 1, nó có thể học nhanh hơn nhiều so với bắt đầu từ đầu.

Kết quả: Model biết cách điều khiển robot cụ thể (Unitree G1), nhưng chưa giỏi task cụ thể nào.

Giai đoạn 3: Thành thạo món đặc trưng (Fine-tuning với demo cụ thể)

Cuối cùng, bạn muốn nấu hoàn hảo một món — ví dụ phở bò. Bạn cần ai đó nấu thử vài lần cho xem (tương đương 80 demonstrations cho mỗi task). Vì bạn đã biết nấu ăn nói chung, chỉ cần xem vài lần là bạn nắm được.

Trong Ψ₀, giai đoạn này fine-tune model trên chỉ 80 demo cho mỗi task cụ thể (ví dụ: nhặt lon nước, mở ngăn kéo, lau bàn). Con số 80 là cực kỳ nhỏ so với hàng nghìn demo mà các phương pháp khác cần.

Kết quả: Model thực hiện task cụ thể với tỷ lệ thành công cao — 82% trung bình, so với 50% của GR00T N1 và 30% của Pi0.

Robot đích: Unitree G1 + Dex3-1

Ψ₀ được thiết kế và kiểm chứng trên robot Unitree G1 — một humanoid nhỏ gọn từ Trung Quốc — kết hợp với bàn tay dexterous Dex3-1. Tổng cộng robot có 43 bậc tự do (DoF):

28 DoF phần thân trên: 2 cánh tay (mỗi bên 7-DoF) + 2 bàn tay Dex3-1 (mỗi bên 7 actuated DoF)
15 DoF phần chân: được điều khiển qua 8 lệnh tốc độ/hướng bởi RL controller

Sự phân chia này phản ánh chính xác kiến trúc 3 hệ thống: System-1 sinh lệnh cho 28 DoF phần trên, System-0 nhận 8 lệnh đầu vào và điều khiển 15 DoF phần dưới.

Series này sẽ dạy bạn những gì?

Đây là roadmap cho toàn bộ series Ψ₀ Hands-On:

Phần 1 (bài này): Tổng quan & Ý tưởng

Bạn đang ở đây. Hiểu bài toán, ý tưởng, và kiến trúc ở mức cao nhất.

Phần 2: Kiến trúc 3 tầng chi tiết

Deep-dive vào từng hệ thống: System-2 (VLM), System-1 (MM-DiT với Flow Matching), System-0 (RL Controller). Bạn sẽ hiểu chính xác dữ liệu chảy như thế nào từ camera đến motor.

Phần 3: EgoDex & Pipeline dữ liệu

Cách xây dựng bộ dữ liệu EgoDex, xử lý video egocentric, và tại sao data recipe quan trọng. Bạn sẽ tự tay xử lý dữ liệu video.

Phần 4: Pre-training Action Expert

Huấn luyện giai đoạn 1 — từ video egocentric đến model có "trực giác". Bạn sẽ chạy code pre-training thực tế.

Phần 5: Post-training & Fine-tuning

Từ model tổng quát đến model chuyên biệt — huấn luyện trên dữ liệu robot và fine-tune cho task cụ thể.

Phần 6: Deployment & Real-Time Chunking

Triển khai model lên robot thực — xử lý latency 160ms, Real-Time Chunking, và những thủ thuật khi chạy trên phần cứng thực.

Bạn cần chuẩn bị gì?

Để theo dõi series này, bạn cần:

Kiến thức nền tảng:

Python — thành thạo, đặc biệt PyTorch
Deep Learning cơ bản — hiểu CNN, Transformer, attention mechanism
Reinforcement Learning cơ bản — nếu chưa biết, đọc bài giới thiệu RL của chúng tôi
Diffusion Models — hiểu khái niệm cơ bản về flow matching/diffusion (sẽ giải thích kỹ trong Phần 2)

Phần cứng:

GPU với ít nhất 24GB VRAM (RTX 4090 hoặc A100) cho huấn luyện
Inference có thể chạy trên GPU 8GB

Tài nguyên chính thức:

Paper: Ψ₀: A Foundation Model for Humanoid Loco-Manipulation — Huang et al., USC PSI Lab + NVIDIA, 2026
Code: github.com/physical-superintelligence-lab/Psi0
Model weights: Có sẵn trên HuggingFace (link trong repo GitHub)
Dataset EgoDex: Có sẵn trên HuggingFace

So sánh nhanh: Ψ₀ vs. Các phương pháp khác

Để bạn có cái nhìn tổng thể về vị trí của Ψ₀ trong bức tranh nghiên cứu hiện tại:

	Ψ₀	GR00T N1	Pi0	ACT
Loco-manipulation	Co	Khong	Khong	Khong
Dữ liệu robot cần	31h + 80 demo/task	~300h+	~10,000h	~50 demo/task
Pre-training data	829h video người	In-house	In-house	Khong
Open-source	Co	Mot phan	Khong	Co
Tỷ lệ thành công TB	82%	50%	30%	45%
Latency	160ms	~200ms	~100ms	~50ms

Ghi chú: Các con số từ paper Ψ₀ trên benchmark của họ. Kết quả có thể khác trên benchmark khác.

Điều đáng chú ý là Ψ₀ là model duy nhất trong bảng thực sự giải quyết bài toán loco-manipulation — các model khác chỉ làm manipulation trên robot arm cố định hoặc locomotion riêng biệt. Đây là "sân chơi" hoàn toàn mới mà Ψ₀ đang dẫn đầu.

Nếu bạn quan tâm đến bức tranh rộng hơn về AI cho robotics, bạn có thể đọc thêm tổng quan về Embodied AI 2026 để thấy Ψ₀ nằm ở đâu trong ecosystem.

Tóm tắt

Ψ₀ đại diện cho một bước tiến quan trọng trong robotics vì ba lý do:

Phương pháp mới: Chia bài toán phức tạp (loco-manipulation) thành ba hệ thống chuyên biệt, mỗi hệ thống được tối ưu riêng.
Data efficiency: Chứng minh rằng cách tổ chức dữ liệu (staged training + egocentric video) quan trọng hơn lượng dữ liệu thuần túy.
Open-source: Mở toàn bộ code, model, và data — cho phép cộng đồng xây dựng tiếp trên nền tảng này.

Trong bài tiếp theo, chúng ta sẽ đi sâu vào kiến trúc 3 tầng — hiểu chính xác cách mỗi component hoạt động, từ Qwen3-VL-2B (não) đến MM-DiT Flow Matching (tay) đến AMO RL Controller (chân). Bạn sẽ thấy tại sao mỗi quyết định thiết kế được đưa ra, và những tradeoff đằng sau chúng.

Ψ₀ Hands-On (1): Tổng quan & Ý tưởng