Ψ₀ Hands-On (6): Ablation & Bài học rút ra

Đây là bài cuối cùng trong series Ψ₀ Hands-On. Sau 5 bài đi sâu vào kiến trúc, huấn luyện, dữ liệu, và inference — giờ chúng ta lùi lại một bước và hỏi: điều gì thực sự quan trọng? Ablation studies chính là công cụ để trả lời câu hỏi đó. Và từ những con số ablation, chúng ta sẽ rút ra 5 bài học có thể áp dụng cho bất kỳ dự án AI-for-Robotics nào.

Ablation study là gì? (Phép loại suy thuốc)

Nếu bạn chưa quen với khái niệm ablation trong machine learning, hãy nghĩ về nó như thế này:

Bạn đang uống 5 loại thuốc bổ mỗi ngày và cảm thấy khỏe hơn. Nhưng bạn không biết thuốc nào thực sự có tác dụng. Cách duy nhất để tìm ra: bỏ từng loại một và xem sức khỏe thay đổi ra sao. Nếu bỏ vitamin D mà bạn mệt hẳn — vitamin D quan trọng. Nếu bỏ vitamin B12 mà không thay đổi gì — B12 có thể không cần thiết.

Trong nghiên cứu AI, ablation study làm đúng điều này: loại bỏ từng thành phần của hệ thống và đo xem performance giảm bao nhiêu. Thành phần nào gây giảm nhiều nhất khi bị loại bỏ = thành phần quan trọng nhất.

Ψ₀ có rất nhiều thành phần sáng tạo: staged training, EgoDex pre-training, MM-DiT architecture, Real-Time Chunking, FAST tokenizer... Nhưng cái nào thực sự tạo nên sự khác biệt? Hãy cùng xem.

5 thí nghiệm ablation và kết quả

Ablation 1: Không có EgoDex pre-training (No EgoDex)

Loại bỏ: Toàn bộ Stage 2 — không pre-train trên dữ liệu egocentric video từ EgoDex dataset. Model chỉ được train trực tiếp trên 80 robot demonstrations.

Kết quả: Success rate giảm thảm hại — từ 73% trung bình xuống còn khoảng 25-35% tùy task. Đây là ablation gây giảm performance nhiều nhất.

Tại sao? Chỉ 80 demonstrations là quá ít để model học được biểu diễn visual-motor tốt. EgoDex cung cấp hàng nghìn giờ video egocentric của người thao tác với đồ vật — model học được "bàn tay nên di chuyển như thế nào khi tương tác với cốc, chai, khăn" trước khi bao giờ nhìn thấy robot. Không có nền tảng này, model như một sinh viên mới vào lab mà chưa từng cầm dụng cụ.

Ablation 2: Chỉ 10% EgoDex data

Loại bỏ: Giữ Stage 2 nhưng chỉ dùng 10% dữ liệu EgoDex.

Kết quả: Success rate khoảng 50-55% — tốt hơn "no EgoDex" rất nhiều, nhưng vẫn kém 100% EgoDex khoảng 18-20%.

Bài học: Pre-training data scale matters. Mỗi giờ egocentric video bổ sung đều cải thiện performance, chưa thấy saturation. Điều này gợi ý rằng nếu có thêm dữ liệu EgoDex, Ψ₀ có thể còn tốt hơn nữa. Đây là kết quả đáng khích lệ cho hướng nghiên cứu thu thập dữ liệu egocentric quy mô lớn.

Ablation 3: Naive DiT thay vì MM-DiT

Loại bỏ: Thay kiến trúc MM-DiT (Multi-Modal DiT với dual-stream attention) bằng Naive DiT đơn giản hơn — giống cách GR00T N1.6 của NVIDIA sử dụng.

Kết quả: Success rate giảm 5-10%. Naive DiT vẫn hoạt động, nhưng kém hơn ở những task đòi hỏi coordination tinh tế giữa vision và action (ví dụ: rót nước — cần nhìn mực nước liên tục để điều chỉnh tilt angle).

Tại sao? MM-DiT cho phép visual tokens và action tokens "nói chuyện" với nhau qua cross-attention ở mỗi layer, thay vì chỉ concatenate rồi self-attend. Hãy tưởng tượng MM-DiT như đường cao tốc 2 làn — visual information và action information chạy song song nhưng có thể "nhìn sang" bất cứ lúc nào. Naive DiT giống đường 1 làn — tất cả chen nhau.

Tuy nhiên, mức cải thiện 5-10% cho thấy architecture quan trọng nhưng không phải yếu tố quyết định. Dữ liệu và phương pháp training quan trọng hơn.

Ablation 4: Không có Real-Time Chunking (No RTC)

Loại bỏ: Tắt RTC — robot chờ inference xong rồi mới hành động (blocking inference).

Kết quả: Success rate giảm 3-5%, nhưng quan trọng hơn: collision rate tăng đáng kể và chuyển động robot giật cục, không tự nhiên.

Phân tích: RTC không ảnh hưởng nhiều đến "model có đúng không" mà ảnh hưởng đến "robot có thực thi được không". Ở những task chậm (handoff), không RTC vẫn OK. Nhưng ở task nhanh (fill water, pour bottle), thiếu RTC gây ra khoảng trống 160ms giữa các action — robot "đông cứng" rồi nhảy đến vị trí tiếp theo, gây rung lắc và đổ nước.

Ablation 5: Multi-task training thay vì single-task

Loại bỏ: Thay vì fine-tune 1 model riêng cho mỗi task (8 models), train 1 model chung cho cả 8 tasks.

Kết quả: Multi-task model kém hơn single-task models trung bình 8-12%. Đặc biệt, các task khó (fill_water, pull_tray) giảm nhiều nhất.

Tại sao? Với chỉ 80 demonstrations/task, mỗi task chỉ có 80 examples — quá ít cho multi-task learning. Khi ghép 8 tasks vào 1 model (640 demos tổng), model bị negative transfer: kiến thức học từ task "wipe bowl" can thiệp vào task "pour bottle". Staged training của Ψ₀ giảm thiểu negative transfer bằng cách pre-train chung trên EgoDex (stage 2) rồi fine-tune riêng (stage 3), nhưng multi-task fine-tuning vẫn gặp vấn đề ở stage 3.

Đây là trade-off lớn nhất của Ψ₀: để đạt performance cao, bạn cần 1 model riêng cho mỗi task. Điều này không scale tốt — 100 tasks = 100 models = 100× compute cho fine-tuning.

Xếp hạng mức đóng góp của từng thành phần

Từ 5 ablation trên, chúng ta có thể xếp hạng:

Thứ tự	Thành phần	Mức đóng góp	Khi loại bỏ
1	Staged training (3 stages)	+30-40%	Không có stage 2+3 → model gần như random
2	EgoDex pre-training	+20-30%	No EgoDex → 25-35% success rate
3	MM-DiT architecture	+5-10%	Naive DiT vẫn work, nhưng kém ở task phức tạp
4	Real-Time Chunking	+3-5%	Không RTC → giật cục, va chạm nhiều hơn

Bài học rõ ràng: data recipe và training strategy quan trọng hơn architecture. Bạn có thể dùng Naive DiT thay MM-DiT và chỉ mất 5-10%. Nhưng nếu bỏ EgoDex pre-training, bạn mất 30-40%. Đây là kết luận nhất quán với nhiều nghiên cứu gần đây trong AI for Robotics.

So sánh chi tiết với baselines

Ψ₀ không tồn tại trong chân không — nó cạnh tranh với hàng loạt phương pháp khác. Hãy hiểu từng baseline và tại sao Ψ₀ vượt trội.

Bảng so sánh toàn diện

Model	Kiến trúc	Training data	Avg Success	Điểm mạnh	Điểm yếu
Ψ₀	VLM + MM-DiT + RL	EgoDex + 80 demos/task	73%	Staged training, few-shot	Single-task only
Pi0.5	VLM + DiT (co-train)	Cross-embodiment + demos	65%	Multi-robot support	Negative transfer
GR00T N1.6	Naive DiT	NVIDIA sim data + demos	58%	Strong sim2real	Naive DiT bottleneck
Diffusion Policy	U-Net DDPM	Task-specific demos	52%	Simple, proven	100-step inference
H-RDT	Transformer	Demos only	48%	No VLM overhead	Limited perception
EgoVLA	VLM + MLP	Ego4D + demos	45%	Egocentric focus	No flow matching
InternVLA-M1	Large VLM	Internet-scale + demos	42%	Huge knowledge	Not robot-optimized
ACT	VAE + Transformer	Task-specific demos	38%	Ultra-fast inference	Low capacity

Tại sao Ψ₀ thắng?

1. Staged training tránh negative transfer. Pi0.5 co-train VLM và action expert cùng lúc — khi VLM gradient cập nhật, nó vô tình "phá" representation mà action expert đang dùng. Ψ₀ freeze VLM ở stage 3, chỉ train MM-DiT — an toàn hơn nhiều.

2. Egocentric video match robot camera. EgoVLA cũng dùng egocentric data (Ego4D), nhưng Ego4D chứa nhiều hoạt động không liên quan đến manipulation (nấu ăn, đi bộ, lái xe). EgoDex được curate đặc biệt cho dexterous manipulation — mỗi clip đều có bàn tay tương tác với vật thể. Chất lượng hơn số lượng.

3. MM-DiT — đường cao tốc hai chiều. So với Naive DiT (GR00T), MM-DiT cho phép cross-modal attention sâu hơn. So với U-Net (Diffusion Policy), DiT scale tốt hơn với model size. So với MLP head (EgoVLA), DiT expressive hơn cho multi-modal action distributions.

4. 80 demonstrations đủ nhờ pre-training. ACT, Diffusion Policy, H-RDT đều cần hàng trăm đến hàng nghìn demos cho mỗi task. Ψ₀ chỉ cần 80 — vì EgoDex pre-training đã cung cấp nền tảng visual-motor. Đây là lợi thế cực kỳ thực tế: thu thập 80 demos mất vài giờ, thu thập 1000 demos mất vài tuần.

5 bài học quan trọng nhất từ Ψ₀

Sau khi phân tích ablation và so sánh baselines, đây là 5 bài học mà tôi nghĩ có giá trị vượt xa project Ψ₀.

Bài học 1: Data recipe quan trọng hơn data quantity

Ψ₀ không dùng nhiều data nhất — Pi0.5 và InternVLA-M1 có nhiều hơn rất nhiều. Nhưng Ψ₀ có đúng loại data: egocentric dexterous manipulation video. 1 giờ video EgoDex có giá trị hơn 100 giờ video YouTube random về robot.

Áp dụng rộng hơn: Trong bất kỳ dự án ML nào, trước khi thu thập thêm data, hãy hỏi: "data mới có cùng distribution với deployment không?" Nếu bạn train robot cắt cỏ, 10 giờ video cắt cỏ tốt hơn 1000 giờ video robot nấu ăn.

Bài học 2: Chia để trị (3 hệ thống)

Thay vì train 1 model end-to-end (pixel → torque), Ψ₀ chia thành 3 hệ thống chuyên biệt: VLM cho perception, MM-DiT cho planning, RL cho control. Mỗi hệ thống được tối ưu riêng với loss function và data phù hợp.

Tại sao hiệu quả? Mỗi hệ thống hoạt động ở tần số khác nhau: VLM cần ~160ms/frame (chấp nhận được — con người cũng nhìn chậm), nhưng control cần 16ms/step (reflexes phải nhanh). Gộp chung → bottleneck. Tách riêng → mỗi phần chạy tối ưu.

Áp dụng rộng hơn: Khi hệ thống phức tạp, đừng cố nhét tất cả vào 1 model. Tách thành modules có interface rõ ràng, mỗi module tối ưu riêng. Đây là bài học kinh điển từ software engineering mà ML community đang học lại.

Bài học 3: Staged training tránh negative transfer

Train tất cả cùng lúc (joint training/co-training) nghe hấp dẫn nhưng thường gặp negative transfer — gradient từ task A phá representation cho task B. Ψ₀ giải quyết bằng 3 stages: train VLM riêng → pre-train MM-DiT trên EgoDex → fine-tune MM-DiT trên robot data (freeze VLM).

Áp dụng rộng hơn: Nếu bạn có model multi-task bị performance thấp, thử staged training: pre-train chung → fine-tune riêng. Hoặc freeze backbone → chỉ train head. Negative transfer là kẻ thù thầm lặng của multi-task learning.

Bài học 4: Kiến trúc quan trọng nhưng ít hơn bạn nghĩ

MM-DiT chỉ cải thiện 5-10% so với Naive DiT. Trong khi đó, EgoDex pre-training cải thiện 20-30%. Nhiều researcher dành hàng tháng thiết kế architecture mới nhưng chỉ cải thiện vài phần trăm — trong khi cùng thời gian đó, cải thiện data pipeline có thể đem lại nhiều hơn.

Áp dụng rộng hơn: Đừng bị cuốn vào "architecture lottery" — thử 100 kiến trúc khác nhau. Thay vào đó: chọn architecture đủ tốt (Transformer/DiT), rồi đầu tư thời gian vào data quality, training recipe, và evaluation. Đây cũng là triết lý của Imitation Learning hiện đại.

Bài học 5: Foundation models cho phép few-shot robotics

80 demonstrations cho mỗi task — đây là con số cực kỳ nhỏ trong robotics. Trước đây, 80 demos chỉ đủ cho task đơn giản nhất. Ψ₀ chứng minh rằng với foundation model pre-training tốt, 80 demos đủ cho loco-manipulation phức tạp trên humanoid robot.

Điều này thay đổi hoàn toàn kinh tế học của robot learning: thu thập 80 demos mất 2-4 giờ với teleoperation. So với 1000+ demos trước đây (hàng tuần), đây là bước nhảy 10-50x. Hình dung bạn có thể dạy robot một kỹ năng mới trong nửa ngày thay vì nửa tháng.

Giới hạn của Ψ₀: Những gì chưa giải quyết

Dù ấn tượng, Ψ₀ còn nhiều hạn chế cần thừa nhận:

1. Single-task scaling. Mỗi task cần 1 model riêng. 100 tasks = 100 models = 100 × 4GB storage + 100 × fine-tuning runs. Đây là bottleneck lớn nhất cho deployment thực tế. Pi0.5 giải quyết tốt hơn ở khía cạnh này với co-training, dù performance thấp hơn.

2. Robot-specific. Ψ₀ chỉ demo trên Unitree G1 + Dex3-1. Chuyển sang robot khác (ví dụ: Fourier GR-2 hay Boston Dynamics Atlas) cần:

Train lại System-0 (RL controller) hoàn toàn — vì dynamics khác nhau
Thu thập lại 80 demos — vì camera angle và kinematics khác
System-1 có thể transfer phần nào nhờ EgoDex pre-training, nhưng chưa được verify

3. Indoor only. Mọi thí nghiệm trong paper diễn ra trong phòng lab với bàn làm việc cố định, ánh sáng kiểm soát, và vật thể quen thuộc. Outdoor deployment (ánh sáng thay đổi, địa hình không bằng phẳng, vật thể lạ) là câu chuyện hoàn toàn khác.

4. Compute cost. Training full pipeline (VLM + EgoDex pre-train + fine-tune) cần 8× A100 GPU trong 2-3 ngày. Inference cần ít nhất 1 GPU A5000. Đây không phải hệ thống bạn chạy trên Raspberry Pi — và đó là vấn đề lớn cho edge deployment trong manufacturing.

5. Không có long-horizon planning. Mọi task trong paper kéo dài tối đa 6 giây. Các task thực tế trong sản xuất (ví dụ: lắp ráp 20 bước) cần planning dài hơn nhiều — và Ψ₀ chưa chứng minh khả năng này.

Hướng nghiên cứu cải tiến

Dựa trên những hạn chế trên, đây là các hướng nghiên cứu mà tôi nghĩ có tiềm năng lớn:

1. Multi-task fine-tuning hiệu quả hơn. Thay vì train riêng mỗi task, dùng LoRA adapters — mỗi task chỉ cần thêm 1-2% parameters. 100 tasks = 1 base model + 100 tiny adapters = vài hundred MB thay vì 400GB. Đây là hướng đi mà Pi0 đang theo đuổi.

2. Cross-embodiment transfer. Nếu EgoDex pre-training đã dạy model hiểu "bàn tay cầm cốc" từ human video, liệu kiến thức này có transfer được sang nhiều loại robot gripper không? Nghiên cứu gần đây từ RT-2 và Octo cho thấy tiềm năng.

3. Sim-to-Real với synthetic EgoDex. Thay vì thu thập video egocentric thật, generate bằng simulation (Omniverse, SAPIEN) với domain randomization. Nếu thành công, pre-training data trở nên vô hạn.

4. Hierarchical planning + Ψ₀. Dùng LLM (GPT-4, Claude) để phân tách long-horizon task thành sub-tasks ngắn, rồi gọi Ψ₀ cho từng sub-task. Kết hợp sức mạnh reasoning của LLM với motor control của Ψ₀.

5. On-device inference optimization. Quantize Ψ₀ xuống INT4/INT8, prune model, hoặc dùng distillation để tạo student model chạy được trên NVIDIA Jetson. Đây là bước bắt buộc cho deployment trong sản xuất thực tế.

Bạn đã học được gì sau series này?

Nếu bạn đã theo dõi cả 6 bài, bạn bây giờ có thể:

Giải thích kiến trúc 3 hệ thống (System-0/1/2) của Ψ₀ và tại sao nó hiệu quả hơn end-to-end
Hiểu staged training — tại sao train theo 3 giai đoạn tránh negative transfer
Phân biệt MM-DiT vs Naive DiT và khi nào multi-modal attention quan trọng
Triển khai Flow Matching inference — từ noise đến action qua velocity field
Cấu hình Real-Time Chunking — 2 thread bất đồng bộ cho real-time control
Đánh giá model đúng cách — closed-loop > open-loop, ablation để hiểu contribution
Đọc và phân tích robotics paper — nhìn ra điểm mạnh, điểm yếu, và hướng cải tiến

Đây không chỉ là kiến thức về Ψ₀ — đây là tư duy phân tích mà bạn có thể áp dụng cho bất kỳ paper nào trong VLA models, Diffusion Policy, hoặc robotics research nói chung.

Bước tiếp theo cho bạn

Reproduce kết quả

# 1. Clone và setup
git clone https://github.com/physical-superintelligence-lab/Psi0.git
cd Psi0 && uv sync

# 2. Download checkpoints
huggingface-cli download psi-lab/psi0-checkpoints --local-dir checkpoints/

# 3. Serve model
bash scripts/serve_psi0-rtc.sh

# 4. Chạy SIMPLE eval (cần Docker + GPU)
docker run --gpus all --network host \
    psi-lab/simple-eval:latest \
    python eval.py --task handoff --num-episodes 10

Bắt đầu với task handoff (success rate 9/10) để verify setup, rồi thử task khó hơn như fill_water.

Thử task của riêng bạn

Nếu bạn có access đến Unitree G1 (hoặc bất kỳ humanoid nào), pipeline để thêm task mới:

Thu thập 80+ teleoperation demos
Convert sang format HDF5 theo chuẩn Ψ₀
Fine-tune MM-DiT (stage 3) trên demos mới (~4h trên 1x A100)
Serve và eval

Đọc thêm

Paper gốc: Ψ₀: A Foundation Model for Humanoid Loco-Manipulation — USC PSI Lab + NVIDIA
EgoDex dataset: Kiểm tra repository cho link download
SIMPLE simulator: Documentation trong repo chính
Flow Matching theory: Lipman et al., "Flow Matching for Generative Modeling" (ICLR 2023)
FAST tokenizer: Curtis et al., "FAST: Efficient Action Tokenization for Vision-Language-Action Models" (2024)

Tham gia cộng đồng

GitHub Issues trên Psi0 repo — đặt câu hỏi, report bugs
Humanoid robotics community đang phát triển nhanh — theo dõi ICRA, CoRL, RSS hàng năm
Nếu bạn ở Việt Nam, kết nối qua VnRobo community để thảo luận và chia sẻ kết quả

Lời kết

Ψ₀ không phải model hoàn hảo — nó vẫn single-task, vẫn cần GPU mạnh, vẫn chỉ hoạt động indoor. Nhưng nó chứng minh một điều quan trọng: foundation model approach hoạt động cho humanoid loco-manipulation. Với 80 demos và staged training đúng cách, robot humanoid có thể học các kỹ năng manipulation phức tạp mà trước đây cần hàng nghìn demos hoặc hand-crafted controllers.

Chúng ta đang ở giai đoạn đầu của cuộc cách mạng này. Ψ₀, Pi0, GR00T — mỗi bước tiến đều mở ra khả năng mới. Và với codebase open-source, bạn không chỉ đọc paper — bạn có thể chạy, sửa, và cải tiến chính mình.

Hẹn gặp bạn ở series tiếp theo.