Hầu hết các hệ thống Vision-Language-Action (VLA) hiện nay đều giả định rằng robot đã có một bộ điều khiển cấp thấp hoàn hảo — chỉ cần đưa ra lệnh và cơ thể robot tự biết làm gì. Nhưng với robot humanoid toàn thân, mỗi bước đi đòi hỏi hàng chục khớp phối hợp cùng lúc trong khi giữ cân bằng, đọc môi trường, và hiểu ngữ nghĩa lệnh ngôn ngữ. Đây là bài toán chưa có lời giải thực sự.
Nhóm EMBER Lab tại UC Berkeley vừa công bố LeVERB — Latent Vision-Language-Encoded Robot Behavior — framework phân cấp đầu tiên giải quyết bài toán này một cách thống nhất trên robot Unitree G1.
Paper: LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction — Haoru Xue, Xiaoyu Huang, Dantong Niu et al., arXiv 2506.13751, tháng 6/2025.
Tác giả: Haoru Xue, Xiaoyu Huang, Dantong Niu, Qiayuan Liao, Thomas Kragerud, Jan Tommy Gravdahl, Xue Bin Peng, Guanya Shi, Trevor Darrell, Koushil Sreenath, Shankar Sastry — UC Berkeley, CMU, Simon Fraser University, NTNU (Na Uy).
Vấn đề cốt lõi: Khoảng cách giữa ngôn ngữ và động lực học
Hãy tưởng tượng bạn nói với robot G1: "Đi đến cái ghế đỏ và ngồi xuống."
Câu lệnh này đơn giản với người, nhưng chứa đựng độ phức tạp khổng lồ với robot:
- Phải nhận diện ghế qua thị giác trong không gian 3D
- Định hướng cơ thể và di chuyển đến vị trí chính xác
- Thực hiện động tác ngồi — phối hợp chân, thân, tay đồng thời
- Tất cả trong khi duy trì cân bằng và tránh va chạm
Các phương pháp hiện có xử lý bài toán này theo hai cực đoan:
Hướng 1 — VLA end-to-end: Dùng mô hình lớn trực tiếp output joint angles. Ưu điểm: linh hoạt với ngôn ngữ. Nhược điểm: thiếu ý thức về dynamics, robot dễ mất thăng bằng và ngã.
Hướng 2 — WBC truyền thống: Bộ điều khiển cứng nhắc với action vocabulary định sẵn ("đi thẳng", "rẽ trái", "ngồi"). Ưu điểm: ổn định về dynamics. Nhược điểm: không hiểu ngôn ngữ tự nhiên, không thể phản ứng với thị giác linh hoạt.
LeVERB lấp đầy khoảng trống này bằng ý tưởng thanh lịch: học một không gian latent verb — từ điển hành động học được tự động — để hai tầng hệ thống giao tiếp mà không cần action vocabulary định sẵn.
Kiến trúc LeVERB: Dual-Process System
LeVERB lấy cảm hứng từ lý thuyết nhận thức "Hệ thống 1 & Hệ thống 2" của Daniel Kahneman:
- System 2 — LeVERB-VL (10 Hz): Suy nghĩ chậm, xử lý ngôn ngữ và thị giác
- System 1 — LeVERB-A (50 Hz): Phản ứng nhanh, điều khiển dynamics

LeVERB-VL: Tầng ngôn ngữ-thị giác
Input:
- Camera egocentric (camera đầu robot, 10 Hz)
- 2–3 camera góc thứ ba (third-person view)
- Lệnh ngôn ngữ tự nhiên
Kiến trúc:
- Vision encoder: SigLIP ViT-B/16 (frozen — không fine-tune)
- Fusion Transformer: kết hợp feature từ nhiều camera và text instruction
- Output: vector latent $z_t$ đại diện cho "ngữ nghĩa chuyển động" (latent verb)
LeVERB-VL không output joint angles. Nó output một vector trong không gian latent trừu tượng — "latent verb" — và chuyển cho LeVERB-A xử lý tiếp.
LeVERB-A: Tầng điều khiển dynamics
Input:
- Trạng thái proprioceptive: joint positions, IMU data, tốc độ góc
- Vector latent $z_t$ từ LeVERB-VL
Kiến trúc:
- 2-layer Transformer
- Output: joint position targets @ 50 Hz
Deployment setup: LeVERB-VL chạy trên RTX 4090 ngoài @ 10 Hz; LeVERB-A chạy ONNX onboard (C++) @ 50 Hz. Mỗi latent verb được tái sử dụng cho 5 bước điều khiển (50/10 = 5).
CVAE: Cầu nối giữa hai tầng
Cơ chế giao tiếp giữa hai tầng là Conditional VAE (CVAE) với thiết kế residual latent:
$$z_t = \text{mean}(z_{encoder}) + \text{residual}(z_{VL})$$
Ý nghĩa thực tế:
- Trong training: CVAE encoder nhận trajectory thực → encode thành latent $z_t$, giúp LeVERB-A biết chính xác chuyển động cần làm
- Trong inference: Chỉ LeVERB-VL predict $z_t$ từ vision + language — không cần trajectory thật
Thiết kế residual có mục đích rõ ràng: LeVERB-VL tập trung vào ngữ nghĩa (đi đâu, làm gì), còn CVAE encoder lo chi tiết (đi kiểu nào, tốc độ bao nhiêu). Phân công rõ ràng này là lý do tại sao ablation tắt CVAE làm giảm performance mạnh.
Data Synthesis Pipeline
Thách thức lớn nhất khi train VLA humanoid là thiếu dữ liệu robot thật. LeVERB giải quyết hoàn toàn bằng dữ liệu tổng hợp (synthetic).

Bước 1: Thu thập motion kinematics từ MoCap
- Nguồn: dataset AMASS (motion capture của người)
- Quy trình: retarget chuyển động người → Unitree G1 bằng motion retargeting
- Kết quả: 154 trajectories kinematic gốc, mỗi trajectory là một motion clip hoàn chỉnh
Bước 2: Procedural randomization × 100
Mỗi trong 154 trajectory được randomize 100 lần với:
| Mức độ | Nội dung randomize |
|---|---|
| Scene-level | Texture sàn, tường, ánh sáng, vật liệu bề mặt |
| Object-level | Màu sắc, kích thước, vị trí của ghế/bàn/object |
| Placement | Vị trí đặt object ngẫu nhiên với semantic label tự động |
| Multi-view | Render 3–4 camera đồng thời (egocentric + third-person) |
| Mirroring | Lật trái/phải để tăng diversity mà không cần thêm capture |
Kết quả: 17.1 giờ video photorealistic render bằng IsaacSim ray-tracing. Thêm 2.7 giờ trajectory language-only (không có camera) để tăng robustness khi thiếu visual input.
Bước 3: Annotate ngôn ngữ tự nhiên
Mỗi trajectory gán nhãn instruction text đa dạng:
- "Go to the brown chair and sit down"
- "Walk straight and stop at the red marker"
- "Turn left 90 degrees and approach the table"
Không dùng template cứng nhắc mà paraphrase để model học ngữ nghĩa, không học pattern chuỗi.
LeVERB-Bench: 154 tasks, 10 danh mục
Dataset tổ chức thành benchmark chuẩn:
- 154 tasks vision-language có label rõ ràng
- 10 danh mục: điều hướng, locomotion, ngồi xuống, với tay đến object, và các tác vụ kết hợp
- Sim-to-real ready: test trong sim → deploy robot thật không cần thêm data
Dataset benchmark công khai trên Hugging Face: ember-lab-berkeley/LeVERB-Bench-Dataset
Quy trình Training: 3 Phase
Phase 1: Train LeVERB-VL
Mục tiêu: Học không gian latent verb từ dữ liệu kinematics tổng hợp.
Loss function gồm 3 thành phần:
- Reconstruction loss (MSE): Đảm bảo latent verb chứa đủ thông tin về trajectory để LeVERB-A tái tạo được chuyển động
- KL divergence: Regularize distribution của latent space — đây là thành phần VAE tiêu chuẩn
- Adversarial GRL (Gradient Reversal Layer): Thành phần quan trọng nhất — align distribution giữa dữ liệu vision-language và language-only
Tại sao GRL quan trọng? Nếu model học phân biệt dữ liệu "có camera" vs "không có camera", nó sẽ lazy và chỉ dùng visual khi có camera. GRL đảo ngược gradient của adversarial classifier, buộc model không phân biệt được hai loại dữ liệu → phải học ngữ nghĩa thuần túy từ ngôn ngữ, không phụ thuộc modality.
Ablation xác nhận: tắt GRL → success rate rớt từ 58.5% xuống 33.0%.
Phase 2: Train Teacher WBC Policies
Mục tiêu: Tạo teacher policies RL chuyên biệt cho từng nhóm chuyển động.
- Algorithm: PPO (Proximal Policy Optimization)
- Input: privileged observations (proprioception đầy đủ + reference trajectory — không thực tế trong deployment)
- Reward:
motion_tracking_accuracy + λ₁·smoothness + λ₂·joint_limit_cost - Nhiều teacher, mỗi teacher chuyên 1 nhóm task (navigation, sitting, reaching...)
Teacher policies đạt performance cao vì có đầy đủ thông tin, nhưng không thể dùng trực tiếp trong thực tế (cần privileged obs).
Phase 3: Distill LeVERB-A
Mục tiêu: Student policy học từ teacher, chỉ dùng input thực tế.
- Algorithm: DAgger (Dataset Aggregation) — tốt hơn behavior cloning thuần túy vì liên tục rollout và collect thêm data ở distribution thực
- Input student: proprioception thực + latent verb $z_t$
- Trick quan trọng: Trong training, sample $z_t$ từ full distribution của CVAE (không chỉ mean), giúp policy học multi-modal behavior
Nếu chỉ dùng mean của CVAE (tắt sampling): success rate rớt xuống 6.5% — thảm họa! Điều này cho thấy tầm quan trọng của việc model không bị "mode collapse" về một cách thực hiện task duy nhất.
Kết quả Benchmark
Bảng ablation đầy đủ
| Cấu hình | Overall Success Rate |
|---|---|
| LeVERB (Full) | 58.5% |
| Không có Discriminator (GRL) | 33.0% |
| Không có Kinematics Encoder | 53.0% |
| End-to-end VLA (không WBC) | 25.5% |
| Không có Low-level Sampling | 6.5% |
LeVERB full tốt hơn VLA end-to-end 7.8 lần — con số này không phải ngẫu nhiên mà phản ánh insight căn bản: ngôn ngữ và vật lý học là hai thế giới khác nhau, cần cầu nối thông minh.
Phân tích theo loại task
| Task | Success Rate | Ghi chú |
|---|---|---|
| Navigation đơn giản (target phía trước) | 80% | LeVERB xuất sắc |
| Navigation phức tạp (target phía sau) | 30% | Cần quay người 180° |
| Môi trường cluttered | 25–50% | Tùy mật độ vật cản |
| Ngồi xuống ghế (visual sit) | 5% | Bottleneck hiện tại |
Navigation đơn giản đạt 80% là rất ấn tượng cho zero-shot từ simulation. Task ngồi ghế chỉ đạt 5% — đây là giới hạn rõ nhất, do đòi hỏi chính xác tuyệt đối về vị trí cơ thể.

Deploy thực tế trên Unitree G1
Hardware setup
[RTX 4090 External GPU]
│ 10 Hz
│ LeVERB-VL (vision + language → latent verb)
▼
[Unitree G1 Robot]
└─ ONNX Runtime (C++)
│ 50 Hz
│ LeVERB-A (latent verb + proprioception → joint positions)
▼
[Actuators] → full-body motion
Zero-shot sim-to-real transfer
Toàn bộ training diễn ra trong simulation — không cần bất kỳ dữ liệu robot thật nào. Khi deploy, LeVERB chạy ngay trên G1 thật mà không cần fine-tuning.
Điều này có được nhờ 3 yếu tố:
- Domain randomization tích cực: Texture, ánh sáng, vật thể đa dạng → model không overfit vào specific visual environment
- Separation of concerns: LeVERB-VL lo ngữ nghĩa (robust với visual domain gap), LeVERB-A lo dynamics (train với physics simulator được calibrate kỹ)
- Tần số điều khiển phù hợp: 50 Hz đủ responsive cho dynamics thực tế của G1
Robustness với ngôn ngữ tự nhiên
Thử nghiệm với nhiều cách diễn đạt khác nhau cho cùng một task:
- "Go to the chair" / "Walk toward the seat" / "Approach the sitting furniture"
- "Turn left" / "Rotate to the left" / "Face left direction"
Tất cả đều hoạt động — robot hiểu ngữ nghĩa, không phụ thuộc vào string literal.
So sánh với các phương pháp liên quan
| Phương pháp | WBC | Vision | Language | Sim-to-real |
|---|---|---|---|---|
| LeVERB | ✅ Latent | ✅ Multi-cam | ✅ Natural | ✅ Zero-shot |
| WholebodyVLA ICLR 2026 | ✅ Unified | ✅ | ✅ | Partial |
| VLA-JEPA | Partial | ✅ | ✅ | ✅ |
| DREAM-Chunk | Partial | ✅ | ✅ | ✅ |
| VLA end-to-end | ❌ | ✅ | ✅ | Khó |
LeVERB nổi bật ở chỗ là paper đầu tiên tạo ra benchmark toàn diện (150+ tasks, 10 categories) cho vision-language WBC humanoid, kết hợp với deploy zero-shot từ sim sang real.
Hạn chế và hướng phát triển
Bottlenecks hiện tại
1. Latency của LeVERB-VL: 100ms (10 Hz) là chậm cho task cần phản ứng tức thì. Nếu robot gặp chướng ngại vật đột ngột, LeVERB-A phải chờ đến chu kỳ 10 Hz tiếp theo.
2. Chưa có manipulation: LeVERB hiện tập trung loco-navigation và locomotion. Chưa có grasping, pushing, hay dexterous manipulation. Bước tiếp theo cần mở rộng sang tác vụ tay.
3. Scale dữ liệu còn nhỏ: 154 tasks từ 154 MoCap trajectories. Cần scale lên hàng nghìn tasks để cover long-tail behaviors.
4. Phụ thuộc GPU ngoài: RTX 4090 external là bottleneck về tính di động. Cần optimize LeVERB-VL cho Jetson Orin hoặc NPU onboard.
Hướng mở rộng tiềm năng
- Manipulation: Thêm tác vụ tay vào latent verb space (grasping, pushing, inserting)
- Scale: Kết hợp với internet human video data (xem thêm WholebodyVLA data pipeline)
- Efficiency: Quantize LeVERB-VL → Jetson Orin NX standalone deployment
- Memory: Thêm temporal context để handle long-horizon tasks (không chỉ reactive)
Ý nghĩa thực tiễn
LeVERB không chỉ là kết quả lab — nó là blueprint cho cách deploy robot humanoid trong môi trường thực:
- Logistics: "Mang hộp đỏ lên kệ thứ 3" → robot di chuyển, với tay, đặt đúng vị trí
- Hỗ trợ người cao tuổi: "Lấy giúp tôi chiếc ghế ở góc phòng" → robot tự làm
- Nghiên cứu lab: "Dọn bàn theo cấu hình A" → robot hiểu và thực hiện
Khi manipulation được thêm vào (dự kiến trong các paper tiếp theo của EMBER Lab), LeVERB sẽ trở thành framework hoàn chỉnh cho humanoid service robot.
Kết luận
LeVERB giải quyết một trong những bài toán khó nhất của robotics: làm thế nào để ngôn ngữ tự nhiên điều khiển toàn thân robot trong thế giới vật lý mà không cần action vocabulary định sẵn.
Câu trả lời — latent verb space học được tự động, kết nối hai tầng semantic và dynamics — vừa thanh lịch về lý thuyết, vừa hiệu quả trong thực tế. Con số 7.8× so với VLA end-to-end và 80% trên navigation task là minh chứng rõ ràng.
Đây là paper cần đọc nếu bạn đang nghiên cứu whole-body VLA, sim-to-real transfer, hoặc hierarchical robot control.



