LeVERB: Điều khiển toàn thân humanoid bằng ngôn ngữ-thị giác tiềm ẩn

Hầu hết các hệ thống Vision-Language-Action (VLA) hiện nay đều giả định rằng robot đã có một bộ điều khiển cấp thấp hoàn hảo — chỉ cần đưa ra lệnh và cơ thể robot tự biết làm gì. Nhưng với robot humanoid toàn thân, mỗi bước đi đòi hỏi hàng chục khớp phối hợp cùng lúc trong khi giữ cân bằng, đọc môi trường, và hiểu ngữ nghĩa lệnh ngôn ngữ. Đây là bài toán chưa có lời giải thực sự.

Nhóm EMBER Lab tại UC Berkeley vừa công bố LeVERB — Latent Vision-Language-Encoded Robot Behavior — framework phân cấp đầu tiên giải quyết bài toán này một cách thống nhất trên robot Unitree G1.

Paper: LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction — Haoru Xue, Xiaoyu Huang, Dantong Niu et al., arXiv 2506.13751, tháng 6/2025.

Tác giả: Haoru Xue, Xiaoyu Huang, Dantong Niu, Qiayuan Liao, Thomas Kragerud, Jan Tommy Gravdahl, Xue Bin Peng, Guanya Shi, Trevor Darrell, Koushil Sreenath, Shankar Sastry — UC Berkeley, CMU, Simon Fraser University, NTNU (Na Uy).

Vấn đề cốt lõi: Khoảng cách giữa ngôn ngữ và động lực học

Hãy tưởng tượng bạn nói với robot G1: "Đi đến cái ghế đỏ và ngồi xuống."

Câu lệnh này đơn giản với người, nhưng chứa đựng độ phức tạp khổng lồ với robot:

Phải nhận diện ghế qua thị giác trong không gian 3D
Định hướng cơ thể và di chuyển đến vị trí chính xác
Thực hiện động tác ngồi — phối hợp chân, thân, tay đồng thời
Tất cả trong khi duy trì cân bằng và tránh va chạm

Các phương pháp hiện có xử lý bài toán này theo hai cực đoan:

Hướng 1 — VLA end-to-end: Dùng mô hình lớn trực tiếp output joint angles. Ưu điểm: linh hoạt với ngôn ngữ. Nhược điểm: thiếu ý thức về dynamics, robot dễ mất thăng bằng và ngã.

Hướng 2 — WBC truyền thống: Bộ điều khiển cứng nhắc với action vocabulary định sẵn ("đi thẳng", "rẽ trái", "ngồi"). Ưu điểm: ổn định về dynamics. Nhược điểm: không hiểu ngôn ngữ tự nhiên, không thể phản ứng với thị giác linh hoạt.

LeVERB lấp đầy khoảng trống này bằng ý tưởng thanh lịch: học một không gian latent verb — từ điển hành động học được tự động — để hai tầng hệ thống giao tiếp mà không cần action vocabulary định sẵn.

Kiến trúc LeVERB: Dual-Process System

LeVERB lấy cảm hứng từ lý thuyết nhận thức "Hệ thống 1 & Hệ thống 2" của Daniel Kahneman:

System 2 — LeVERB-VL (10 Hz): Suy nghĩ chậm, xử lý ngôn ngữ và thị giác
System 1 — LeVERB-A (50 Hz): Phản ứng nhanh, điều khiển dynamics

Quy trình thu thập dữ liệu và training LeVERB: 3 bước từ motion capture đến distillation — nguồn: arXiv 2506.13751

LeVERB-VL: Tầng ngôn ngữ-thị giác

Input:

Camera egocentric (camera đầu robot, 10 Hz)
2–3 camera góc thứ ba (third-person view)
Lệnh ngôn ngữ tự nhiên

Kiến trúc:

Vision encoder: SigLIP ViT-B/16 (frozen — không fine-tune)
Fusion Transformer: kết hợp feature từ nhiều camera và text instruction
Output: vector latent $z_t$ đại diện cho "ngữ nghĩa chuyển động" (latent verb)

LeVERB-VL không output joint angles. Nó output một vector trong không gian latent trừu tượng — "latent verb" — và chuyển cho LeVERB-A xử lý tiếp.

LeVERB-A: Tầng điều khiển dynamics

Input:

Trạng thái proprioceptive: joint positions, IMU data, tốc độ góc
Vector latent $z_t$ từ LeVERB-VL

Kiến trúc:

2-layer Transformer
Output: joint position targets @ 50 Hz

Deployment setup: LeVERB-VL chạy trên RTX 4090 ngoài @ 10 Hz; LeVERB-A chạy ONNX onboard (C++) @ 50 Hz. Mỗi latent verb được tái sử dụng cho 5 bước điều khiển (50/10 = 5).

CVAE: Cầu nối giữa hai tầng

Cơ chế giao tiếp giữa hai tầng là Conditional VAE (CVAE) với thiết kế residual latent:

$$z_t = \text{mean}(z_{encoder}) + \text{residual}(z_{VL})$$

Ý nghĩa thực tế:

Trong training: CVAE encoder nhận trajectory thực → encode thành latent $z_t$, giúp LeVERB-A biết chính xác chuyển động cần làm
Trong inference: Chỉ LeVERB-VL predict $z_t$ từ vision + language — không cần trajectory thật

Thiết kế residual có mục đích rõ ràng: LeVERB-VL tập trung vào ngữ nghĩa (đi đâu, làm gì), còn CVAE encoder lo chi tiết (đi kiểu nào, tốc độ bao nhiêu). Phân công rõ ràng này là lý do tại sao ablation tắt CVAE làm giảm performance mạnh.

Data Synthesis Pipeline

Thách thức lớn nhất khi train VLA humanoid là thiếu dữ liệu robot thật. LeVERB giải quyết hoàn toàn bằng dữ liệu tổng hợp (synthetic).

Môi trường LeVERB-Bench: hàng trăm lựa chọn texture, góc camera đa chiều, và 10 danh mục task đa dạng — nguồn: arXiv 2506.13751

Bước 1: Thu thập motion kinematics từ MoCap

Nguồn: dataset AMASS (motion capture của người)
Quy trình: retarget chuyển động người → Unitree G1 bằng motion retargeting
Kết quả: 154 trajectories kinematic gốc, mỗi trajectory là một motion clip hoàn chỉnh

Bước 2: Procedural randomization × 100

Mỗi trong 154 trajectory được randomize 100 lần với:

Mức độ	Nội dung randomize
Scene-level	Texture sàn, tường, ánh sáng, vật liệu bề mặt
Object-level	Màu sắc, kích thước, vị trí của ghế/bàn/object
Placement	Vị trí đặt object ngẫu nhiên với semantic label tự động
Multi-view	Render 3–4 camera đồng thời (egocentric + third-person)
Mirroring	Lật trái/phải để tăng diversity mà không cần thêm capture

Kết quả: 17.1 giờ video photorealistic render bằng IsaacSim ray-tracing. Thêm 2.7 giờ trajectory language-only (không có camera) để tăng robustness khi thiếu visual input.

Bước 3: Annotate ngôn ngữ tự nhiên

Mỗi trajectory gán nhãn instruction text đa dạng:

"Go to the brown chair and sit down"
"Walk straight and stop at the red marker"
"Turn left 90 degrees and approach the table"

Không dùng template cứng nhắc mà paraphrase để model học ngữ nghĩa, không học pattern chuỗi.

LeVERB-Bench: 154 tasks, 10 danh mục

Dataset tổ chức thành benchmark chuẩn:

154 tasks vision-language có label rõ ràng
10 danh mục: điều hướng, locomotion, ngồi xuống, với tay đến object, và các tác vụ kết hợp
Sim-to-real ready: test trong sim → deploy robot thật không cần thêm data

Dataset benchmark công khai trên Hugging Face: ember-lab-berkeley/LeVERB-Bench-Dataset

Quy trình Training: 3 Phase

Phase 1: Train LeVERB-VL

Mục tiêu: Học không gian latent verb từ dữ liệu kinematics tổng hợp.

Loss function gồm 3 thành phần:

Reconstruction loss (MSE): Đảm bảo latent verb chứa đủ thông tin về trajectory để LeVERB-A tái tạo được chuyển động
KL divergence: Regularize distribution của latent space — đây là thành phần VAE tiêu chuẩn
Adversarial GRL (Gradient Reversal Layer): Thành phần quan trọng nhất — align distribution giữa dữ liệu vision-language và language-only

Tại sao GRL quan trọng? Nếu model học phân biệt dữ liệu "có camera" vs "không có camera", nó sẽ lazy và chỉ dùng visual khi có camera. GRL đảo ngược gradient của adversarial classifier, buộc model không phân biệt được hai loại dữ liệu → phải học ngữ nghĩa thuần túy từ ngôn ngữ, không phụ thuộc modality.

Ablation xác nhận: tắt GRL → success rate rớt từ 58.5% xuống 33.0%.

Phase 2: Train Teacher WBC Policies

Mục tiêu: Tạo teacher policies RL chuyên biệt cho từng nhóm chuyển động.

Algorithm: PPO (Proximal Policy Optimization)
Input: privileged observations (proprioception đầy đủ + reference trajectory — không thực tế trong deployment)
Reward: motion_tracking_accuracy + λ₁·smoothness + λ₂·joint_limit_cost
Nhiều teacher, mỗi teacher chuyên 1 nhóm task (navigation, sitting, reaching...)

Teacher policies đạt performance cao vì có đầy đủ thông tin, nhưng không thể dùng trực tiếp trong thực tế (cần privileged obs).

Phase 3: Distill LeVERB-A

Mục tiêu: Student policy học từ teacher, chỉ dùng input thực tế.

Algorithm: DAgger (Dataset Aggregation) — tốt hơn behavior cloning thuần túy vì liên tục rollout và collect thêm data ở distribution thực
Input student: proprioception thực + latent verb $z_t$
Trick quan trọng: Trong training, sample $z_t$ từ full distribution của CVAE (không chỉ mean), giúp policy học multi-modal behavior

Nếu chỉ dùng mean của CVAE (tắt sampling): success rate rớt xuống 6.5% — thảm họa! Điều này cho thấy tầm quan trọng của việc model không bị "mode collapse" về một cách thực hiện task duy nhất.

Kết quả Benchmark

Bảng ablation đầy đủ

Cấu hình	Overall Success Rate
LeVERB (Full)	58.5%
Không có Discriminator (GRL)	33.0%
Không có Kinematics Encoder	53.0%
End-to-end VLA (không WBC)	25.5%
Không có Low-level Sampling	6.5%

LeVERB full tốt hơn VLA end-to-end 7.8 lần — con số này không phải ngẫu nhiên mà phản ánh insight căn bản: ngôn ngữ và vật lý học là hai thế giới khác nhau, cần cầu nối thông minh.

Phân tích theo loại task

Task	Success Rate	Ghi chú
Navigation đơn giản (target phía trước)	80%	LeVERB xuất sắc
Navigation phức tạp (target phía sau)	30%	Cần quay người 180°
Môi trường cluttered	25–50%	Tùy mật độ vật cản
Ngồi xuống ghế (visual sit)	5%	Bottleneck hiện tại

Navigation đơn giản đạt 80% là rất ấn tượng cho zero-shot từ simulation. Task ngồi ghế chỉ đạt 5% — đây là giới hạn rõ nhất, do đòi hỏi chính xác tuyệt đối về vị trí cơ thể.

LeVERB trên Unitree G1 thật: phản ứng với variation ngôn ngữ (trên) và spatial reasoning ghế (dưới) — nguồn: arXiv 2506.13751

Deploy thực tế trên Unitree G1

Hardware setup

[RTX 4090 External GPU]
     │  10 Hz
     │  LeVERB-VL (vision + language → latent verb)
     ▼
[Unitree G1 Robot]
  └─ ONNX Runtime (C++)
     │  50 Hz
     │  LeVERB-A (latent verb + proprioception → joint positions)
     ▼
  [Actuators] → full-body motion

Zero-shot sim-to-real transfer

Toàn bộ training diễn ra trong simulation — không cần bất kỳ dữ liệu robot thật nào. Khi deploy, LeVERB chạy ngay trên G1 thật mà không cần fine-tuning.

Điều này có được nhờ 3 yếu tố:

Domain randomization tích cực: Texture, ánh sáng, vật thể đa dạng → model không overfit vào specific visual environment
Separation of concerns: LeVERB-VL lo ngữ nghĩa (robust với visual domain gap), LeVERB-A lo dynamics (train với physics simulator được calibrate kỹ)
Tần số điều khiển phù hợp: 50 Hz đủ responsive cho dynamics thực tế của G1

Robustness với ngôn ngữ tự nhiên

Thử nghiệm với nhiều cách diễn đạt khác nhau cho cùng một task:

"Go to the chair" / "Walk toward the seat" / "Approach the sitting furniture"
"Turn left" / "Rotate to the left" / "Face left direction"

Tất cả đều hoạt động — robot hiểu ngữ nghĩa, không phụ thuộc vào string literal.

So sánh với các phương pháp liên quan

Phương pháp	WBC	Vision	Language	Sim-to-real
LeVERB	✅ Latent	✅ Multi-cam	✅ Natural	✅ Zero-shot
WholebodyVLA ICLR 2026	✅ Unified	✅	✅	Partial
VLA-JEPA	Partial	✅	✅	✅
DREAM-Chunk	Partial	✅	✅	✅
VLA end-to-end	❌	✅	✅	Khó

LeVERB nổi bật ở chỗ là paper đầu tiên tạo ra benchmark toàn diện (150+ tasks, 10 categories) cho vision-language WBC humanoid, kết hợp với deploy zero-shot từ sim sang real.

Hạn chế và hướng phát triển

Bottlenecks hiện tại

1. Latency của LeVERB-VL: 100ms (10 Hz) là chậm cho task cần phản ứng tức thì. Nếu robot gặp chướng ngại vật đột ngột, LeVERB-A phải chờ đến chu kỳ 10 Hz tiếp theo.

2. Chưa có manipulation: LeVERB hiện tập trung loco-navigation và locomotion. Chưa có grasping, pushing, hay dexterous manipulation. Bước tiếp theo cần mở rộng sang tác vụ tay.

3. Scale dữ liệu còn nhỏ: 154 tasks từ 154 MoCap trajectories. Cần scale lên hàng nghìn tasks để cover long-tail behaviors.

4. Phụ thuộc GPU ngoài: RTX 4090 external là bottleneck về tính di động. Cần optimize LeVERB-VL cho Jetson Orin hoặc NPU onboard.

Hướng mở rộng tiềm năng

Manipulation: Thêm tác vụ tay vào latent verb space (grasping, pushing, inserting)
Scale: Kết hợp với internet human video data (xem thêm WholebodyVLA data pipeline)
Efficiency: Quantize LeVERB-VL → Jetson Orin NX standalone deployment
Memory: Thêm temporal context để handle long-horizon tasks (không chỉ reactive)

Ý nghĩa thực tiễn

LeVERB không chỉ là kết quả lab — nó là blueprint cho cách deploy robot humanoid trong môi trường thực:

Logistics: "Mang hộp đỏ lên kệ thứ 3" → robot di chuyển, với tay, đặt đúng vị trí
Hỗ trợ người cao tuổi: "Lấy giúp tôi chiếc ghế ở góc phòng" → robot tự làm
Nghiên cứu lab: "Dọn bàn theo cấu hình A" → robot hiểu và thực hiện

Khi manipulation được thêm vào (dự kiến trong các paper tiếp theo của EMBER Lab), LeVERB sẽ trở thành framework hoàn chỉnh cho humanoid service robot.

Kết luận

LeVERB giải quyết một trong những bài toán khó nhất của robotics: làm thế nào để ngôn ngữ tự nhiên điều khiển toàn thân robot trong thế giới vật lý mà không cần action vocabulary định sẵn.

Câu trả lời — latent verb space học được tự động, kết nối hai tầng semantic và dynamics — vừa thanh lịch về lý thuyết, vừa hiệu quả trong thực tế. Con số 7.8× so với VLA end-to-end và 80% trên navigation task là minh chứng rõ ràng.

Đây là paper cần đọc nếu bạn đang nghiên cứu whole-body VLA, sim-to-real transfer, hoặc hierarchical robot control.

Bài viết liên quan

Paper: LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction — Haoru Xue, Xiaoyu Huang, Dantong Niu et al., arXiv 2506.13751, tháng 6/2025.

Vấn đề cốt lõi: Khoảng cách giữa ngôn ngữ và động lực học

Hãy tưởng tượng bạn nói với robot G1: "Đi đến cái ghế đỏ và ngồi xuống."

Câu lệnh này đơn giản với người, nhưng chứa đựng độ phức tạp khổng lồ với robot:

Phải nhận diện ghế qua thị giác trong không gian 3D
Định hướng cơ thể và di chuyển đến vị trí chính xác
Thực hiện động tác ngồi — phối hợp chân, thân, tay đồng thời
Tất cả trong khi duy trì cân bằng và tránh va chạm

Các phương pháp hiện có xử lý bài toán này theo hai cực đoan: