VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam
VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
  1. Trang chủ
  2. Blog
  3. LeVERB: Điều khiển toàn thân humanoid bằng ngôn ngữ-thị giác tiềm ẩn
wholebody-vlawholebody-vlahumanoidvlawhole-body-controlunitree-g1reinforcement-learninglatent-actionvision-languageberkeleysim2real

LeVERB: Điều khiển toàn thân humanoid bằng ngôn ngữ-thị giác tiềm ẩn

LeVERB (UC Berkeley) — framework phân cấp đầu tiên cho điều khiển toàn thân humanoid bằng latent VLA, zero-shot sim-to-real trên Unitree G1, đạt 58.5% thành công.

Nguyễn Anh Tuấn24 tháng 6, 202613 phút đọc
LeVERB: Điều khiển toàn thân humanoid bằng ngôn ngữ-thị giác tiềm ẩn

Hầu hết các hệ thống Vision-Language-Action (VLA) hiện nay đều giả định rằng robot đã có một bộ điều khiển cấp thấp hoàn hảo — chỉ cần đưa ra lệnh và cơ thể robot tự biết làm gì. Nhưng với robot humanoid toàn thân, mỗi bước đi đòi hỏi hàng chục khớp phối hợp cùng lúc trong khi giữ cân bằng, đọc môi trường, và hiểu ngữ nghĩa lệnh ngôn ngữ. Đây là bài toán chưa có lời giải thực sự.

Nhóm EMBER Lab tại UC Berkeley vừa công bố LeVERB — Latent Vision-Language-Encoded Robot Behavior — framework phân cấp đầu tiên giải quyết bài toán này một cách thống nhất trên robot Unitree G1.

Paper: LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction — Haoru Xue, Xiaoyu Huang, Dantong Niu et al., arXiv 2506.13751, tháng 6/2025.

Tác giả: Haoru Xue, Xiaoyu Huang, Dantong Niu, Qiayuan Liao, Thomas Kragerud, Jan Tommy Gravdahl, Xue Bin Peng, Guanya Shi, Trevor Darrell, Koushil Sreenath, Shankar Sastry — UC Berkeley, CMU, Simon Fraser University, NTNU (Na Uy).

Vấn đề cốt lõi: Khoảng cách giữa ngôn ngữ và động lực học

Hãy tưởng tượng bạn nói với robot G1: "Đi đến cái ghế đỏ và ngồi xuống."

Câu lệnh này đơn giản với người, nhưng chứa đựng độ phức tạp khổng lồ với robot:

  • Phải nhận diện ghế qua thị giác trong không gian 3D
  • Định hướng cơ thể và di chuyển đến vị trí chính xác
  • Thực hiện động tác ngồi — phối hợp chân, thân, tay đồng thời
  • Tất cả trong khi duy trì cân bằng và tránh va chạm

Các phương pháp hiện có xử lý bài toán này theo hai cực đoan:

Hướng 1 — VLA end-to-end: Dùng mô hình lớn trực tiếp output joint angles. Ưu điểm: linh hoạt với ngôn ngữ. Nhược điểm: thiếu ý thức về dynamics, robot dễ mất thăng bằng và ngã.

Hướng 2 — WBC truyền thống: Bộ điều khiển cứng nhắc với action vocabulary định sẵn ("đi thẳng", "rẽ trái", "ngồi"). Ưu điểm: ổn định về dynamics. Nhược điểm: không hiểu ngôn ngữ tự nhiên, không thể phản ứng với thị giác linh hoạt.

LeVERB lấp đầy khoảng trống này bằng ý tưởng thanh lịch: học một không gian latent verb — từ điển hành động học được tự động — để hai tầng hệ thống giao tiếp mà không cần action vocabulary định sẵn.

Khuyến nghị công cụ

Stack train/deploy cho VLA

Train trên cloud/workstation, deploy bản tối ưu xuống Jetson hoặc robot computer.

Cloud GPU for VLA / policy training Dùng cho imitation learning, diffusion policy, RL và fine-tuning model robotics. Xem cloud GPU → NVIDIA Jetson Orin NX / Orin Nano Máy deploy edge cho perception, logging và inference đã tối ưu. Xem Jetson → Hugging Face / robotics dataset hosting Lưu dataset, checkpoint và model card để workflow LeRobot/VLA dễ chia sẻ hơn. Xem platform →

Kiến trúc LeVERB: Dual-Process System

LeVERB lấy cảm hứng từ lý thuyết nhận thức "Hệ thống 1 & Hệ thống 2" của Daniel Kahneman:

  • System 2 — LeVERB-VL (10 Hz): Suy nghĩ chậm, xử lý ngôn ngữ và thị giác
  • System 1 — LeVERB-A (50 Hz): Phản ứng nhanh, điều khiển dynamics

Quy trình thu thập dữ liệu và training LeVERB: 3 bước từ motion capture đến distillation — nguồn: arXiv 2506.13751
Quy trình thu thập dữ liệu và training LeVERB: 3 bước từ motion capture đến distillation — nguồn: arXiv 2506.13751

LeVERB-VL: Tầng ngôn ngữ-thị giác

Input:

  • Camera egocentric (camera đầu robot, 10 Hz)
  • 2–3 camera góc thứ ba (third-person view)
  • Lệnh ngôn ngữ tự nhiên

Kiến trúc:

  • Vision encoder: SigLIP ViT-B/16 (frozen — không fine-tune)
  • Fusion Transformer: kết hợp feature từ nhiều camera và text instruction
  • Output: vector latent $z_t$ đại diện cho "ngữ nghĩa chuyển động" (latent verb)

LeVERB-VL không output joint angles. Nó output một vector trong không gian latent trừu tượng — "latent verb" — và chuyển cho LeVERB-A xử lý tiếp.

LeVERB-A: Tầng điều khiển dynamics

Input:

  • Trạng thái proprioceptive: joint positions, IMU data, tốc độ góc
  • Vector latent $z_t$ từ LeVERB-VL

Kiến trúc:

  • 2-layer Transformer
  • Output: joint position targets @ 50 Hz

Deployment setup: LeVERB-VL chạy trên RTX 4090 ngoài @ 10 Hz; LeVERB-A chạy ONNX onboard (C++) @ 50 Hz. Mỗi latent verb được tái sử dụng cho 5 bước điều khiển (50/10 = 5).

CVAE: Cầu nối giữa hai tầng

Cơ chế giao tiếp giữa hai tầng là Conditional VAE (CVAE) với thiết kế residual latent:

$$z_t = \text{mean}(z_{encoder}) + \text{residual}(z_{VL})$$

Ý nghĩa thực tế:

  • Trong training: CVAE encoder nhận trajectory thực → encode thành latent $z_t$, giúp LeVERB-A biết chính xác chuyển động cần làm
  • Trong inference: Chỉ LeVERB-VL predict $z_t$ từ vision + language — không cần trajectory thật

Thiết kế residual có mục đích rõ ràng: LeVERB-VL tập trung vào ngữ nghĩa (đi đâu, làm gì), còn CVAE encoder lo chi tiết (đi kiểu nào, tốc độ bao nhiêu). Phân công rõ ràng này là lý do tại sao ablation tắt CVAE làm giảm performance mạnh.

Data Synthesis Pipeline

Thách thức lớn nhất khi train VLA humanoid là thiếu dữ liệu robot thật. LeVERB giải quyết hoàn toàn bằng dữ liệu tổng hợp (synthetic).

Môi trường LeVERB-Bench: hàng trăm lựa chọn texture, góc camera đa chiều, và 10 danh mục task đa dạng — nguồn: arXiv 2506.13751
Môi trường LeVERB-Bench: hàng trăm lựa chọn texture, góc camera đa chiều, và 10 danh mục task đa dạng — nguồn: arXiv 2506.13751

Bước 1: Thu thập motion kinematics từ MoCap

  • Nguồn: dataset AMASS (motion capture của người)
  • Quy trình: retarget chuyển động người → Unitree G1 bằng motion retargeting
  • Kết quả: 154 trajectories kinematic gốc, mỗi trajectory là một motion clip hoàn chỉnh

Bước 2: Procedural randomization × 100

Mỗi trong 154 trajectory được randomize 100 lần với:

Mức độ Nội dung randomize
Scene-level Texture sàn, tường, ánh sáng, vật liệu bề mặt
Object-level Màu sắc, kích thước, vị trí của ghế/bàn/object
Placement Vị trí đặt object ngẫu nhiên với semantic label tự động
Multi-view Render 3–4 camera đồng thời (egocentric + third-person)
Mirroring Lật trái/phải để tăng diversity mà không cần thêm capture

Kết quả: 17.1 giờ video photorealistic render bằng IsaacSim ray-tracing. Thêm 2.7 giờ trajectory language-only (không có camera) để tăng robustness khi thiếu visual input.

Bước 3: Annotate ngôn ngữ tự nhiên

Mỗi trajectory gán nhãn instruction text đa dạng:

  • "Go to the brown chair and sit down"
  • "Walk straight and stop at the red marker"
  • "Turn left 90 degrees and approach the table"

Không dùng template cứng nhắc mà paraphrase để model học ngữ nghĩa, không học pattern chuỗi.

LeVERB-Bench: 154 tasks, 10 danh mục

Dataset tổ chức thành benchmark chuẩn:

  • 154 tasks vision-language có label rõ ràng
  • 10 danh mục: điều hướng, locomotion, ngồi xuống, với tay đến object, và các tác vụ kết hợp
  • Sim-to-real ready: test trong sim → deploy robot thật không cần thêm data

Dataset benchmark công khai trên Hugging Face: ember-lab-berkeley/LeVERB-Bench-Dataset

Quy trình Training: 3 Phase

Phase 1: Train LeVERB-VL

Mục tiêu: Học không gian latent verb từ dữ liệu kinematics tổng hợp.

Loss function gồm 3 thành phần:

  1. Reconstruction loss (MSE): Đảm bảo latent verb chứa đủ thông tin về trajectory để LeVERB-A tái tạo được chuyển động
  2. KL divergence: Regularize distribution của latent space — đây là thành phần VAE tiêu chuẩn
  3. Adversarial GRL (Gradient Reversal Layer): Thành phần quan trọng nhất — align distribution giữa dữ liệu vision-language và language-only

Tại sao GRL quan trọng? Nếu model học phân biệt dữ liệu "có camera" vs "không có camera", nó sẽ lazy và chỉ dùng visual khi có camera. GRL đảo ngược gradient của adversarial classifier, buộc model không phân biệt được hai loại dữ liệu → phải học ngữ nghĩa thuần túy từ ngôn ngữ, không phụ thuộc modality.

Ablation xác nhận: tắt GRL → success rate rớt từ 58.5% xuống 33.0%.

Phase 2: Train Teacher WBC Policies

Mục tiêu: Tạo teacher policies RL chuyên biệt cho từng nhóm chuyển động.

  • Algorithm: PPO (Proximal Policy Optimization)
  • Input: privileged observations (proprioception đầy đủ + reference trajectory — không thực tế trong deployment)
  • Reward: motion_tracking_accuracy + λ₁·smoothness + λ₂·joint_limit_cost
  • Nhiều teacher, mỗi teacher chuyên 1 nhóm task (navigation, sitting, reaching...)

Teacher policies đạt performance cao vì có đầy đủ thông tin, nhưng không thể dùng trực tiếp trong thực tế (cần privileged obs).

Phase 3: Distill LeVERB-A

Mục tiêu: Student policy học từ teacher, chỉ dùng input thực tế.

  • Algorithm: DAgger (Dataset Aggregation) — tốt hơn behavior cloning thuần túy vì liên tục rollout và collect thêm data ở distribution thực
  • Input student: proprioception thực + latent verb $z_t$
  • Trick quan trọng: Trong training, sample $z_t$ từ full distribution của CVAE (không chỉ mean), giúp policy học multi-modal behavior

Nếu chỉ dùng mean của CVAE (tắt sampling): success rate rớt xuống 6.5% — thảm họa! Điều này cho thấy tầm quan trọng của việc model không bị "mode collapse" về một cách thực hiện task duy nhất.

Kết quả Benchmark

Bảng ablation đầy đủ

Cấu hình Overall Success Rate
LeVERB (Full) 58.5%
Không có Discriminator (GRL) 33.0%
Không có Kinematics Encoder 53.0%
End-to-end VLA (không WBC) 25.5%
Không có Low-level Sampling 6.5%

LeVERB full tốt hơn VLA end-to-end 7.8 lần — con số này không phải ngẫu nhiên mà phản ánh insight căn bản: ngôn ngữ và vật lý học là hai thế giới khác nhau, cần cầu nối thông minh.

Phân tích theo loại task

Task Success Rate Ghi chú
Navigation đơn giản (target phía trước) 80% LeVERB xuất sắc
Navigation phức tạp (target phía sau) 30% Cần quay người 180°
Môi trường cluttered 25–50% Tùy mật độ vật cản
Ngồi xuống ghế (visual sit) 5% Bottleneck hiện tại

Navigation đơn giản đạt 80% là rất ấn tượng cho zero-shot từ simulation. Task ngồi ghế chỉ đạt 5% — đây là giới hạn rõ nhất, do đòi hỏi chính xác tuyệt đối về vị trí cơ thể.

LeVERB trên Unitree G1 thật: phản ứng với variation ngôn ngữ (trên) và spatial reasoning ghế (dưới) — nguồn: arXiv 2506.13751
LeVERB trên Unitree G1 thật: phản ứng với variation ngôn ngữ (trên) và spatial reasoning ghế (dưới) — nguồn: arXiv 2506.13751

Deploy thực tế trên Unitree G1

Hardware setup

[RTX 4090 External GPU]
     │  10 Hz
     │  LeVERB-VL (vision + language → latent verb)
     ▼
[Unitree G1 Robot]
  └─ ONNX Runtime (C++)
     │  50 Hz
     │  LeVERB-A (latent verb + proprioception → joint positions)
     ▼
  [Actuators] → full-body motion

Zero-shot sim-to-real transfer

Toàn bộ training diễn ra trong simulation — không cần bất kỳ dữ liệu robot thật nào. Khi deploy, LeVERB chạy ngay trên G1 thật mà không cần fine-tuning.

Điều này có được nhờ 3 yếu tố:

  1. Domain randomization tích cực: Texture, ánh sáng, vật thể đa dạng → model không overfit vào specific visual environment
  2. Separation of concerns: LeVERB-VL lo ngữ nghĩa (robust với visual domain gap), LeVERB-A lo dynamics (train với physics simulator được calibrate kỹ)
  3. Tần số điều khiển phù hợp: 50 Hz đủ responsive cho dynamics thực tế của G1

Robustness với ngôn ngữ tự nhiên

Thử nghiệm với nhiều cách diễn đạt khác nhau cho cùng một task:

  • "Go to the chair" / "Walk toward the seat" / "Approach the sitting furniture"
  • "Turn left" / "Rotate to the left" / "Face left direction"

Tất cả đều hoạt động — robot hiểu ngữ nghĩa, không phụ thuộc vào string literal.

So sánh với các phương pháp liên quan

Phương pháp WBC Vision Language Sim-to-real
LeVERB ✅ Latent ✅ Multi-cam ✅ Natural ✅ Zero-shot
WholebodyVLA ICLR 2026 ✅ Unified ✅ ✅ Partial
VLA-JEPA Partial ✅ ✅ ✅
DREAM-Chunk Partial ✅ ✅ ✅
VLA end-to-end ❌ ✅ ✅ Khó

LeVERB nổi bật ở chỗ là paper đầu tiên tạo ra benchmark toàn diện (150+ tasks, 10 categories) cho vision-language WBC humanoid, kết hợp với deploy zero-shot từ sim sang real.

Hạn chế và hướng phát triển

Bottlenecks hiện tại

1. Latency của LeVERB-VL: 100ms (10 Hz) là chậm cho task cần phản ứng tức thì. Nếu robot gặp chướng ngại vật đột ngột, LeVERB-A phải chờ đến chu kỳ 10 Hz tiếp theo.

2. Chưa có manipulation: LeVERB hiện tập trung loco-navigation và locomotion. Chưa có grasping, pushing, hay dexterous manipulation. Bước tiếp theo cần mở rộng sang tác vụ tay.

3. Scale dữ liệu còn nhỏ: 154 tasks từ 154 MoCap trajectories. Cần scale lên hàng nghìn tasks để cover long-tail behaviors.

4. Phụ thuộc GPU ngoài: RTX 4090 external là bottleneck về tính di động. Cần optimize LeVERB-VL cho Jetson Orin hoặc NPU onboard.

Hướng mở rộng tiềm năng

  • Manipulation: Thêm tác vụ tay vào latent verb space (grasping, pushing, inserting)
  • Scale: Kết hợp với internet human video data (xem thêm WholebodyVLA data pipeline)
  • Efficiency: Quantize LeVERB-VL → Jetson Orin NX standalone deployment
  • Memory: Thêm temporal context để handle long-horizon tasks (không chỉ reactive)

Ý nghĩa thực tiễn

LeVERB không chỉ là kết quả lab — nó là blueprint cho cách deploy robot humanoid trong môi trường thực:

  • Logistics: "Mang hộp đỏ lên kệ thứ 3" → robot di chuyển, với tay, đặt đúng vị trí
  • Hỗ trợ người cao tuổi: "Lấy giúp tôi chiếc ghế ở góc phòng" → robot tự làm
  • Nghiên cứu lab: "Dọn bàn theo cấu hình A" → robot hiểu và thực hiện

Khi manipulation được thêm vào (dự kiến trong các paper tiếp theo của EMBER Lab), LeVERB sẽ trở thành framework hoàn chỉnh cho humanoid service robot.

Kết luận

LeVERB giải quyết một trong những bài toán khó nhất của robotics: làm thế nào để ngôn ngữ tự nhiên điều khiển toàn thân robot trong thế giới vật lý mà không cần action vocabulary định sẵn.

Câu trả lời — latent verb space học được tự động, kết nối hai tầng semantic và dynamics — vừa thanh lịch về lý thuyết, vừa hiệu quả trong thực tế. Con số 7.8× so với VLA end-to-end và 80% trên navigation task là minh chứng rõ ràng.

Đây là paper cần đọc nếu bạn đang nghiên cứu whole-body VLA, sim-to-real transfer, hoặc hierarchical robot control.


Bài viết liên quan

  • Hướng dẫn VLA-JEPA: Tăng cường VLA bằng latent world model V-JEPA2 trên LeRobot
  • Hướng dẫn DREAM-Chunk: Reactive action chunking cho VLA bằng latent world model
  • WBC-VLA: Tổng quan whole-body control VLA mới nhất 2026
NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Khám phá VnRobo

Fleet MonitoringROS 2 IntegrationAMR Solutions

Bài viết liên quan

Tutorial
TWIST2: PICO teleop và G1 sim2real
twist2unitree-g1picoPhần 2
wholebody-vla

TWIST2: PICO teleop và G1 sim2real

Dựng vòng TWIST2 từ ONNX checkpoint đến G1 thật: Redis bus, PICO teleop, sim2sim, sim2real và data recording.

11/6/202617 phút đọc
NT
Tutorial
VIRAL: RGB sim2real cho G1 loco-manip
viralgr00t-visualsim2realunitree-g1Phần 4
wholebody-vla

VIRAL: RGB sim2real cho G1 loco-manip

Dựng VIRAL với Isaac Sim 5.1: PPO teacher, RGB DAgger student, Hydra fields, export ONNX và so sánh EgoHumanoid.

11/6/202616 phút đọc
NT
Tutorial
CLONE: MoE teleop và chọn stack
clonemoe-policyteleoperationPhần 6
wholebody-vla

CLONE: MoE teleop và chọn stack

Triển khai CLONE cho G1 với Apple Vision Pro, LiDAR odometry, MoE policy và bảng chọn stack whole-body VLA.

11/6/202617 phút đọc
NT
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam