aihumanoidwhole-body-controlnvidiareinforcement-learningmotion-trackingvr-teleoperationisaac-lab

GEAR-SONIC: Whole-Body Control cho Humanoid Robot

Hướng dẫn chi tiết GEAR-SONIC của NVIDIA — huấn luyện whole-body controller cho humanoid robot với dataset BONES-SEED và VR teleoperation.

Nguyễn Anh Tuấn13 tháng 4, 202612 phút đọc
GEAR-SONIC: Whole-Body Control cho Humanoid Robot

Hãy tưởng tượng bạn đeo kính VR, di chuyển tay chân — và một con robot humanoid ở phía bên kia phòng lặp lại chính xác mọi động tác của bạn. Không phải viễn tưởng, mà là thực tế với GEAR-SONIC — hệ thống whole-body control của NVIDIA đạt 100% success rate trên robot Unitree G1 mà không cần fine-tune trên phần cứng thực.

Trong bài viết này, chúng ta sẽ đi sâu vào kiến trúc, dữ liệu huấn luyện, pipeline triển khai, và cách bạn có thể bắt đầu thử nghiệm với codebase mở của NVIDIA.

Bối cảnh: Tại sao cần Whole-Body Control?

Truyền thống, điều khiển humanoid robot chia thành hai nhánh tách biệt: lower-body locomotion (đi, chạy, giữ thăng bằng) và upper-body manipulation (cầm nắm, tương tác). Mỗi nhánh dùng controller riêng, và việc phối hợp chúng tạo ra hàng loạt vấn đề — robot có thể đi được nhưng không giữ vững đồ vật khi bước, hoặc cầm nắm tốt nhưng ngã khi nghiêng người.

Whole-body control giải quyết vấn đề này bằng cách huấn luyện một policy duy nhất điều khiển toàn bộ khớp cùng lúc. Thay vì tách bài toán thành nhiều module, chúng ta để mạng neural học cách phối hợp 29 bậc tự do (degrees of freedom) của robot đồng thời.

GEAR-SONIC đưa ý tưởng này lên tầm mới: thay vì huấn luyện từng behavior riêng lẻ, họ dùng motion tracking — theo dõi và tái tạo chuyển động người — làm task huấn luyện duy nhất, rồi scale lên với dữ liệu khổng lồ. Kết quả là một behavior foundation model mà mọi hệ thống downstream (VR teleoperation, VLA model, gamepad control) đều có thể sử dụng.

Humanoid robot thực hiện whole-body control — kết hợp locomotion và manipulation trong cùng một policy

SONIC là gì? Kiến trúc tổng quan

SONIC viết tắt của Supersizing Motion Tracking for Natural Humanoid Whole-Body Control — paper từ NVIDIA Research (GEAR Lab), công bố trên arXiv:2511.07820 tháng 11/2025 bởi Zhengyi Luo, Ye Yuan, Tingwu Wang và hơn 25 đồng tác giả.

Ý tưởng cốt lõi: Motion tracking là tất cả những gì bạn cần. Nếu một policy có thể theo dõi chính xác bất kỳ chuyển động nào của người, thì nó đã ngầm học được mọi kỹ năng — đi, chạy, nhảy, nhặt đồ, múa, thậm chí chiến đấu.

Encoder-Decoder với Finite Scalar Quantization

Kiến trúc SONIC gồm ba thành phần chính:

Ba encoder chuyên biệt:

  1. Robot Motion Encoder (Er) — nhận 10 frame tương lai (mỗi frame cách 0.1s) của trajectory khớp robot
  2. Human Motion Encoder (Eh) — nhận 10 frame tương lai (mỗi frame cách 0.02s) của SMPL pose người
  3. Hybrid Motion Encoder (Em) — nhận lệnh hỗn hợp robot/người (dùng cho 3-point teleoperation)

Tất cả encoder là MLP với kiến trúc [2048, 1024, 512, 512].

Finite Scalar Quantization (FSQ): Đây là bước then chốt — output của cả ba encoder được lượng tử hóa vào cùng một không gian token rời rạc. Nghĩa là dù input đến từ robot trajectory, SMPL pose, hay lệnh hybrid, chúng đều được biểu diễn bằng cùng "ngôn ngữ" token. Điều này cho phép chuyển đổi liền mạch giữa các chế độ điều khiển.

Hai decoder:

  1. Control Decoder (Dc) — biến token thành 29 target joint positions (phân phối Gaussian)
  2. Auxiliary Robot Motion Decoder (Dr) — tái tạo robot motion để tạo tín hiệu supervision bổ sung

Decoder MLP: [2048, 2048, 1024, 1024, 512, 512].

Observation và Action Space

Thành phần Chi tiết
Observation Joint poses, joint velocities, root angular velocity, gravity vector, previous action
Action 29-dimensional target joint positions
Control frequency 50 Hz (policy loop), 500 Hz (motor stream qua Unitree low-level API)
Inference latency 1-2 ms trên Jetson Orin (TensorRT + CUDA Graph)

Dataset BONES-SEED: 700 giờ chuyển động người

Dữ liệu là yếu tố quyết định thành công của SONIC. Paper gốc huấn luyện trên 100M+ frames (700 giờ motion capture), thu thập từ 170 người với chiều cao 145-199 cm.

Tháng 3/2026, tại GTC, Bones Studio đã công bố BONES-SEED (Skeletal Everyday Embodiment Dataset) — bản mở rộng và công khai của dữ liệu này:

Thông số Giá trị
Tổng số motion 142,220 (71,132 gốc + 71,088 mirror)
Thời lượng ~288 giờ @ 120 fps
Số diễn viên 522 người (253 nữ, 269 nam)
Độ tuổi 17-71 tuổi
Chiều cao 145-199 cm
Dung lượng 114 GB
Thiết bị thu Vicon optical motion capture (sub-millimeter accuracy)

Ba định dạng dữ liệu

  1. SOMA Uniform (BVH) — skeleton chuẩn hóa, dùng chung cho mọi motion
  2. SOMA Proportional (BVH) — skeleton riêng theo tỷ lệ cơ thể từng diễn viên
  3. Unitree G1 MuJoCo-compatible (CSV) — trajectory joint-angle sẵn sàng cho simulation

Dữ liệu được chú thích chi tiết với 51 cột metadata: mô tả ngôn ngữ tự nhiên (tối đa 6 mô tả/motion), phân đoạn thời gian, thông số sinh trắc học, và nhãn nội dung (locomotion, communication, dance, sport...).

Phân bố danh mục chuyển động:

Danh mục Số lượng
Locomotion 74,488
Communication 21,493
Interactions 14,643
Dances 11,006
Gaming 8,700
Everyday 5,816
Sport 3,993

Retargeting từ người sang robot

Chuyển động người được retarget sang Unitree G1 qua GMR (Geometric Motion Retargeting). Đây là bước không thể thiếu — cơ thể người và robot có tỷ lệ khác nhau (chiều dài tay, chân, phạm vi khớp), nên cần thuật toán mapping thông minh để giữ được ý đồ chuyển động gốc mà vẫn khả thi về mặt vật lý trên robot.

Pipeline huấn luyện

Reinforcement Learning với PPO

SONIC huấn luyện bằng PPO (Proximal Policy Optimization) trong NVIDIA Isaac Lab — simulator vật lý tốc độ cao chạy trên GPU.

Reward function cân bằng giữa tracking chính xác và an toàn:

Thành phần Trọng số
Root orientation tracking 0.5
Body link positions (relative to root) 1.0
Body link orientations 1.0
Linear/angular velocities 1.0 mỗi loại
Action rate penalty -0.1
Joint limit violation -10.0
Undesired contacts -0.1

Lưu ý trọng số -10.0 cho vi phạm giới hạn khớp — đây là tín hiệu phạt cực mạnh, buộc policy phải tôn trọng giới hạn vật lý của phần cứng.

Domain Randomization

Để policy tổng quát hóa tốt khi deploy thực tế, SONIC sử dụng domain randomization mạnh:

  • Friction: 0.3 đến 1.6
  • Restitution: 0 đến 0.5
  • External pushes: lên tới 0.5 m/s (mô phỏng va chạm bất ngờ)
  • Motion jitter: nhiễu vị trí và hướng (mô phỏng sensor noise)

Adaptive Sampling

Không phải mọi trajectory đều khó như nhau. SONIC dùng bin-based adaptive sampling — trajectory khó (failure rate cao) được lấy mẫu nhiều hơn, giúp policy tập trung vào những trường hợp còn yếu thay vì lặp lại những gì đã thạo.

Scaling Laws

Một phát hiện quan trọng: hiệu suất SONIC cải thiện nhất quán khi scale theo bất kỳ trục nào trong ba trục:

  1. Model size: 1.2M → 42M parameters
  2. Data volume: thêm dữ liệu = tracking tốt hơn
  3. Compute: 9,000 → 21,000 GPU-hours (128 GPU trong ~3 ngày)

Trong đó, tăng data volume cho hiệu quả lớn nhất — đây là lý do BONES-SEED quan trọng: nó mở ra khả năng huấn luyện whole-body controller mạnh mẽ cho bất kỳ ai có đủ GPU.

Pipeline huấn luyện reinforcement learning — từ motion capture data qua simulation đến deployment thực tế

VR Teleoperation: Hai chế độ điều khiển

Chế độ 1: Whole-body teleoperation

  • Phần cứng: Kính PICO VR + 2 ankle tracker + 2 handheld controller
  • Output: Full-body SMPL pose streaming real-time
  • Encoder: Human Motion Encoder (Eh)

Chế độ này cho phép điều khiển toàn bộ cơ thể robot với độ chính xác cao nhất — mọi khớp đều được theo dõi.

Chế độ 2: 3-point teleoperation (lightweight)

  • Phần cứng: Chỉ kính PICO + 2 handheld controller (không cần ankle tracker)
  • Input: Head + wrist SE(3) poses, finger angles, waist height, locomotion mode
  • Encoder: Kinematic Planner → Hybrid Motion Encoder (Em)

Đây là chế độ thực dụng hơn cho việc thu thập dữ liệu quy mô lớn — ít thiết bị hơn, setup nhanh hơn, và vẫn đủ chính xác cho hầu hết tác vụ.

Hiệu suất 3-point teleoperation:

Metric Giá trị
Latency trung bình 121.9 ms
Wrist position error 6 cm (trung bình), 13.3 cm (95th percentile)
Orientation error 0.145 rad (trung bình), 0.267 rad (95th percentile)

Kinematic Planner

Kinematic planner là cầu nối giữa lệnh cấp cao và motion tracking:

  • Biểu diễn: Pelvis-relative joint positions + global joint rotations
  • Backbone: Masked token prediction với 4x downsampling
  • Tốc độ: 10 Hz, sinh locomotion từ 0-6 m/s
  • Root trajectory: Critically damped spring model
  • Styles hỗ trợ: normal, stealth, happy, injured, boxing, kneeling, crawling

Kết quả thực nghiệm

Simulation (AMASS benchmark)

Trên 1,602 trajectories từ AMASS, SONIC vượt trội so với mọi baseline (Any2Track, BeyondMimic, GMT) về success rate, MPJPE (Mean Per Joint Position Error), và velocity/acceleration error.

Real-world (Unitree G1)

Metric Kết quả
Success rate 100% (50 trajectories đa dạng)
Deployment Zero-shot (không fine-tune trên hardware thực)
Behaviors Dance, nhảy, loco-manipulation

100% success rate với zero-shot deployment — đây là kết quả đáng chú ý. Policy huấn luyện hoàn toàn trong simulation, domain randomization đủ mạnh để bridge sim-to-real gap mà không cần bất kỳ adaptation nào.

Tích hợp GR00T N1.5

Khi kết hợp với VLA model GR00T N1.5 (Vision-Language-Action model), SONIC đạt 95% success rate trên tác vụ mobile pick-and-place (nhặt táo đặt lên đĩa) — chỉ cần 300 trajectories fine-tuning.

Bắt đầu với GEAR-SONIC

Tài nguyên có sẵn

Tài nguyên Link
GitHub repo NVlabs/GR00T-WholeBodyControl
Pretrained model HuggingFace: nvidia/GEAR-SONIC
BONES-SEED dataset HuggingFace: bones-studio/seed
Interactive demo MuJoCo browser demo

Cài đặt cơ bản

# Clone repo
git clone https://github.com/NVlabs/GR00T-WholeBodyControl.git
cd GR00T-WholeBodyControl

# Cài đặt dependencies (cần NVIDIA Isaac Lab)
pip install -e .

# Download pretrained checkpoints
# Model gồm 3 file ONNX:
# - model_encoder.onnx
# - model_decoder.onnx
# - planner_sonic.onnx

Chạy Interactive Demo

Cách nhanh nhất để trải nghiệm SONIC là qua browser demo — chạy MuJoCo WASM ngay trong trình duyệt, cho phép bạn load policy và xem robot G1 thực hiện motion tracking real-time mà không cần cài đặt gì.

Inference Stack

GEAR-SONIC cung cấp C++ inference stack sẵn sàng cho production:

  • TensorRT cho tối ưu inference trên Jetson Orin
  • CUDA Graph để giảm latency
  • Forward pass chỉ 1-2 ms trên Jetson Orin

Đây không chỉ là research prototype — đây là hệ thống sẵn sàng deploy thực tế.

License

  • Source code: Apache 2.0
  • Model weights: NVIDIA Open Model License (thương mại với attribution)
  • BONES-SEED: Miễn phí cho academic research và startup đủ điều kiện; license thương mại riêng

So sánh với các approach khác

Approach Ưu điểm Hạn chế
Decoupled WBC (RL lower + IK upper) Đơn giản, dễ debug Phối hợp upper-lower kém
Model Predictive Control Tối ưu online, linh hoạt Chậm, cần model chính xác
GEAR-SONIC Unified policy, scale với data, zero-shot real Cần GPU mạnh để train, phụ thuộc data quality

SONIC thuộc paradigm mới: thay vì thiết kế controller, hãy thu thập data và scale model. Tương tự cách LLM đã thay đổi NLP, motion foundation models đang thay đổi cách chúng ta xây dựng controller cho robot.

Bài học rút ra

1. Data là vua. Trong ba trục scaling (model, data, compute), tăng data cho hiệu quả lớn nhất. BONES-SEED với 142K motions và 288 giờ dữ liệu là tài nguyên vô giá cho cộng đồng.

2. Motion tracking là universal interface. Thay vì huấn luyện riêng từng behavior, SONIC chứng minh rằng motion tracking — một task duy nhất — có thể làm nền tảng cho mọi ứng dụng downstream.

3. Sim-to-real đã mature. 100% success rate zero-shot trên hardware thực cho thấy domain randomization + enough data + đúng kiến trúc = bridge được sim-to-real gap hoàn toàn, ít nhất cho whole-body locomotion và manipulation cơ bản.

4. VR teleoperation mở ra data flywheel. 3-point teleoperation chỉ cần kính VR + 2 controller — đủ rẻ và đơn giản để thu thập dữ liệu quy mô lớn, tạo vòng lặp data → better policy → easier teleoperation → more data.

Kết luận

GEAR-SONIC đại diện cho một bước tiến quan trọng trong humanoid robotics: từ việc thiết kế controller thủ công sang huấn luyện behavior foundation model bằng data. Với code mở, pretrained model trên HuggingFace, dataset BONES-SEED công khai, và C++ inference stack sẵn sàng deploy — đây là thời điểm tốt nhất để bắt đầu thử nghiệm whole-body control cho humanoid robot.

Nếu bạn đang làm việc với simulation cho robotics, GEAR-SONIC là project tiếp theo nên thử — nó kết hợp nhiều kỹ thuật mà chúng ta đã bàn trong các series trước: reinforcement learning, domain randomization, và sim-to-real transfer.


Tài liệu tham khảo

Bài viết liên quan

NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Bài viết liên quan

NEWTutorial
Genie Sim 3.0: Huấn luyện Humanoid với AGIBOT
simulationhumanoidisaac-simgenie-simagibotsim-to-realreinforcement-learning

Genie Sim 3.0: Huấn luyện Humanoid với AGIBOT

Hướng dẫn chi tiết dựng môi trường simulation với Genie Sim 3.0 — nền tảng open-source từ AGIBOT trên Isaac Sim để huấn luyện robot humanoid.

12/4/202611 phút đọc
NEWTutorial
Tự Build Robot Hình Người Dưới $5000 với Berkeley Humanoid Lite
humanoidreinforcement-learning3d-printingsim-to-realisaac-gymopen-sourcelocomotion

Tự Build Robot Hình Người Dưới $5000 với Berkeley Humanoid Lite

Hướng dẫn chi tiết xây dựng Berkeley Humanoid Lite — robot humanoid in 3D mã nguồn mở từ UC Berkeley, 24 DOF, locomotion bằng RL sim-to-real.

12/4/202612 phút đọc
NEWDeep Dive
WholebodyVLA Open-Source: Hướng Dẫn Kiến Trúc & Code
vlahumanoidloco-manipulationiclrrlopen-sourceisaac-lab

WholebodyVLA Open-Source: Hướng Dẫn Kiến Trúc & Code

Deep-dive vào codebase WholebodyVLA — kiến trúc latent action, LMO RL policy, và cách xây dựng pipeline whole-body loco-manipulation cho humanoid.

12/4/202619 phút đọc