Hãy tưởng tượng bạn đeo kính VR, di chuyển tay chân — và một con robot humanoid ở phía bên kia phòng lặp lại chính xác mọi động tác của bạn. Không phải viễn tưởng, mà là thực tế với GEAR-SONIC — hệ thống whole-body control của NVIDIA đạt 100% success rate trên robot Unitree G1 mà không cần fine-tune trên phần cứng thực.
Trong bài viết này, chúng ta sẽ đi sâu vào kiến trúc, dữ liệu huấn luyện, pipeline triển khai, và cách bạn có thể bắt đầu thử nghiệm với codebase mở của NVIDIA.
Bối cảnh: Tại sao cần Whole-Body Control?
Truyền thống, điều khiển humanoid robot chia thành hai nhánh tách biệt: lower-body locomotion (đi, chạy, giữ thăng bằng) và upper-body manipulation (cầm nắm, tương tác). Mỗi nhánh dùng controller riêng, và việc phối hợp chúng tạo ra hàng loạt vấn đề — robot có thể đi được nhưng không giữ vững đồ vật khi bước, hoặc cầm nắm tốt nhưng ngã khi nghiêng người.
Whole-body control giải quyết vấn đề này bằng cách huấn luyện một policy duy nhất điều khiển toàn bộ khớp cùng lúc. Thay vì tách bài toán thành nhiều module, chúng ta để mạng neural học cách phối hợp 29 bậc tự do (degrees of freedom) của robot đồng thời.
GEAR-SONIC đưa ý tưởng này lên tầm mới: thay vì huấn luyện từng behavior riêng lẻ, họ dùng motion tracking — theo dõi và tái tạo chuyển động người — làm task huấn luyện duy nhất, rồi scale lên với dữ liệu khổng lồ. Kết quả là một behavior foundation model mà mọi hệ thống downstream (VR teleoperation, VLA model, gamepad control) đều có thể sử dụng.
SONIC là gì? Kiến trúc tổng quan
SONIC viết tắt của Supersizing Motion Tracking for Natural Humanoid Whole-Body Control — paper từ NVIDIA Research (GEAR Lab), công bố trên arXiv:2511.07820 tháng 11/2025 bởi Zhengyi Luo, Ye Yuan, Tingwu Wang và hơn 25 đồng tác giả.
Ý tưởng cốt lõi: Motion tracking là tất cả những gì bạn cần. Nếu một policy có thể theo dõi chính xác bất kỳ chuyển động nào của người, thì nó đã ngầm học được mọi kỹ năng — đi, chạy, nhảy, nhặt đồ, múa, thậm chí chiến đấu.
Encoder-Decoder với Finite Scalar Quantization
Kiến trúc SONIC gồm ba thành phần chính:
Ba encoder chuyên biệt:
- Robot Motion Encoder (Er) — nhận 10 frame tương lai (mỗi frame cách 0.1s) của trajectory khớp robot
- Human Motion Encoder (Eh) — nhận 10 frame tương lai (mỗi frame cách 0.02s) của SMPL pose người
- Hybrid Motion Encoder (Em) — nhận lệnh hỗn hợp robot/người (dùng cho 3-point teleoperation)
Tất cả encoder là MLP với kiến trúc [2048, 1024, 512, 512].
Finite Scalar Quantization (FSQ): Đây là bước then chốt — output của cả ba encoder được lượng tử hóa vào cùng một không gian token rời rạc. Nghĩa là dù input đến từ robot trajectory, SMPL pose, hay lệnh hybrid, chúng đều được biểu diễn bằng cùng "ngôn ngữ" token. Điều này cho phép chuyển đổi liền mạch giữa các chế độ điều khiển.
Hai decoder:
- Control Decoder (Dc) — biến token thành 29 target joint positions (phân phối Gaussian)
- Auxiliary Robot Motion Decoder (Dr) — tái tạo robot motion để tạo tín hiệu supervision bổ sung
Decoder MLP: [2048, 2048, 1024, 1024, 512, 512].
Observation và Action Space
| Thành phần | Chi tiết |
|---|---|
| Observation | Joint poses, joint velocities, root angular velocity, gravity vector, previous action |
| Action | 29-dimensional target joint positions |
| Control frequency | 50 Hz (policy loop), 500 Hz (motor stream qua Unitree low-level API) |
| Inference latency | 1-2 ms trên Jetson Orin (TensorRT + CUDA Graph) |
Dataset BONES-SEED: 700 giờ chuyển động người
Dữ liệu là yếu tố quyết định thành công của SONIC. Paper gốc huấn luyện trên 100M+ frames (700 giờ motion capture), thu thập từ 170 người với chiều cao 145-199 cm.
Tháng 3/2026, tại GTC, Bones Studio đã công bố BONES-SEED (Skeletal Everyday Embodiment Dataset) — bản mở rộng và công khai của dữ liệu này:
| Thông số | Giá trị |
|---|---|
| Tổng số motion | 142,220 (71,132 gốc + 71,088 mirror) |
| Thời lượng | ~288 giờ @ 120 fps |
| Số diễn viên | 522 người (253 nữ, 269 nam) |
| Độ tuổi | 17-71 tuổi |
| Chiều cao | 145-199 cm |
| Dung lượng | 114 GB |
| Thiết bị thu | Vicon optical motion capture (sub-millimeter accuracy) |
Ba định dạng dữ liệu
- SOMA Uniform (BVH) — skeleton chuẩn hóa, dùng chung cho mọi motion
- SOMA Proportional (BVH) — skeleton riêng theo tỷ lệ cơ thể từng diễn viên
- Unitree G1 MuJoCo-compatible (CSV) — trajectory joint-angle sẵn sàng cho simulation
Dữ liệu được chú thích chi tiết với 51 cột metadata: mô tả ngôn ngữ tự nhiên (tối đa 6 mô tả/motion), phân đoạn thời gian, thông số sinh trắc học, và nhãn nội dung (locomotion, communication, dance, sport...).
Phân bố danh mục chuyển động:
| Danh mục | Số lượng |
|---|---|
| Locomotion | 74,488 |
| Communication | 21,493 |
| Interactions | 14,643 |
| Dances | 11,006 |
| Gaming | 8,700 |
| Everyday | 5,816 |
| Sport | 3,993 |
Retargeting từ người sang robot
Chuyển động người được retarget sang Unitree G1 qua GMR (Geometric Motion Retargeting). Đây là bước không thể thiếu — cơ thể người và robot có tỷ lệ khác nhau (chiều dài tay, chân, phạm vi khớp), nên cần thuật toán mapping thông minh để giữ được ý đồ chuyển động gốc mà vẫn khả thi về mặt vật lý trên robot.
Pipeline huấn luyện
Reinforcement Learning với PPO
SONIC huấn luyện bằng PPO (Proximal Policy Optimization) trong NVIDIA Isaac Lab — simulator vật lý tốc độ cao chạy trên GPU.
Reward function cân bằng giữa tracking chính xác và an toàn:
| Thành phần | Trọng số |
|---|---|
| Root orientation tracking | 0.5 |
| Body link positions (relative to root) | 1.0 |
| Body link orientations | 1.0 |
| Linear/angular velocities | 1.0 mỗi loại |
| Action rate penalty | -0.1 |
| Joint limit violation | -10.0 |
| Undesired contacts | -0.1 |
Lưu ý trọng số -10.0 cho vi phạm giới hạn khớp — đây là tín hiệu phạt cực mạnh, buộc policy phải tôn trọng giới hạn vật lý của phần cứng.
Domain Randomization
Để policy tổng quát hóa tốt khi deploy thực tế, SONIC sử dụng domain randomization mạnh:
- Friction: 0.3 đến 1.6
- Restitution: 0 đến 0.5
- External pushes: lên tới 0.5 m/s (mô phỏng va chạm bất ngờ)
- Motion jitter: nhiễu vị trí và hướng (mô phỏng sensor noise)
Adaptive Sampling
Không phải mọi trajectory đều khó như nhau. SONIC dùng bin-based adaptive sampling — trajectory khó (failure rate cao) được lấy mẫu nhiều hơn, giúp policy tập trung vào những trường hợp còn yếu thay vì lặp lại những gì đã thạo.
Scaling Laws
Một phát hiện quan trọng: hiệu suất SONIC cải thiện nhất quán khi scale theo bất kỳ trục nào trong ba trục:
- Model size: 1.2M → 42M parameters
- Data volume: thêm dữ liệu = tracking tốt hơn
- Compute: 9,000 → 21,000 GPU-hours (128 GPU trong ~3 ngày)
Trong đó, tăng data volume cho hiệu quả lớn nhất — đây là lý do BONES-SEED quan trọng: nó mở ra khả năng huấn luyện whole-body controller mạnh mẽ cho bất kỳ ai có đủ GPU.
VR Teleoperation: Hai chế độ điều khiển
Chế độ 1: Whole-body teleoperation
- Phần cứng: Kính PICO VR + 2 ankle tracker + 2 handheld controller
- Output: Full-body SMPL pose streaming real-time
- Encoder: Human Motion Encoder (Eh)
Chế độ này cho phép điều khiển toàn bộ cơ thể robot với độ chính xác cao nhất — mọi khớp đều được theo dõi.
Chế độ 2: 3-point teleoperation (lightweight)
- Phần cứng: Chỉ kính PICO + 2 handheld controller (không cần ankle tracker)
- Input: Head + wrist SE(3) poses, finger angles, waist height, locomotion mode
- Encoder: Kinematic Planner → Hybrid Motion Encoder (Em)
Đây là chế độ thực dụng hơn cho việc thu thập dữ liệu quy mô lớn — ít thiết bị hơn, setup nhanh hơn, và vẫn đủ chính xác cho hầu hết tác vụ.
Hiệu suất 3-point teleoperation:
| Metric | Giá trị |
|---|---|
| Latency trung bình | 121.9 ms |
| Wrist position error | 6 cm (trung bình), 13.3 cm (95th percentile) |
| Orientation error | 0.145 rad (trung bình), 0.267 rad (95th percentile) |
Kinematic Planner
Kinematic planner là cầu nối giữa lệnh cấp cao và motion tracking:
- Biểu diễn: Pelvis-relative joint positions + global joint rotations
- Backbone: Masked token prediction với 4x downsampling
- Tốc độ: 10 Hz, sinh locomotion từ 0-6 m/s
- Root trajectory: Critically damped spring model
- Styles hỗ trợ: normal, stealth, happy, injured, boxing, kneeling, crawling
Kết quả thực nghiệm
Simulation (AMASS benchmark)
Trên 1,602 trajectories từ AMASS, SONIC vượt trội so với mọi baseline (Any2Track, BeyondMimic, GMT) về success rate, MPJPE (Mean Per Joint Position Error), và velocity/acceleration error.
Real-world (Unitree G1)
| Metric | Kết quả |
|---|---|
| Success rate | 100% (50 trajectories đa dạng) |
| Deployment | Zero-shot (không fine-tune trên hardware thực) |
| Behaviors | Dance, nhảy, loco-manipulation |
100% success rate với zero-shot deployment — đây là kết quả đáng chú ý. Policy huấn luyện hoàn toàn trong simulation, domain randomization đủ mạnh để bridge sim-to-real gap mà không cần bất kỳ adaptation nào.
Tích hợp GR00T N1.5
Khi kết hợp với VLA model GR00T N1.5 (Vision-Language-Action model), SONIC đạt 95% success rate trên tác vụ mobile pick-and-place (nhặt táo đặt lên đĩa) — chỉ cần 300 trajectories fine-tuning.
Bắt đầu với GEAR-SONIC
Tài nguyên có sẵn
| Tài nguyên | Link |
|---|---|
| GitHub repo | NVlabs/GR00T-WholeBodyControl |
| Pretrained model | HuggingFace: nvidia/GEAR-SONIC |
| BONES-SEED dataset | HuggingFace: bones-studio/seed |
| Interactive demo | MuJoCo browser demo |
Cài đặt cơ bản
# Clone repo
git clone https://github.com/NVlabs/GR00T-WholeBodyControl.git
cd GR00T-WholeBodyControl
# Cài đặt dependencies (cần NVIDIA Isaac Lab)
pip install -e .
# Download pretrained checkpoints
# Model gồm 3 file ONNX:
# - model_encoder.onnx
# - model_decoder.onnx
# - planner_sonic.onnx
Chạy Interactive Demo
Cách nhanh nhất để trải nghiệm SONIC là qua browser demo — chạy MuJoCo WASM ngay trong trình duyệt, cho phép bạn load policy và xem robot G1 thực hiện motion tracking real-time mà không cần cài đặt gì.
Inference Stack
GEAR-SONIC cung cấp C++ inference stack sẵn sàng cho production:
- TensorRT cho tối ưu inference trên Jetson Orin
- CUDA Graph để giảm latency
- Forward pass chỉ 1-2 ms trên Jetson Orin
Đây không chỉ là research prototype — đây là hệ thống sẵn sàng deploy thực tế.
License
- Source code: Apache 2.0
- Model weights: NVIDIA Open Model License (thương mại với attribution)
- BONES-SEED: Miễn phí cho academic research và startup đủ điều kiện; license thương mại riêng
So sánh với các approach khác
| Approach | Ưu điểm | Hạn chế |
|---|---|---|
| Decoupled WBC (RL lower + IK upper) | Đơn giản, dễ debug | Phối hợp upper-lower kém |
| Model Predictive Control | Tối ưu online, linh hoạt | Chậm, cần model chính xác |
| GEAR-SONIC | Unified policy, scale với data, zero-shot real | Cần GPU mạnh để train, phụ thuộc data quality |
SONIC thuộc paradigm mới: thay vì thiết kế controller, hãy thu thập data và scale model. Tương tự cách LLM đã thay đổi NLP, motion foundation models đang thay đổi cách chúng ta xây dựng controller cho robot.
Bài học rút ra
1. Data là vua. Trong ba trục scaling (model, data, compute), tăng data cho hiệu quả lớn nhất. BONES-SEED với 142K motions và 288 giờ dữ liệu là tài nguyên vô giá cho cộng đồng.
2. Motion tracking là universal interface. Thay vì huấn luyện riêng từng behavior, SONIC chứng minh rằng motion tracking — một task duy nhất — có thể làm nền tảng cho mọi ứng dụng downstream.
3. Sim-to-real đã mature. 100% success rate zero-shot trên hardware thực cho thấy domain randomization + enough data + đúng kiến trúc = bridge được sim-to-real gap hoàn toàn, ít nhất cho whole-body locomotion và manipulation cơ bản.
4. VR teleoperation mở ra data flywheel. 3-point teleoperation chỉ cần kính VR + 2 controller — đủ rẻ và đơn giản để thu thập dữ liệu quy mô lớn, tạo vòng lặp data → better policy → easier teleoperation → more data.
Kết luận
GEAR-SONIC đại diện cho một bước tiến quan trọng trong humanoid robotics: từ việc thiết kế controller thủ công sang huấn luyện behavior foundation model bằng data. Với code mở, pretrained model trên HuggingFace, dataset BONES-SEED công khai, và C++ inference stack sẵn sàng deploy — đây là thời điểm tốt nhất để bắt đầu thử nghiệm whole-body control cho humanoid robot.
Nếu bạn đang làm việc với simulation cho robotics, GEAR-SONIC là project tiếp theo nên thử — nó kết hợp nhiều kỹ thuật mà chúng ta đã bàn trong các series trước: reinforcement learning, domain randomization, và sim-to-real transfer.
Tài liệu tham khảo
- SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control — Zhengyi Luo et al., NVIDIA Research, arXiv 2025
- BONES-SEED Dataset — Bones Studio, GTC 2026
- GR00T-WholeBodyControl Repository — NVIDIA NVLabs