GEAR-SONIC: Whole-Body Control cho Humanoid Robot

Hãy tưởng tượng bạn đeo kính VR, di chuyển tay chân — và một con robot humanoid ở phía bên kia phòng lặp lại chính xác mọi động tác của bạn. Không phải viễn tưởng, mà là thực tế với GEAR-SONIC — hệ thống whole-body control của NVIDIA đạt 100% success rate trên robot Unitree G1 mà không cần fine-tune trên phần cứng thực.

Trong bài viết này, chúng ta sẽ đi sâu vào kiến trúc, dữ liệu huấn luyện, pipeline triển khai, và cách bạn có thể bắt đầu thử nghiệm với codebase mở của NVIDIA.

Bối cảnh: Tại sao cần Whole-Body Control?

Truyền thống, điều khiển humanoid robot chia thành hai nhánh tách biệt: lower-body locomotion (đi, chạy, giữ thăng bằng) và upper-body manipulation (cầm nắm, tương tác). Mỗi nhánh dùng controller riêng, và việc phối hợp chúng tạo ra hàng loạt vấn đề — robot có thể đi được nhưng không giữ vững đồ vật khi bước, hoặc cầm nắm tốt nhưng ngã khi nghiêng người.

Whole-body control giải quyết vấn đề này bằng cách huấn luyện một policy duy nhất điều khiển toàn bộ khớp cùng lúc. Thay vì tách bài toán thành nhiều module, chúng ta để mạng neural học cách phối hợp 29 bậc tự do (degrees of freedom) của robot đồng thời.

GEAR-SONIC đưa ý tưởng này lên tầm mới: thay vì huấn luyện từng behavior riêng lẻ, họ dùng motion tracking — theo dõi và tái tạo chuyển động người — làm task huấn luyện duy nhất, rồi scale lên với dữ liệu khổng lồ. Kết quả là một behavior foundation model mà mọi hệ thống downstream (VR teleoperation, VLA model, gamepad control) đều có thể sử dụng.

SONIC là gì? Kiến trúc tổng quan

SONIC viết tắt của Supersizing Motion Tracking for Natural Humanoid Whole-Body Control — paper từ NVIDIA Research (GEAR Lab), công bố trên arXiv:2511.07820 tháng 11/2025 bởi Zhengyi Luo, Ye Yuan, Tingwu Wang và hơn 25 đồng tác giả.

Ý tưởng cốt lõi: Motion tracking là tất cả những gì bạn cần. Nếu một policy có thể theo dõi chính xác bất kỳ chuyển động nào của người, thì nó đã ngầm học được mọi kỹ năng — đi, chạy, nhảy, nhặt đồ, múa, thậm chí chiến đấu.

Encoder-Decoder với Finite Scalar Quantization

Kiến trúc SONIC gồm ba thành phần chính:

Ba encoder chuyên biệt:

Robot Motion Encoder (Er) — nhận 10 frame tương lai (mỗi frame cách 0.1s) của trajectory khớp robot
Human Motion Encoder (Eh) — nhận 10 frame tương lai (mỗi frame cách 0.02s) của SMPL pose người
Hybrid Motion Encoder (Em) — nhận lệnh hỗn hợp robot/người (dùng cho 3-point teleoperation)

Tất cả encoder là MLP với kiến trúc [2048, 1024, 512, 512].

Finite Scalar Quantization (FSQ): Đây là bước then chốt — output của cả ba encoder được lượng tử hóa vào cùng một không gian token rời rạc. Nghĩa là dù input đến từ robot trajectory, SMPL pose, hay lệnh hybrid, chúng đều được biểu diễn bằng cùng "ngôn ngữ" token. Điều này cho phép chuyển đổi liền mạch giữa các chế độ điều khiển.

Hai decoder:

Control Decoder (Dc) — biến token thành 29 target joint positions (phân phối Gaussian)
Auxiliary Robot Motion Decoder (Dr) — tái tạo robot motion để tạo tín hiệu supervision bổ sung

Decoder MLP: [2048, 2048, 1024, 1024, 512, 512].

Observation và Action Space

Thành phần	Chi tiết
Observation	Joint poses, joint velocities, root angular velocity, gravity vector, previous action
Action	29-dimensional target joint positions
Control frequency	50 Hz (policy loop), 500 Hz (motor stream qua Unitree low-level API)
Inference latency	1-2 ms trên Jetson Orin (TensorRT + CUDA Graph)

Dataset BONES-SEED: 700 giờ chuyển động người

Dữ liệu là yếu tố quyết định thành công của SONIC. Paper gốc huấn luyện trên 100M+ frames (700 giờ motion capture), thu thập từ 170 người với chiều cao 145-199 cm.

Tháng 3/2026, tại GTC, Bones Studio đã công bố BONES-SEED (Skeletal Everyday Embodiment Dataset) — bản mở rộng và công khai của dữ liệu này:

Thông số	Giá trị
Tổng số motion	142,220 (71,132 gốc + 71,088 mirror)
Thời lượng	~288 giờ @ 120 fps
Số diễn viên	522 người (253 nữ, 269 nam)
Độ tuổi	17-71 tuổi
Chiều cao	145-199 cm
Dung lượng	114 GB
Thiết bị thu	Vicon optical motion capture (sub-millimeter accuracy)

Ba định dạng dữ liệu

SOMA Uniform (BVH) — skeleton chuẩn hóa, dùng chung cho mọi motion
SOMA Proportional (BVH) — skeleton riêng theo tỷ lệ cơ thể từng diễn viên
Unitree G1 MuJoCo-compatible (CSV) — trajectory joint-angle sẵn sàng cho simulation

Dữ liệu được chú thích chi tiết với 51 cột metadata: mô tả ngôn ngữ tự nhiên (tối đa 6 mô tả/motion), phân đoạn thời gian, thông số sinh trắc học, và nhãn nội dung (locomotion, communication, dance, sport...).

Phân bố danh mục chuyển động:

Danh mục	Số lượng
Locomotion	74,488
Communication	21,493
Interactions	14,643
Dances	11,006
Gaming	8,700
Everyday	5,816
Sport	3,993

Retargeting từ người sang robot

Chuyển động người được retarget sang Unitree G1 qua GMR (Geometric Motion Retargeting). Đây là bước không thể thiếu — cơ thể người và robot có tỷ lệ khác nhau (chiều dài tay, chân, phạm vi khớp), nên cần thuật toán mapping thông minh để giữ được ý đồ chuyển động gốc mà vẫn khả thi về mặt vật lý trên robot.

Pipeline huấn luyện

Reinforcement Learning với PPO

SONIC huấn luyện bằng PPO (Proximal Policy Optimization) trong NVIDIA Isaac Lab — simulator vật lý tốc độ cao chạy trên GPU.

Reward function cân bằng giữa tracking chính xác và an toàn:

Thành phần	Trọng số
Root orientation tracking	0.5
Body link positions (relative to root)	1.0
Body link orientations	1.0
Linear/angular velocities	1.0 mỗi loại
Action rate penalty	-0.1
Joint limit violation	-10.0
Undesired contacts	-0.1

Lưu ý trọng số -10.0 cho vi phạm giới hạn khớp — đây là tín hiệu phạt cực mạnh, buộc policy phải tôn trọng giới hạn vật lý của phần cứng.

Domain Randomization

Để policy tổng quát hóa tốt khi deploy thực tế, SONIC sử dụng domain randomization mạnh:

Friction: 0.3 đến 1.6
Restitution: 0 đến 0.5
External pushes: lên tới 0.5 m/s (mô phỏng va chạm bất ngờ)
Motion jitter: nhiễu vị trí và hướng (mô phỏng sensor noise)

Adaptive Sampling

Không phải mọi trajectory đều khó như nhau. SONIC dùng bin-based adaptive sampling — trajectory khó (failure rate cao) được lấy mẫu nhiều hơn, giúp policy tập trung vào những trường hợp còn yếu thay vì lặp lại những gì đã thạo.

Scaling Laws

Một phát hiện quan trọng: hiệu suất SONIC cải thiện nhất quán khi scale theo bất kỳ trục nào trong ba trục:

Model size: 1.2M → 42M parameters
Data volume: thêm dữ liệu = tracking tốt hơn
Compute: 9,000 → 21,000 GPU-hours (128 GPU trong ~3 ngày)

Trong đó, tăng data volume cho hiệu quả lớn nhất — đây là lý do BONES-SEED quan trọng: nó mở ra khả năng huấn luyện whole-body controller mạnh mẽ cho bất kỳ ai có đủ GPU.

VR Teleoperation: Hai chế độ điều khiển

Chế độ 1: Whole-body teleoperation

Phần cứng: Kính PICO VR + 2 ankle tracker + 2 handheld controller
Output: Full-body SMPL pose streaming real-time
Encoder: Human Motion Encoder (Eh)

Chế độ này cho phép điều khiển toàn bộ cơ thể robot với độ chính xác cao nhất — mọi khớp đều được theo dõi.

Chế độ 2: 3-point teleoperation (lightweight)

Phần cứng: Chỉ kính PICO + 2 handheld controller (không cần ankle tracker)
Input: Head + wrist SE(3) poses, finger angles, waist height, locomotion mode
Encoder: Kinematic Planner → Hybrid Motion Encoder (Em)

Đây là chế độ thực dụng hơn cho việc thu thập dữ liệu quy mô lớn — ít thiết bị hơn, setup nhanh hơn, và vẫn đủ chính xác cho hầu hết tác vụ.

Hiệu suất 3-point teleoperation:

Metric	Giá trị
Latency trung bình	121.9 ms
Wrist position error	6 cm (trung bình), 13.3 cm (95th percentile)
Orientation error	0.145 rad (trung bình), 0.267 rad (95th percentile)

Kinematic Planner

Kinematic planner là cầu nối giữa lệnh cấp cao và motion tracking:

Biểu diễn: Pelvis-relative joint positions + global joint rotations
Backbone: Masked token prediction với 4x downsampling
Tốc độ: 10 Hz, sinh locomotion từ 0-6 m/s
Root trajectory: Critically damped spring model
Styles hỗ trợ: normal, stealth, happy, injured, boxing, kneeling, crawling

Kết quả thực nghiệm

Simulation (AMASS benchmark)

Trên 1,602 trajectories từ AMASS, SONIC vượt trội so với mọi baseline (Any2Track, BeyondMimic, GMT) về success rate, MPJPE (Mean Per Joint Position Error), và velocity/acceleration error.

Real-world (Unitree G1)

Metric	Kết quả
Success rate	100% (50 trajectories đa dạng)
Deployment	Zero-shot (không fine-tune trên hardware thực)
Behaviors	Dance, nhảy, loco-manipulation

100% success rate với zero-shot deployment — đây là kết quả đáng chú ý. Policy huấn luyện hoàn toàn trong simulation, domain randomization đủ mạnh để bridge sim-to-real gap mà không cần bất kỳ adaptation nào.

Tích hợp GR00T N1.5

Khi kết hợp với VLA model GR00T N1.5 (Vision-Language-Action model), SONIC đạt 95% success rate trên tác vụ mobile pick-and-place (nhặt táo đặt lên đĩa) — chỉ cần 300 trajectories fine-tuning.

Bắt đầu với GEAR-SONIC

Tài nguyên có sẵn

Tài nguyên	Link
GitHub repo	NVlabs/GR00T-WholeBodyControl
Pretrained model	HuggingFace: nvidia/GEAR-SONIC
BONES-SEED dataset	HuggingFace: bones-studio/seed
Interactive demo	MuJoCo browser demo

Cài đặt cơ bản

# Clone repo
git clone https://github.com/NVlabs/GR00T-WholeBodyControl.git
cd GR00T-WholeBodyControl

# Cài đặt dependencies (cần NVIDIA Isaac Lab)
pip install -e .

# Download pretrained checkpoints
# Model gồm 3 file ONNX:
# - model_encoder.onnx
# - model_decoder.onnx
# - planner_sonic.onnx

Chạy Interactive Demo

Cách nhanh nhất để trải nghiệm SONIC là qua browser demo — chạy MuJoCo WASM ngay trong trình duyệt, cho phép bạn load policy và xem robot G1 thực hiện motion tracking real-time mà không cần cài đặt gì.

Inference Stack

GEAR-SONIC cung cấp C++ inference stack sẵn sàng cho production:

TensorRT cho tối ưu inference trên Jetson Orin
CUDA Graph để giảm latency
Forward pass chỉ 1-2 ms trên Jetson Orin

Đây không chỉ là research prototype — đây là hệ thống sẵn sàng deploy thực tế.

License

Source code: Apache 2.0
Model weights: NVIDIA Open Model License (thương mại với attribution)
BONES-SEED: Miễn phí cho academic research và startup đủ điều kiện; license thương mại riêng

So sánh với các approach khác

Approach	Ưu điểm	Hạn chế
Decoupled WBC (RL lower + IK upper)	Đơn giản, dễ debug	Phối hợp upper-lower kém
Model Predictive Control	Tối ưu online, linh hoạt	Chậm, cần model chính xác
GEAR-SONIC	Unified policy, scale với data, zero-shot real	Cần GPU mạnh để train, phụ thuộc data quality

SONIC thuộc paradigm mới: thay vì thiết kế controller, hãy thu thập data và scale model. Tương tự cách LLM đã thay đổi NLP, motion foundation models đang thay đổi cách chúng ta xây dựng controller cho robot.

Bài học rút ra

1. Data là vua. Trong ba trục scaling (model, data, compute), tăng data cho hiệu quả lớn nhất. BONES-SEED với 142K motions và 288 giờ dữ liệu là tài nguyên vô giá cho cộng đồng.

2. Motion tracking là universal interface. Thay vì huấn luyện riêng từng behavior, SONIC chứng minh rằng motion tracking — một task duy nhất — có thể làm nền tảng cho mọi ứng dụng downstream.

3. Sim-to-real đã mature. 100% success rate zero-shot trên hardware thực cho thấy domain randomization + enough data + đúng kiến trúc = bridge được sim-to-real gap hoàn toàn, ít nhất cho whole-body locomotion và manipulation cơ bản.

4. VR teleoperation mở ra data flywheel. 3-point teleoperation chỉ cần kính VR + 2 controller — đủ rẻ và đơn giản để thu thập dữ liệu quy mô lớn, tạo vòng lặp data → better policy → easier teleoperation → more data.

Kết luận

GEAR-SONIC đại diện cho một bước tiến quan trọng trong humanoid robotics: từ việc thiết kế controller thủ công sang huấn luyện behavior foundation model bằng data. Với code mở, pretrained model trên HuggingFace, dataset BONES-SEED công khai, và C++ inference stack sẵn sàng deploy — đây là thời điểm tốt nhất để bắt đầu thử nghiệm whole-body control cho humanoid robot.

Nếu bạn đang làm việc với simulation cho robotics, GEAR-SONIC là project tiếp theo nên thử — nó kết hợp nhiều kỹ thuật mà chúng ta đã bàn trong các series trước: reinforcement learning, domain randomization, và sim-to-real transfer.

Tài liệu tham khảo

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control — Zhengyi Luo et al., NVIDIA Research, arXiv 2025
BONES-SEED Dataset — Bones Studio, GTC 2026
GR00T-WholeBodyControl Repository — NVIDIA NVLabs