humanoidhumanoidvlawhole-bodynvidiagrootopenpihumanplustelevisionresearch

VLA + WBC repos từ Mỹ: NVIDIA GR00T, openpi, HumanPlus, TeleVision

Deep dive vào các GitHub repos VLA và Whole-Body Control từ các công ty và lab Mỹ — NVIDIA Isaac-GR00T, GR00T-WholeBodyControl, Physical Intelligence openpi, Berkeley HumanPlus, Stanford TeleVision, OpenHelix, và EgoHumanoid.

Nguyễn Anh Tuấn5 tháng 6, 20268 phút đọc
VLA + WBC repos từ Mỹ: NVIDIA GR00T, openpi, HumanPlus, TeleVision

VLA + WBC repos từ Mỹ: NVIDIA GR00T, openpi, HumanPlus, TeleVision

Đây là bài 2 trong series Bản đồ repos VLA + WBC. Bài này deep dive vào các repos từ Mỹ — NVIDIA, Physical Intelligence, Berkeley, Stanford, và các lab open-source khác.

Điểm chung của nhóm này: tập trung mạnh vào generalization (một model hoạt động với nhiều robot, nhiều task) và open research culture (phần lớn có paper + code + dataset).

NVIDIA: Isaac-GR00T và GR00T-WholeBodyControl

NVIDIA có hai repos riêng biệt cho hai bài toán khác nhau — đừng nhầm lẫn.

Isaac-GR00T (~7.3k stars)

Repo: NVIDIA/Isaac-GR00T

Là gì: Foundation model cho robot — lấy ảnh + ngôn ngữ → action. Tương đương LLaVA nhưng output là robot action thay vì text. Model gọi là GR00T N1 (tháng 3/2025).

Architecture:

Observation: [wrist camera RGB] + [head camera RGB] + [text instruction]
Backbone: Eagle2 vision encoder (NVIDIA)
Language: Llama-3 backbone
Action head: flow-matching diffusion
Output: joint positions (delta) hoặc end-effector pose

Điểm mạnh: Đã pretrain trên 1000+ task từ nhiều robot (Franka, UR5, G1, H1, GR1...). Fine-tune với ~50-100 demo thường đủ cho task mới.

Điểm yếu: Inference nặng — cần GPU (khuyến nghị A100/H100 để train, RTX 4090 để inference). Chưa production-ready cho real-time deploy (<100ms per step).

Cách bắt đầu:

git clone https://github.com/NVIDIA/Isaac-GR00T.git
cd Isaac-GR00T
pip install -e ".[dev]"

# Fine-tune với demo data của bạn (LeRobot format)
python scripts/finetune.py \
  --model_path nvidia/GR00T-N1-2B \
  --dataset_path path/to/your/lerobot_dataset \
  --output_dir ./finetuned_model

Data format: LeRobot (HuggingFace). Nếu bạn đã có data từ UMI, cần convert sang LeRobot format trước.

Paper: GR00T N1: An Open Foundation Model for Generalist Humanoid Robots


GR00T-WholeBodyControl (~2.2k stars)

Repo: NVlabs/GR00T-WholeBodyControl

Là gì: WBC platform để deploy policy trên real humanoid robot — không phải VLA model. Đây là layer ở giữa VLA output và robot joints.

Kiến trúc decoupled:

VLA policy → [target wrist pose L/R + gripper] (upper body)
                    ↓
         GR00T-WBC ← GEAR (upper body RL controller)
                    ↓
         SONIC (loco-manipulation controller)
                    ↓
         Robot joints (30+ DoF)

Ba components:

  • N1.5 / N1.6: VLA policy (chạy ở 6Hz)
  • GEAR: upper body controller (chạy ở 50Hz, RL-trained, từ joint targets → torques)
  • SONIC: whole-body loco controller (chạy ở 200Hz, MPC + RL)

Tại sao decoupled? Vì VLA inference (~150ms) và robot control loop (5ms) không thể chạy cùng tốc độ. Decoupled cho phép mỗi layer chạy ở tần số riêng.

Supported robots: GR1, G1, Unitree H1 (và bất kỳ robot nào có URDF + đủ bậc tự do).

Paper: GR00T-WBC: Decoupled Whole-Body Control for Humanoid Locomotion and Manipulation


HOVER (~742 stars)

Repo: NVlabs/HOVER

Là gì: Thử nghiệm trước GR00T-WBC — unified controller cho whole-body. Nhiều người dùng HOVER như baseline để so sánh với GR00T-WBC.


Physical Intelligence: openpi (~12.2k stars)

Repo: physical-intelligence/openpi

Là gì: Open-source release của π0 và π0.5 — VLA model mạnh nhất hiện tại theo nhiều benchmark (tháng 3/2025 release).

π0 architecture:

Base: PaliGemma (vision-language backbone từ Google)
Action: flow-matching → continuous action
Frequency: 50Hz (fast enough for real robot)
Parameters: 3B

π0.5 improvement:

  • Thêm reasoning chain (chain-of-thought cho robot)
  • Long-horizon task execution (multi-step)
  • Zero-shot cross-embodiment transfer

Tại sao openpi hấp dẫn:

  1. Inference tốc độ: 50Hz — dùng được real-time
  2. Cross-embodiment: pretrain trên nhiều robot, transfer OK
  3. Community lớn nhất: 12k+ stars, nhiều tutorial và example

Cách bắt đầu:

git clone https://github.com/physical-intelligence/openpi.git
cd openpi
pip install -e .

# Download pretrained π0 checkpoint
python -c "from openpi.models import pi0; pi0.download_checkpoint('pi0-base')"

# Inference example
python examples/inference_example.py \
  --checkpoint pi0-base \
  --image path/to/obs.jpg \
  --instruction "pick up the red cup"

Fine-tuning: openpi hỗ trợ fine-tune với LeRobot format hoặc custom dataset loader.

Papers:


Berkeley: HumanPlus (~847 stars)

Repo: MarkFzp/HumanPlus

Là gì: Whole-body humanoid imitation learning từ human motion capture. Người mặc mocap suit (21 markers) → data → train policy cho Unitree H1.

Điểm độc đáo: HumanPlus là cách tiếp cận "thu data từ người" (như UMI) nhưng cho toàn thân. Thay vì teleop robot, bạn đơn giản... làm động tác đó.

Pipeline:

1. Người mặc mocap suit thực hiện task
2. OptiTrack capture 21-marker body + 6DoF wrist poses
3. Retargeting: human → H1 URDF (via motion retargeting code trong repo)
4. Train: ACT (Action Chunking Transformer) trên whole-body trajectories
5. Deploy: H1 chạy learned policy với head camera + proprioception

Tasks demonstrated: cabinet opening, object manipulation, carrying box, folding shirt (toàn thân).

Requirement phần cứng:

  • Unitree H1 humanoid robot
  • OptiTrack mocap system (hoặc equivalent)
  • Workstation với GPU (training)

Tại sao quan trọng: HumanPlus chứng minh rằng không cần teleoperation phức tạp — mocap suit + retargeting đủ để có working whole-body policy. Cách tiếp cận này ảnh hưởng đến nhiều lab sau đó.

Paper: HumanPlus: Humanoid Shadowing and Imitation from Observations


Stanford + MIT: TeleVision (~1.3k stars)

Repo: OpenTeleVision/TeleVision

Là gì: Immersive teleoperation cho humanoid dùng Apple Vision Pro hoặc Meta Quest 3. Operator đeo HMD → thấy robot perspective → điều khiển bằng tay.

Architecture:

Apple Vision Pro / Meta Quest 3
    ↓ (hand tracking + head pose)
Retargeting (human → robot arm)
    ↓
ROS2 / custom SDK
    ↓
Humanoid upper body (arms + hands)

Key feature: Binocular video stream từ robot head camera → operator thấy stereoscopic — cảm giác "như đang ở trong robot". Latency tổng ~80ms (VR rendering + network + robot).

Điểm yếu: Chỉ cover upper body (arms + hands). Legs phải chạy separate locomotion controller. Apple Vision Pro đắt ($3,500).

Nên dùng khi nào: Khi cần thu data manipulation chất lượng cao với human-level dexterity mà không có mocap room. Kết hợp với SONIC/GR00T-WBC để drive legs.

Paper: Open-TeleVision: Teleoperation with Immersive Active Visual Feedback


OpenHelix (~378 stars)

Repo: OpenHelix-Team/OpenHelix

Là gì: Dual-system architecture cho VLA manipulation — hệ thống 2 module: "thinking system" (slow, cho planning) + "acting system" (fast, cho execution). Lấy cảm hứng từ System 1/System 2 trong cognitive science.

Điểm khác biệt so với openpi/GR00T:

  • Thiết kế rõ ràng cho robot arm (không tập trung vào humanoid)
  • Dễ deploy hơn vì không cần full humanoid hardware
  • Architecture phù hợp với bimanual manipulation tasks

Supported robot: WidowX, Franka, và bất kỳ robot nào với URDF.

Bài liên quan: OpenHelix nằm ở giao điểm giữa manipulation-focused VLA và bimanual systems. Phù hợp để nghiên cứu kiến trúc VLA trước khi scale lên humanoid.


OpenDriveLab: EgoHumanoid (~161 stars)

Repo: OpenDriveLab/EgoHumanoid

Là gì: Framework thu data và train policy cho loco-manipulation (walking + manipulation) từ egocentric human demos — người đội camera trên đầu, thực hiện task, không cần mocap suit.

Đây là điểm quan trọng nhất của EgoHumanoid: giảm hardware barrier xuống chỉ cần một camera đội đầu (ego camera), không cần mocap room hay VR headset.

Pipeline:

1. Người đội GoPro/RealSense trên đầu thực hiện task
2. Video + pose estimation (ViTPose, etc.)
3. 3D pose lifting từ 2D video
4. Retargeting sang humanoid URDF
5. Train: loco-manipulation policy (locomotion + manipulation joint)
6. Deploy: humanoid với head camera + proprioception

Kết quả từ paper (RSS 2026): First demo của whole-body loco-manipulation trên real robot từ ego demos — humanoid đi đến bàn, nhặt vật, và di chuyển đến nơi khác.

Tại sao đáng theo dõi: Nếu pipeline này work tốt, barrier cho whole-body data collection sẽ drop xuống rất thấp — chỉ cần một camera đội đầu và một người biểu diễn.

Paper: EgoHumanoid: Embodied Whole-Body Loco-Manipulation from Egocentric Demonstrations (RSS 2026)


So sánh tổng hợp — nhóm Mỹ

Repo Bài toán chính Hardware cần Barrier vào
openpi VLA inference + fine-tune GPU workstation Thấp
Isaac-GR00T VLA fine-tune + sim GPU workstation Trung bình
GR00T-WBC Deploy WBC lên real robot Humanoid robot Cao
HumanPlus WBC data collection Humanoid + mocap Cao
TeleVision Teleoperation data Humanoid + HMD Trung bình
OpenHelix Bimanual VLA Robot arm Thấp
EgoHumanoid Loco-manip data Humanoid + head cam Trung bình

Nhận xét

Nhóm Mỹ nổi bật ở foundation model quality (openpi, GR00T) và research novelty (EgoHumanoid, HumanPlus). Nhóm NVIDIA đặc biệt đáng chú ý vì họ đang xây dựng full stack — từ VLA model đến WBC controller — và release tất cả dưới license permissive.

Bài tiếp theo: Repos từ Trung Quốc — Unitree, THU, và cộng đồng mở.


Nguồn tham khảo


Bài viết liên quan

NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Khám phá VnRobo

Bài viết liên quan

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid
humanoid

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

4/6/20266 phút đọc
NT
VLA + WBC repos từ Trung Quốc: Unitree, THU RDT-1B, và cộng đồng mở
humanoid

VLA + WBC repos từ Trung Quốc: Unitree, THU RDT-1B, và cộng đồng mở

6/6/20268 phút đọc
NT
GR00T N1 + Unitree G1: kiến trúc WBC+VLA decoupled từ 6Hz đến 500Hz
humanoid

GR00T N1 + Unitree G1: kiến trúc WBC+VLA decoupled từ 6Hz đến 500Hz

2/6/20266 phút đọc
NT