VLA + WBC repos từ Mỹ: NVIDIA GR00T, openpi, HumanPlus, TeleVision
Đây là bài 2 trong series Bản đồ repos VLA + WBC. Bài này deep dive vào các repos từ Mỹ — NVIDIA, Physical Intelligence, Berkeley, Stanford, và các lab open-source khác.
Điểm chung của nhóm này: tập trung mạnh vào generalization (một model hoạt động với nhiều robot, nhiều task) và open research culture (phần lớn có paper + code + dataset).
NVIDIA: Isaac-GR00T và GR00T-WholeBodyControl
NVIDIA có hai repos riêng biệt cho hai bài toán khác nhau — đừng nhầm lẫn.
Isaac-GR00T (~7.3k stars)
Repo: NVIDIA/Isaac-GR00T
Là gì: Foundation model cho robot — lấy ảnh + ngôn ngữ → action. Tương đương LLaVA nhưng output là robot action thay vì text. Model gọi là GR00T N1 (tháng 3/2025).
Architecture:
Observation: [wrist camera RGB] + [head camera RGB] + [text instruction]
Backbone: Eagle2 vision encoder (NVIDIA)
Language: Llama-3 backbone
Action head: flow-matching diffusion
Output: joint positions (delta) hoặc end-effector pose
Điểm mạnh: Đã pretrain trên 1000+ task từ nhiều robot (Franka, UR5, G1, H1, GR1...). Fine-tune với ~50-100 demo thường đủ cho task mới.
Điểm yếu: Inference nặng — cần GPU (khuyến nghị A100/H100 để train, RTX 4090 để inference). Chưa production-ready cho real-time deploy (<100ms per step).
Cách bắt đầu:
git clone https://github.com/NVIDIA/Isaac-GR00T.git
cd Isaac-GR00T
pip install -e ".[dev]"
# Fine-tune với demo data của bạn (LeRobot format)
python scripts/finetune.py \
--model_path nvidia/GR00T-N1-2B \
--dataset_path path/to/your/lerobot_dataset \
--output_dir ./finetuned_model
Data format: LeRobot (HuggingFace). Nếu bạn đã có data từ UMI, cần convert sang LeRobot format trước.
Paper: GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
GR00T-WholeBodyControl (~2.2k stars)
Repo: NVlabs/GR00T-WholeBodyControl
Là gì: WBC platform để deploy policy trên real humanoid robot — không phải VLA model. Đây là layer ở giữa VLA output và robot joints.
Kiến trúc decoupled:
VLA policy → [target wrist pose L/R + gripper] (upper body)
↓
GR00T-WBC ← GEAR (upper body RL controller)
↓
SONIC (loco-manipulation controller)
↓
Robot joints (30+ DoF)
Ba components:
- N1.5 / N1.6: VLA policy (chạy ở 6Hz)
- GEAR: upper body controller (chạy ở 50Hz, RL-trained, từ joint targets → torques)
- SONIC: whole-body loco controller (chạy ở 200Hz, MPC + RL)
Tại sao decoupled? Vì VLA inference (~150ms) và robot control loop (5ms) không thể chạy cùng tốc độ. Decoupled cho phép mỗi layer chạy ở tần số riêng.
Supported robots: GR1, G1, Unitree H1 (và bất kỳ robot nào có URDF + đủ bậc tự do).
Paper: GR00T-WBC: Decoupled Whole-Body Control for Humanoid Locomotion and Manipulation
HOVER (~742 stars)
Repo: NVlabs/HOVER
Là gì: Thử nghiệm trước GR00T-WBC — unified controller cho whole-body. Nhiều người dùng HOVER như baseline để so sánh với GR00T-WBC.
Physical Intelligence: openpi (~12.2k stars)
Repo: physical-intelligence/openpi
Là gì: Open-source release của π0 và π0.5 — VLA model mạnh nhất hiện tại theo nhiều benchmark (tháng 3/2025 release).
π0 architecture:
Base: PaliGemma (vision-language backbone từ Google)
Action: flow-matching → continuous action
Frequency: 50Hz (fast enough for real robot)
Parameters: 3B
π0.5 improvement:
- Thêm reasoning chain (chain-of-thought cho robot)
- Long-horizon task execution (multi-step)
- Zero-shot cross-embodiment transfer
Tại sao openpi hấp dẫn:
- Inference tốc độ: 50Hz — dùng được real-time
- Cross-embodiment: pretrain trên nhiều robot, transfer OK
- Community lớn nhất: 12k+ stars, nhiều tutorial và example
Cách bắt đầu:
git clone https://github.com/physical-intelligence/openpi.git
cd openpi
pip install -e .
# Download pretrained π0 checkpoint
python -c "from openpi.models import pi0; pi0.download_checkpoint('pi0-base')"
# Inference example
python examples/inference_example.py \
--checkpoint pi0-base \
--image path/to/obs.jpg \
--instruction "pick up the red cup"
Fine-tuning: openpi hỗ trợ fine-tune với LeRobot format hoặc custom dataset loader.
Papers:
- π0: A Vision-Language-Action Flow Model for General Robot Control (2024)
- π0.5: A VLA with Open-World Generalization (2025)
Berkeley: HumanPlus (~847 stars)
Repo: MarkFzp/HumanPlus
Là gì: Whole-body humanoid imitation learning từ human motion capture. Người mặc mocap suit (21 markers) → data → train policy cho Unitree H1.
Điểm độc đáo: HumanPlus là cách tiếp cận "thu data từ người" (như UMI) nhưng cho toàn thân. Thay vì teleop robot, bạn đơn giản... làm động tác đó.
Pipeline:
1. Người mặc mocap suit thực hiện task
2. OptiTrack capture 21-marker body + 6DoF wrist poses
3. Retargeting: human → H1 URDF (via motion retargeting code trong repo)
4. Train: ACT (Action Chunking Transformer) trên whole-body trajectories
5. Deploy: H1 chạy learned policy với head camera + proprioception
Tasks demonstrated: cabinet opening, object manipulation, carrying box, folding shirt (toàn thân).
Requirement phần cứng:
- Unitree H1 humanoid robot
- OptiTrack mocap system (hoặc equivalent)
- Workstation với GPU (training)
Tại sao quan trọng: HumanPlus chứng minh rằng không cần teleoperation phức tạp — mocap suit + retargeting đủ để có working whole-body policy. Cách tiếp cận này ảnh hưởng đến nhiều lab sau đó.
Paper: HumanPlus: Humanoid Shadowing and Imitation from Observations
Stanford + MIT: TeleVision (~1.3k stars)
Repo: OpenTeleVision/TeleVision
Là gì: Immersive teleoperation cho humanoid dùng Apple Vision Pro hoặc Meta Quest 3. Operator đeo HMD → thấy robot perspective → điều khiển bằng tay.
Architecture:
Apple Vision Pro / Meta Quest 3
↓ (hand tracking + head pose)
Retargeting (human → robot arm)
↓
ROS2 / custom SDK
↓
Humanoid upper body (arms + hands)
Key feature: Binocular video stream từ robot head camera → operator thấy stereoscopic — cảm giác "như đang ở trong robot". Latency tổng ~80ms (VR rendering + network + robot).
Điểm yếu: Chỉ cover upper body (arms + hands). Legs phải chạy separate locomotion controller. Apple Vision Pro đắt ($3,500).
Nên dùng khi nào: Khi cần thu data manipulation chất lượng cao với human-level dexterity mà không có mocap room. Kết hợp với SONIC/GR00T-WBC để drive legs.
Paper: Open-TeleVision: Teleoperation with Immersive Active Visual Feedback
OpenHelix (~378 stars)
Repo: OpenHelix-Team/OpenHelix
Là gì: Dual-system architecture cho VLA manipulation — hệ thống 2 module: "thinking system" (slow, cho planning) + "acting system" (fast, cho execution). Lấy cảm hứng từ System 1/System 2 trong cognitive science.
Điểm khác biệt so với openpi/GR00T:
- Thiết kế rõ ràng cho robot arm (không tập trung vào humanoid)
- Dễ deploy hơn vì không cần full humanoid hardware
- Architecture phù hợp với bimanual manipulation tasks
Supported robot: WidowX, Franka, và bất kỳ robot nào với URDF.
Bài liên quan: OpenHelix nằm ở giao điểm giữa manipulation-focused VLA và bimanual systems. Phù hợp để nghiên cứu kiến trúc VLA trước khi scale lên humanoid.
OpenDriveLab: EgoHumanoid (~161 stars)
Repo: OpenDriveLab/EgoHumanoid
Là gì: Framework thu data và train policy cho loco-manipulation (walking + manipulation) từ egocentric human demos — người đội camera trên đầu, thực hiện task, không cần mocap suit.
Đây là điểm quan trọng nhất của EgoHumanoid: giảm hardware barrier xuống chỉ cần một camera đội đầu (ego camera), không cần mocap room hay VR headset.
Pipeline:
1. Người đội GoPro/RealSense trên đầu thực hiện task
2. Video + pose estimation (ViTPose, etc.)
3. 3D pose lifting từ 2D video
4. Retargeting sang humanoid URDF
5. Train: loco-manipulation policy (locomotion + manipulation joint)
6. Deploy: humanoid với head camera + proprioception
Kết quả từ paper (RSS 2026): First demo của whole-body loco-manipulation trên real robot từ ego demos — humanoid đi đến bàn, nhặt vật, và di chuyển đến nơi khác.
Tại sao đáng theo dõi: Nếu pipeline này work tốt, barrier cho whole-body data collection sẽ drop xuống rất thấp — chỉ cần một camera đội đầu và một người biểu diễn.
Paper: EgoHumanoid: Embodied Whole-Body Loco-Manipulation from Egocentric Demonstrations (RSS 2026)
So sánh tổng hợp — nhóm Mỹ
| Repo | Bài toán chính | Hardware cần | Barrier vào |
|---|---|---|---|
| openpi | VLA inference + fine-tune | GPU workstation | Thấp |
| Isaac-GR00T | VLA fine-tune + sim | GPU workstation | Trung bình |
| GR00T-WBC | Deploy WBC lên real robot | Humanoid robot | Cao |
| HumanPlus | WBC data collection | Humanoid + mocap | Cao |
| TeleVision | Teleoperation data | Humanoid + HMD | Trung bình |
| OpenHelix | Bimanual VLA | Robot arm | Thấp |
| EgoHumanoid | Loco-manip data | Humanoid + head cam | Trung bình |
Nhận xét
Nhóm Mỹ nổi bật ở foundation model quality (openpi, GR00T) và research novelty (EgoHumanoid, HumanPlus). Nhóm NVIDIA đặc biệt đáng chú ý vì họ đang xây dựng full stack — từ VLA model đến WBC controller — và release tất cả dưới license permissive.
Bài tiếp theo: Repos từ Trung Quốc — Unitree, THU, và cộng đồng mở.
Nguồn tham khảo
- GR00T N1 (arxiv:2503.14734)
- GR00T-WBC (arxiv:2506.08000)
- π0 (arxiv:2410.24164)
- HumanPlus (arxiv:2406.10454)
- Open-TeleVision (arxiv:2407.01512)
- EgoHumanoid (RSS 2026)