Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid
Trong 18 tháng qua, cuộc đua phát triển humanoid robot đã dịch chuyển từ hardware sang software stack — cụ thể là hai bài toán cốt lõi: VLA (Vision-Language-Action) cho manipulation và WBC (Whole-Body Control) cho locomotion. Điểm thú vị là cả hai bài toán đang hội tụ: robots cần vừa đi lại vừa thao tác, và cần hiểu ngôn ngữ để biết phải làm gì.
Bài này map toàn bộ repo GitHub đang active của các công ty và lab nghiên cứu — phân loại theo địa lý và bài toán. Hai bài tiếp theo sẽ deep dive từng nhóm.
VLA và WBC: tại sao chúng cần nhau?
VLA giải bài toán: "robot biết làm gì (và làm như thế nào) khi thấy cảnh và nghe lệnh." Foundation model lấy ảnh + ngôn ngữ → action vector.
WBC giải bài toán: "robot giữ thăng bằng và di chuyển trong khi tay đang làm việc." Unified controller cho cả 30+ bậc tự do đồng thời.
Kết hợp chúng: loco-manipulation — humanoid đi đến một vị trí, nhặt vật, đặt xuống chỗ khác. Đây là benchmark thực tế mà tất cả công ty đang chạy đua.
Năm 2023: VLA + WBC nghiên cứu riêng lẻ
Năm 2024: bắt đầu kết hợp trong lab (HumanPlus, OmniH2O)
Năm 2025: công ty bắt đầu release repos (NVIDIA GR00T, Unitree unifolm)
Năm 2026: ecosystem đang hình thành, nhiều repos liên kết nhau
Toàn bộ repos theo nhóm
Nhóm Mỹ / Phương Tây
| Repo | Stars | Công ty/Lab | Loại |
|---|---|---|---|
| physical-intelligence/openpi | ~12k | Physical Intelligence | VLA model (π0, π0.5) |
| NVIDIA/Isaac-GR00T | ~7k | NVIDIA | VLA foundation model |
| NVlabs/GR00T-WholeBodyControl | ~2.2k | NVIDIA | WBC platform |
| NVlabs/HOVER | ~742 | NVIDIA | Humanoid locomotion |
| MarkFzp/HumanPlus | ~847 | Berkeley | WBC từ mocap |
| OpenTeleVision/TeleVision | ~1.3k | Stanford + MIT | VR teleoperation |
| OpenHelix-Team/OpenHelix | ~378 | UIUC + các trường | VLA bimanual |
| OpenDriveLab/EgoHumanoid | ~161 | OpenDriveLab | Loco-manip từ ego demo |
| thu-ml/RoboticsDiffusionTransformer | ~1.7k | THU (Thanh Hoa) | RDT-1B bimanual |
Nhóm Trung Quốc
| Repo | Stars | Công ty/Lab | Loại |
|---|---|---|---|
| unitreerobotics/unifolm-vla | ~477 | Unitree | VLA cho G1/H1 |
| unitreerobotics/unitree_rl_gym | ~3.3k | Unitree | RL sim2real |
| unitreerobotics/xr_teleoperate | ~1.5k | Unitree | XR teleoperation |
| roboterax/humanoid-gym | ~2k | RobotEra | Humanoid RL training |
| carlosferrazza/humanoid-bench | ~772 | MIT (gốc) | Benchmark tasks |
Repos không có (closed-source / paper only)
Một số công ty không release code:
- Figure AI — Helix system: proprietary
- Tesla Optimus — toàn bộ software stack: proprietary
- Boston Dynamics Atlas — Atlas control: proprietary
- 1X Technologies — NEO: proprietary
- AgiBot — phần lớn proprietary
- LeVERB — paper tháng 2026, chưa có repo công khai
Cách đọc star count
Star count là proxy đo mức độ quan tâm của cộng đồng, không phải chất lượng kỹ thuật:
openpi(~12k): cộng đồng VLA lớn nhất vì Physical Intelligence là công ty tiên phong với π0Isaac-GR00T(~7k): NVIDIA brand + tutorial ready → nhiều người muốn dùng ngayunitree_rl_gym(~3.3k): nhiều người có phần cứng Unitree → repo ứng dụng ngay đượcTeleVision(~1.3k): cần Apple Vision Pro → rào cản phần cứng nên ít star hơnEgoHumanoid(~161): mới release (RSS 2026), star sẽ tăng
Taxonomy: giải mã 4 loại repos
Không phải repo nào cũng dùng theo cùng một cách. Hiểu loại giúp bạn không dùng sai:
1. Foundation VLA model (openpi, Isaac-GR00T): pretrained model, bạn fine-tune với data của mình. Cần GPU lớn để fine-tune, có thể inference trên workstation.
2. WBC platform (GR00T-WholeBodyControl, HOVER): bộ controller để deploy trên real robot. Output là joint commands, input là desired end-effector trajectory.
3. Data collection / teleoperation (xr_teleoperate, TeleVision, HumanPlus): không phải policy — là pipeline thu data. Output là dataset cho bước train.
4. Simulation / benchmark (unitree_rl_gym, humanoid-gym, humanoid-bench): môi trường để train RL policy và evaluate. Không deploy lên real robot trực tiếp.
Một project thực tế thường cần cả 4 loại theo pipeline:
[4] Sim train RL baseline → [3] Thu data real → [1] Fine-tune VLA → [2] WBC deploy
Chọn điểm bắt đầu theo hardware
Câu hỏi thực tế nhất: bạn có hardware gì?
| Bạn có | Bắt đầu từ đâu |
|---|---|
| Unitree G1 / H1 | unifolm-vla + xr_teleoperate |
| Unitree Go2 / B2 (quadruped, không tay) | unitree_rl_gym cho locomotion |
| Robot arm (Franka, UR5) | openpi hoặc UMI series |
| Bất kỳ robot ROS2 | OpenHelix (nhiều robot) hoặc EgoHumanoid |
| Simulation only | humanoid-gym + humanoid-bench |
| Không có hardware | Isaac-GR00T tutorial (có sim workflow) |
Series này cover gì?
Ba bài:
- Bài này — Landscape tổng quan, taxonomy, hướng dẫn chọn điểm bắt đầu
- Bài 2: Repos từ Mỹ — NVIDIA, Berkeley, Stanford, Physical Intelligence — deep dive từng repo
- Bài 3: Repos từ Trung Quốc — Unitree, THU, và cộng đồng mở — stack Unitree hoàn chỉnh
Nhận xét tổng quan
Điều thú vị khi nhìn toàn bộ ecosystem: các repos không cạnh tranh nhau — chúng bổ trợ nhau.
openpi cung cấp VLA backbone mạnh. GR00T-WholeBodyControl cung cấp WBC layer. xr_teleoperate cung cấp data collection. humanoid-bench cung cấp evaluation. Người giỏi nhất sẽ là người kết hợp được nhiều repos thành một pipeline thống nhất — không phải người chọn một repo và chờ nó giải quyết tất cả.
Bài tiếp theo: Deep dive repos Mỹ — từ NVIDIA đến Physical Intelligence.
Nguồn tham khảo
- GR00T N1 (NVIDIA, 2025) — Foundation model cho humanoid
- π0 (Black et al., Physical Intelligence, 2024) — Flow-matching VLA
- EgoHumanoid (RSS 2026) — Loco-manipulation từ ego demos
- HumanPlus (Fu et al., 2024) — Whole-body từ human mocap
- RDT-1B (THU, 2024) — Diffusion transformer cho bimanual