humanoidhumanoidvlawhole-bodyresearchgithubnvidiaunitreeopen-source

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

Tổng hợp toàn bộ repos GitHub đang hoạt động của các công ty và lab nghiên cứu humanoid về VLA (Vision-Language-Action) và WBC (Whole-Body Control) — từ NVIDIA đến Unitree.

Nguyễn Anh Tuấn4 tháng 6, 20266 phút đọc
Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

Trong 18 tháng qua, cuộc đua phát triển humanoid robot đã dịch chuyển từ hardware sang software stack — cụ thể là hai bài toán cốt lõi: VLA (Vision-Language-Action) cho manipulation và WBC (Whole-Body Control) cho locomotion. Điểm thú vị là cả hai bài toán đang hội tụ: robots cần vừa đi lại vừa thao tác, và cần hiểu ngôn ngữ để biết phải làm gì.

Bài này map toàn bộ repo GitHub đang active của các công ty và lab nghiên cứu — phân loại theo địa lý và bài toán. Hai bài tiếp theo sẽ deep dive từng nhóm.

VLA và WBC: tại sao chúng cần nhau?

VLA giải bài toán: "robot biết làm gì (và làm như thế nào) khi thấy cảnh và nghe lệnh." Foundation model lấy ảnh + ngôn ngữ → action vector.

WBC giải bài toán: "robot giữ thăng bằng và di chuyển trong khi tay đang làm việc." Unified controller cho cả 30+ bậc tự do đồng thời.

Kết hợp chúng: loco-manipulation — humanoid đi đến một vị trí, nhặt vật, đặt xuống chỗ khác. Đây là benchmark thực tế mà tất cả công ty đang chạy đua.

Năm 2023: VLA + WBC nghiên cứu riêng lẻ
Năm 2024: bắt đầu kết hợp trong lab (HumanPlus, OmniH2O)
Năm 2025: công ty bắt đầu release repos (NVIDIA GR00T, Unitree unifolm)
Năm 2026: ecosystem đang hình thành, nhiều repos liên kết nhau

Toàn bộ repos theo nhóm

Nhóm Mỹ / Phương Tây

Repo Stars Công ty/Lab Loại
physical-intelligence/openpi ~12k Physical Intelligence VLA model (π0, π0.5)
NVIDIA/Isaac-GR00T ~7k NVIDIA VLA foundation model
NVlabs/GR00T-WholeBodyControl ~2.2k NVIDIA WBC platform
NVlabs/HOVER ~742 NVIDIA Humanoid locomotion
MarkFzp/HumanPlus ~847 Berkeley WBC từ mocap
OpenTeleVision/TeleVision ~1.3k Stanford + MIT VR teleoperation
OpenHelix-Team/OpenHelix ~378 UIUC + các trường VLA bimanual
OpenDriveLab/EgoHumanoid ~161 OpenDriveLab Loco-manip từ ego demo
thu-ml/RoboticsDiffusionTransformer ~1.7k THU (Thanh Hoa) RDT-1B bimanual

Nhóm Trung Quốc

Repo Stars Công ty/Lab Loại
unitreerobotics/unifolm-vla ~477 Unitree VLA cho G1/H1
unitreerobotics/unitree_rl_gym ~3.3k Unitree RL sim2real
unitreerobotics/xr_teleoperate ~1.5k Unitree XR teleoperation
roboterax/humanoid-gym ~2k RobotEra Humanoid RL training
carlosferrazza/humanoid-bench ~772 MIT (gốc) Benchmark tasks

Repos không có (closed-source / paper only)

Một số công ty không release code:

  • Figure AI — Helix system: proprietary
  • Tesla Optimus — toàn bộ software stack: proprietary
  • Boston Dynamics Atlas — Atlas control: proprietary
  • 1X Technologies — NEO: proprietary
  • AgiBot — phần lớn proprietary
  • LeVERB — paper tháng 2026, chưa có repo công khai

Cách đọc star count

Star count là proxy đo mức độ quan tâm của cộng đồng, không phải chất lượng kỹ thuật:

  • openpi (~12k): cộng đồng VLA lớn nhất vì Physical Intelligence là công ty tiên phong với π0
  • Isaac-GR00T (~7k): NVIDIA brand + tutorial ready → nhiều người muốn dùng ngay
  • unitree_rl_gym (~3.3k): nhiều người có phần cứng Unitree → repo ứng dụng ngay được
  • TeleVision (~1.3k): cần Apple Vision Pro → rào cản phần cứng nên ít star hơn
  • EgoHumanoid (~161): mới release (RSS 2026), star sẽ tăng

Taxonomy: giải mã 4 loại repos

Không phải repo nào cũng dùng theo cùng một cách. Hiểu loại giúp bạn không dùng sai:

1. Foundation VLA model (openpi, Isaac-GR00T): pretrained model, bạn fine-tune với data của mình. Cần GPU lớn để fine-tune, có thể inference trên workstation.

2. WBC platform (GR00T-WholeBodyControl, HOVER): bộ controller để deploy trên real robot. Output là joint commands, input là desired end-effector trajectory.

3. Data collection / teleoperation (xr_teleoperate, TeleVision, HumanPlus): không phải policy — là pipeline thu data. Output là dataset cho bước train.

4. Simulation / benchmark (unitree_rl_gym, humanoid-gym, humanoid-bench): môi trường để train RL policy và evaluate. Không deploy lên real robot trực tiếp.

Một project thực tế thường cần cả 4 loại theo pipeline:

[4] Sim train RL baseline → [3] Thu data real → [1] Fine-tune VLA → [2] WBC deploy

Chọn điểm bắt đầu theo hardware

Câu hỏi thực tế nhất: bạn có hardware gì?

Bạn có Bắt đầu từ đâu
Unitree G1 / H1 unifolm-vla + xr_teleoperate
Unitree Go2 / B2 (quadruped, không tay) unitree_rl_gym cho locomotion
Robot arm (Franka, UR5) openpi hoặc UMI series
Bất kỳ robot ROS2 OpenHelix (nhiều robot) hoặc EgoHumanoid
Simulation only humanoid-gym + humanoid-bench
Không có hardware Isaac-GR00T tutorial (có sim workflow)

Series này cover gì?

Ba bài:

  1. Bài này — Landscape tổng quan, taxonomy, hướng dẫn chọn điểm bắt đầu
  2. Bài 2: Repos từ Mỹ — NVIDIA, Berkeley, Stanford, Physical Intelligence — deep dive từng repo
  3. Bài 3: Repos từ Trung Quốc — Unitree, THU, và cộng đồng mở — stack Unitree hoàn chỉnh

Nhận xét tổng quan

Điều thú vị khi nhìn toàn bộ ecosystem: các repos không cạnh tranh nhau — chúng bổ trợ nhau.

openpi cung cấp VLA backbone mạnh. GR00T-WholeBodyControl cung cấp WBC layer. xr_teleoperate cung cấp data collection. humanoid-bench cung cấp evaluation. Người giỏi nhất sẽ là người kết hợp được nhiều repos thành một pipeline thống nhất — không phải người chọn một repo và chờ nó giải quyết tất cả.

Bài tiếp theo: Deep dive repos Mỹ — từ NVIDIA đến Physical Intelligence.


Nguồn tham khảo


Bài viết liên quan

NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Khám phá VnRobo

Bài viết liên quan

VLA + WBC repos từ Trung Quốc: Unitree, THU RDT-1B, và cộng đồng mở
humanoid

VLA + WBC repos từ Trung Quốc: Unitree, THU RDT-1B, và cộng đồng mở

6/6/20268 phút đọc
NT
VLA + WBC repos từ Mỹ: NVIDIA GR00T, openpi, HumanPlus, TeleVision
humanoid

VLA + WBC repos từ Mỹ: NVIDIA GR00T, openpi, HumanPlus, TeleVision

5/6/20268 phút đọc
NT
Whole-body VLA: kết hợp UMI + mocap/VR để thu data toàn thân
humanoid

Whole-body VLA: kết hợp UMI + mocap/VR để thu data toàn thân

6/6/20268 phút đọc
NT