Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

Trong 18 tháng qua, cuộc đua phát triển humanoid robot đã dịch chuyển từ hardware sang software stack — cụ thể là hai bài toán cốt lõi: VLA (Vision-Language-Action) cho manipulation và WBC (Whole-Body Control) cho locomotion. Điểm thú vị là cả hai bài toán đang hội tụ: robots cần vừa đi lại vừa thao tác, và cần hiểu ngôn ngữ để biết phải làm gì.

Bài này map toàn bộ repo GitHub đang active của các công ty và lab nghiên cứu — phân loại theo địa lý và bài toán. Hai bài tiếp theo sẽ deep dive từng nhóm.

VLA và WBC: tại sao chúng cần nhau?

VLA giải bài toán: "robot biết làm gì (và làm như thế nào) khi thấy cảnh và nghe lệnh." Foundation model lấy ảnh + ngôn ngữ → action vector.

WBC giải bài toán: "robot giữ thăng bằng và di chuyển trong khi tay đang làm việc." Unified controller cho cả 30+ bậc tự do đồng thời.

Kết hợp chúng: loco-manipulation — humanoid đi đến một vị trí, nhặt vật, đặt xuống chỗ khác. Đây là benchmark thực tế mà tất cả công ty đang chạy đua.

Năm 2023: VLA + WBC nghiên cứu riêng lẻ
Năm 2024: bắt đầu kết hợp trong lab (HumanPlus, OmniH2O)
Năm 2025: công ty bắt đầu release repos (NVIDIA GR00T, Unitree unifolm)
Năm 2026: ecosystem đang hình thành, nhiều repos liên kết nhau

Toàn bộ repos theo nhóm

Nhóm Mỹ / Phương Tây

Repo	Stars	Công ty/Lab	Loại
physical-intelligence/openpi	~12k	Physical Intelligence	VLA model (π0, π0.5)
NVIDIA/Isaac-GR00T	~7k	NVIDIA	VLA foundation model
NVlabs/GR00T-WholeBodyControl	~2.2k	NVIDIA	WBC platform
NVlabs/HOVER	~742	NVIDIA	Humanoid locomotion
MarkFzp/HumanPlus	~847	Berkeley	WBC từ mocap
OpenTeleVision/TeleVision	~1.3k	Stanford + MIT	VR teleoperation
OpenHelix-Team/OpenHelix	~378	UIUC + các trường	VLA bimanual
OpenDriveLab/EgoHumanoid	~161	OpenDriveLab	Loco-manip từ ego demo
thu-ml/RoboticsDiffusionTransformer	~1.7k	THU (Thanh Hoa)	RDT-1B bimanual

Nhóm Trung Quốc

Repo	Stars	Công ty/Lab	Loại
unitreerobotics/unifolm-vla	~477	Unitree	VLA cho G1/H1
unitreerobotics/unitree_rl_gym	~3.3k	Unitree	RL sim2real
unitreerobotics/xr_teleoperate	~1.5k	Unitree	XR teleoperation
roboterax/humanoid-gym	~2k	RobotEra	Humanoid RL training
carlosferrazza/humanoid-bench	~772	MIT (gốc)	Benchmark tasks

Repos không có (closed-source / paper only)

Một số công ty không release code:

Figure AI — Helix system: proprietary
Tesla Optimus — toàn bộ software stack: proprietary
Boston Dynamics Atlas — Atlas control: proprietary
1X Technologies — NEO: proprietary
AgiBot — phần lớn proprietary
LeVERB — paper tháng 2026, chưa có repo công khai

Cách đọc star count

Star count là proxy đo mức độ quan tâm của cộng đồng, không phải chất lượng kỹ thuật:

openpi (~12k): cộng đồng VLA lớn nhất vì Physical Intelligence là công ty tiên phong với π0
Isaac-GR00T (~7k): NVIDIA brand + tutorial ready → nhiều người muốn dùng ngay
unitree_rl_gym (~3.3k): nhiều người có phần cứng Unitree → repo ứng dụng ngay được
TeleVision (~1.3k): cần Apple Vision Pro → rào cản phần cứng nên ít star hơn
EgoHumanoid (~161): mới release (RSS 2026), star sẽ tăng

Taxonomy: giải mã 4 loại repos

Không phải repo nào cũng dùng theo cùng một cách. Hiểu loại giúp bạn không dùng sai:

1. Foundation VLA model (openpi, Isaac-GR00T): pretrained model, bạn fine-tune với data của mình. Cần GPU lớn để fine-tune, có thể inference trên workstation.

2. WBC platform (GR00T-WholeBodyControl, HOVER): bộ controller để deploy trên real robot. Output là joint commands, input là desired end-effector trajectory.

3. Data collection / teleoperation (xr_teleoperate, TeleVision, HumanPlus): không phải policy — là pipeline thu data. Output là dataset cho bước train.

4. Simulation / benchmark (unitree_rl_gym, humanoid-gym, humanoid-bench): môi trường để train RL policy và evaluate. Không deploy lên real robot trực tiếp.

Một project thực tế thường cần cả 4 loại theo pipeline:

[4] Sim train RL baseline → [3] Thu data real → [1] Fine-tune VLA → [2] WBC deploy

Chọn điểm bắt đầu theo hardware

Câu hỏi thực tế nhất: bạn có hardware gì?

Bạn có	Bắt đầu từ đâu
Unitree G1 / H1	`unifolm-vla` + `xr_teleoperate`
Unitree Go2 / B2 (quadruped, không tay)	`unitree_rl_gym` cho locomotion
Robot arm (Franka, UR5)	`openpi` hoặc UMI series
Bất kỳ robot ROS2	`OpenHelix` (nhiều robot) hoặc `EgoHumanoid`
Simulation only	`humanoid-gym` + `humanoid-bench`
Không có hardware	Isaac-GR00T tutorial (có sim workflow)

Series này cover gì?

Ba bài:

Bài này — Landscape tổng quan, taxonomy, hướng dẫn chọn điểm bắt đầu
Bài 2: Repos từ Mỹ — NVIDIA, Berkeley, Stanford, Physical Intelligence — deep dive từng repo
Bài 3: Repos từ Trung Quốc — Unitree, THU, và cộng đồng mở — stack Unitree hoàn chỉnh

Nhận xét tổng quan

Điều thú vị khi nhìn toàn bộ ecosystem: các repos không cạnh tranh nhau — chúng bổ trợ nhau.

openpi cung cấp VLA backbone mạnh. GR00T-WholeBodyControl cung cấp WBC layer. xr_teleoperate cung cấp data collection. humanoid-bench cung cấp evaluation. Người giỏi nhất sẽ là người kết hợp được nhiều repos thành một pipeline thống nhất — không phải người chọn một repo và chờ nó giải quyết tất cả.

Bài tiếp theo: Deep dive repos Mỹ — từ NVIDIA đến Physical Intelligence.

Nguồn tham khảo

GR00T N1 (NVIDIA, 2025) — Foundation model cho humanoid
π0 (Black et al., Physical Intelligence, 2024) — Flow-matching VLA
EgoHumanoid (RSS 2026) — Loco-manipulation từ ego demos
HumanPlus (Fu et al., 2024) — Whole-body từ human mocap
RDT-1B (THU, 2024) — Diffusion transformer cho bimanual

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

Bài này map toàn bộ repo GitHub đang active của các công ty và lab nghiên cứu — phân loại theo địa lý và bài toán. Hai bài tiếp theo sẽ deep dive từng nhóm.

VLA và WBC: tại sao chúng cần nhau?

VLA giải bài toán: "robot biết làm gì (và làm như thế nào) khi thấy cảnh và nghe lệnh." Foundation model lấy ảnh + ngôn ngữ → action vector.

WBC giải bài toán: "robot giữ thăng bằng và di chuyển trong khi tay đang làm việc." Unified controller cho cả 30+ bậc tự do đồng thời.

Kết hợp chúng: loco-manipulation — humanoid đi đến một vị trí, nhặt vật, đặt xuống chỗ khác. Đây là benchmark thực tế mà tất cả công ty đang chạy đua.

Năm 2023: VLA + WBC nghiên cứu riêng lẻ
Năm 2024: bắt đầu kết hợp trong lab (HumanPlus, OmniH2O)
Năm 2025: công ty bắt đầu release repos (NVIDIA GR00T, Unitree unifolm)
Năm 2026: ecosystem đang hình thành, nhiều repos liên kết nhau

Toàn bộ repos theo nhóm

Nhóm Mỹ / Phương Tây

Repo	Stars	Công ty/Lab	Loại
physical-intelligence/openpi	~12k	Physical Intelligence	VLA model (π0, π0.5)
NVIDIA/Isaac-GR00T	~7k	NVIDIA	VLA foundation model
NVlabs/GR00T-WholeBodyControl	~2.2k	NVIDIA	WBC platform
NVlabs/HOVER	~742	NVIDIA	Humanoid locomotion
MarkFzp/HumanPlus	~847	Berkeley	WBC từ mocap
OpenTeleVision/TeleVision	~1.3k	Stanford + MIT	VR teleoperation
OpenHelix-Team/OpenHelix	~378	UIUC + các trường	VLA bimanual
OpenDriveLab/EgoHumanoid	~161	OpenDriveLab	Loco-manip từ ego demo
thu-ml/RoboticsDiffusionTransformer	~1.7k	THU (Thanh Hoa)	RDT-1B bimanual

Nhóm Trung Quốc

Repo	Stars	Công ty/Lab	Loại
unitreerobotics/unifolm-vla	~477	Unitree	VLA cho G1/H1
unitreerobotics/unitree_rl_gym	~3.3k	Unitree	RL sim2real
unitreerobotics/xr_teleoperate	~1.5k	Unitree	XR teleoperation
roboterax/humanoid-gym	~2k	RobotEra	Humanoid RL training
carlosferrazza/humanoid-bench	~772	MIT (gốc)	Benchmark tasks

Repos không có (closed-source / paper only)

Một số công ty không release code:

Figure AI — Helix system: proprietary
Tesla Optimus — toàn bộ software stack: proprietary
Boston Dynamics Atlas — Atlas control: proprietary
1X Technologies — NEO: proprietary
AgiBot — phần lớn proprietary
LeVERB — paper tháng 2026, chưa có repo công khai

Cách đọc star count

Star count là proxy đo mức độ quan tâm của cộng đồng, không phải chất lượng kỹ thuật:

openpi (~12k): cộng đồng VLA lớn nhất vì Physical Intelligence là công ty tiên phong với π0
Isaac-GR00T (~7k): NVIDIA brand + tutorial ready → nhiều người muốn dùng ngay
unitree_rl_gym (~3.3k): nhiều người có phần cứng Unitree → repo ứng dụng ngay được
TeleVision (~1.3k): cần Apple Vision Pro → rào cản phần cứng nên ít star hơn
EgoHumanoid (~161): mới release (RSS 2026), star sẽ tăng

Taxonomy: giải mã 4 loại repos

Không phải repo nào cũng dùng theo cùng một cách. Hiểu loại giúp bạn không dùng sai:

1. Foundation VLA model (openpi, Isaac-GR00T): pretrained model, bạn fine-tune với data của mình. Cần GPU lớn để fine-tune, có thể inference trên workstation.

2. WBC platform (GR00T-WholeBodyControl, HOVER): bộ controller để deploy trên real robot. Output là joint commands, input là desired end-effector trajectory.

3. Data collection / teleoperation (xr_teleoperate, TeleVision, HumanPlus): không phải policy — là pipeline thu data. Output là dataset cho bước train.

4. Simulation / benchmark (unitree_rl_gym, humanoid-gym, humanoid-bench): môi trường để train RL policy và evaluate. Không deploy lên real robot trực tiếp.

Một project thực tế thường cần cả 4 loại theo pipeline:

[4] Sim train RL baseline → [3] Thu data real → [1] Fine-tune VLA → [2] WBC deploy

Chọn điểm bắt đầu theo hardware

Câu hỏi thực tế nhất: bạn có hardware gì?

Bạn có	Bắt đầu từ đâu
Unitree G1 / H1	`unifolm-vla` + `xr_teleoperate`
Unitree Go2 / B2 (quadruped, không tay)	`unitree_rl_gym` cho locomotion
Robot arm (Franka, UR5)	`openpi` hoặc UMI series
Bất kỳ robot ROS2	`OpenHelix` (nhiều robot) hoặc `EgoHumanoid`
Simulation only	`humanoid-gym` + `humanoid-bench`
Không có hardware	Isaac-GR00T tutorial (có sim workflow)

Series này cover gì?

Ba bài:

Bài này — Landscape tổng quan, taxonomy, hướng dẫn chọn điểm bắt đầu
Bài 2: Repos từ Mỹ — NVIDIA, Berkeley, Stanford, Physical Intelligence — deep dive từng repo
Bài 3: Repos từ Trung Quốc — Unitree, THU, và cộng đồng mở — stack Unitree hoàn chỉnh

Nhận xét tổng quan

Điều thú vị khi nhìn toàn bộ ecosystem: các repos không cạnh tranh nhau — chúng bổ trợ nhau.

Bài tiếp theo: Deep dive repos Mỹ — từ NVIDIA đến Physical Intelligence.

Nguồn tham khảo

GR00T N1 (NVIDIA, 2025) — Foundation model cho humanoid
π0 (Black et al., Physical Intelligence, 2024) — Flow-matching VLA
EgoHumanoid (RSS 2026) — Loco-manipulation từ ego demos
HumanPlus (Fu et al., 2024) — Whole-body từ human mocap
RDT-1B (THU, 2024) — Diffusion transformer cho bimanual

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

VLA và WBC: tại sao chúng cần nhau?

Toàn bộ repos theo nhóm

Nhóm Mỹ / Phương Tây

Nhóm Trung Quốc

Repos không có (closed-source / paper only)

Cách đọc star count

Taxonomy: giải mã 4 loại repos

Chọn điểm bắt đầu theo hardware

Series này cover gì?

Nhận xét tổng quan

Nguồn tham khảo

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

VLA + WBC repos từ Trung Quốc: Unitree, THU RDT-1B, và cộng đồng mở

VLA + WBC repos từ Mỹ: NVIDIA GR00T, openpi, HumanPlus, TeleVision

unifolm-vla + Unitree G1 (Bài 5): deploy inference server, SSH tunnel, và locomotion song song

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

Bản đồ repos VLA + WBC 2025-2026: tổng quan các GitHub repos humanoid

VLA và WBC: tại sao chúng cần nhau?

Toàn bộ repos theo nhóm

Nhóm Mỹ / Phương Tây

Nhóm Trung Quốc

Repos không có (closed-source / paper only)

Cách đọc star count

Taxonomy: giải mã 4 loại repos

Chọn điểm bắt đầu theo hardware

Series này cover gì?

Nhận xét tổng quan

Nguồn tham khảo

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

VLA + WBC repos từ Trung Quốc: Unitree, THU RDT-1B, và cộng đồng mở

VLA + WBC repos từ Mỹ: NVIDIA GR00T, openpi, HumanPlus, TeleVision

unifolm-vla + Unitree G1 (Bài 5): deploy inference server, SSH tunnel, và locomotion song song