SimpleVLA-RL vs LeRobot: Hai con đường để robot học hành động

Nếu bạn đang theo dõi lĩnh vực robot manipulation trong năm 2026, chắc chắn bạn đã nghe đến hai cái tên nổi bật: SimpleVLA-RL — framework dùng Reinforcement Learning trực tiếp trên VLA model trong simulation, và LeRobot — hệ sinh thái mã nguồn mở của HuggingFace hỗ trợ cả Imitation Learning lẫn RL trên robot thật. Hai framework này tiếp cận cùng một bài toán — dạy robot thao tác vật thể — nhưng bằng hai triết lý hoàn toàn khác nhau.

Trong bài viết này, chúng ta sẽ phân tích chi tiết điểm mạnh, điểm yếu của từng framework qua 8 tiêu chí, từ đó giúp bạn chọn đúng công cụ cho dự án của mình. Spoiler: chúng không cạnh tranh — chúng bổ trợ cho nhau.

1. Triết lý RL: Simulation vs Real Robot

Đây là khác biệt cốt lõi nhất giữa hai framework.

SimpleVLA-RL: RL hoàn toàn trong simulation

SimpleVLA-RL sử dụng thuật toán GRPO (Group Relative Policy Optimization) — một biến thể của PPO được thiết kế cho language model. Điểm đặc biệt là reward function cực kỳ đơn giản: binary 0/1 (thành công hoặc thất bại). Không cần reward shaping phức tạp, không cần reward classifier — chỉ cần simulator trả về "task hoàn thành hay chưa".

Toàn bộ quá trình RL diễn ra trong simulation (LIBERO, RoboTwin). Robot thử hàng nghìn lần trong môi trường ảo, không lo hỏng thiết bị, không cần giám sát. Sau khi policy hội tụ, chuyển sang robot thật qua sim-to-real transfer.

GRPO có một thiết kế thú vị: asymmetric clipping với lower bound 0.2 và upper bound 1.28. Điều này khuyến khích model khám phá hành vi mới hơn là bám vào chiến lược an toàn — chính nhờ vậy mà SimpleVLA-RL phát hiện ra hiện tượng pushcut (đẩy để cắt thay vì dùng kéo truyền thống).

LeRobot HIL-SERL: RL trực tiếp trên robot thật

LeRobot đi con đường ngược lại với HIL-SERL (Human-in-the-Loop Sample Efficient RL). Thuật toán nền là SAC (Soft Actor-Critic) — phù hợp hơn cho continuous control trên hardware thật vì sample efficient hơn PPO/GRPO.

Thay vì binary reward từ simulator, LeRobot huấn luyện một reward classifier — mạng CNN/ResNet dự đoán xác suất thành công từ hình ảnh camera. Classifier này được train từ khoảng 15-20 demonstrations trước khi bắt đầu RL.

Điểm độc đáo nhất: con người can thiệp trực tiếp trong quá trình training bằng gamepad hoặc keyboard. Khi robot sắp va chạm hoặc đi sai hướng, operator nhấn nút để "sửa" hành vi. Điều này vừa an toàn hơn, vừa giúp robot học nhanh hơn — nhưng đổi lại cần có người túc trực.

2. Quy mô và chi phí

Đây là nơi hai framework khác nhau rõ rệt nhất về mặt thực tiễn.

Tiêu chí	SimpleVLA-RL	LeRobot HIL-SERL
VLA model	OpenVLA-OFT (7B params)	SmolVLA (450M), ACT, Pi0-FAST
GPU cần thiết	8x A800 80GB (~$100K+)	1 GPU consumer-grade
Robot cần thiết	Không (train trong sim)	SO100, Koch, v.v. ($200-500)
Thời gian train	Vài giờ trên GPU cluster	Vài giờ trên 1 GPU + robot
Chi phí ước tính	$500-2000/run (cloud GPU)	$500-1000 (mua robot + GPU)

SimpleVLA-RL đòi hỏi compute khổng lồ — 8 GPU A800 80GB để train model 7B parameters với online RL. Đây là mức đầu tư chỉ khả thi cho lab nghiên cứu hoặc công ty lớn.

LeRobot thì ngược lại — triết lý democratize robotics. SmolVLA chỉ có 450M parameters, chạy được trên 1 GPU. Robot arm SO100 giá khoảng $200-300. Tổng chi phí setup dưới $1000, phù hợp cho sinh viên, hobbyist, và startup nhỏ.

Tuy nhiên, cần lưu ý: SimpleVLA-RL train xong một lần là có thể deploy nhiều robot mà không cần thêm GPU. LeRobot HIL-SERL phải train riêng trên từng robot (vì mỗi robot có kinematics/camera khác nhau).

3. Hệ sinh thái VLA Models

SimpleVLA-RL: Chuyên sâu một model

SimpleVLA-RL tập trung vào OpenVLA-OFT — architecture dựa trên LLaMA2-7B kết hợp vision encoders. Đây là model mạnh nhưng framework chỉ hỗ trợ duy nhất kiến trúc này. Nếu bạn muốn thử policy khác (ACT, Diffusion Policy), bạn phải tự implement.

LeRobot: Siêu thị VLA

LeRobot v0.5.1 (tháng 4/2026) hỗ trợ một danh sách policy đáng kinh ngạc:

Imitation Learning:

ACT (Action Chunking with Transformers)
Diffusion Policy
VQ-BeT (Vector Quantized Behavior Transformer)
Multitask DiT

VLA Models:

Pi0-FAST, Pi0.5
GR00T N1.5 (NVIDIA)
SmolVLA (450M — nhỏ gọn, hiệu quả)
XVLA

Reinforcement Learning:

HIL-SERL (SAC + human interventions)
TDMPC (model-based RL)

Sự đa dạng này cho phép bạn thử nghiệm nhanh — train ACT baseline trong 30 phút, so sánh với SmolVLA, rồi fine-tune Pi0-FAST nếu cần hiệu suất cao hơn. Đây là lợi thế lớn của hệ sinh thái mã nguồn mở với 23K+ GitHub stars và 236 contributors.

4. Sim-to-Real vs Train-on-Real

SimpleVLA-RL: Train trong sim, deploy ngoài thực tế

Ưu điểm lớn nhất: không cần robot thật trong quá trình training. Robot thử hàng nghìn episode trong LIBERO hoặc RoboTwin, thất bại không tốn chi phí. Nhưng đổi lại phải đối mặt với sim-to-real gap — sự khác biệt giữa simulation và thế giới thật (vật lý, ánh sáng, ma sát, hình dạng vật thể).

Kết quả sim-to-real của SimpleVLA-RL khá ấn tượng: từ 17.5% lên 38.5% trên Piper dual-arm robot mà không cần bất kỳ demonstration nào trên robot thật. Tuy nhiên, 38.5% vẫn còn xa mức production-ready. Sim-to-real gap vẫn là thách thức lớn nhất.

LeRobot HIL-SERL: Train trực tiếp trên real

LeRobot bỏ qua hoàn toàn sim-to-real gap bằng cách train trực tiếp trên robot thật. Chỉ cần ~15 demonstrations + vài giờ RL trên SO100 hoặc Koch arm là đạt near-perfect performance.

Nhược điểm: chậm hơn (phải chờ robot thực hiện từng action), cần giám sát liên tục, và robot có thể bị hỏng nếu exploration quá mạnh. Actions được giới hạn trong end-effector space (không phải joint space) để an toàn hơn.

5. Data Efficiency: 1 demo vs 15 demos

Đây là kết quả bất ngờ nhất từ SimpleVLA-RL.

SimpleVLA-RL: Cold-start với 1 demo

Trong thí nghiệm cold-start, SimpleVLA-RL chỉ cần 1 demonstration duy nhất để SFT (Supervised Fine-Tuning), sau đó dùng RL trong simulation để cải thiện. Kết quả: 91.7% success rate trên LIBERO benchmark. Từ 1 demo mà đạt >90% — đây là mức data efficiency chưa từng thấy.

Bí quyết: VLA model 7B đã có kiến thức nền (language understanding, visual grounding) từ pre-training. RL chỉ cần "mở khóa" khả năng manipulation, không cần học từ đầu.

LeRobot HIL-SERL: ~15 demos + vài giờ RL

LeRobot cần nhiều data hơn — khoảng 15-20 demonstrations để train reward classifier và warm-start policy. Sau đó, vài giờ RL trên robot thật (với human interventions) để đạt near-perfect performance.

Tuy cần nhiều data hơn, nhưng quá trình thu thập data rất đơn giản: điều khiển robot bằng tay qua teleoperation, record lại, upload lên HuggingFace Hub. Format LeRobotDataset (Parquet + MP4) giúp chia sẻ data dễ dàng trong cộng đồng.

Metric	SimpleVLA-RL	LeRobot HIL-SERL
Demos cần thiết	1 (cold-start)	~15-20
Thời gian RL	Vài giờ (sim)	Vài giờ (real)
Success rate	91.7-99.1% (sim)	Near-perfect (real)
Cần giám sát?	Không	Có (human-in-loop)

6. Exploration: Tự do vs An toàn

SimpleVLA-RL: Khám phá tự do trong sandbox

Một trong những phát hiện thú vị nhất của SimpleVLA-RL là hiện tượng pushcut. Khi train task cắt rau bằng kéo, thay vì học cách dùng kéo truyền thống, robot phát hiện rằng đẩy lưỡi kéo xuống (dùng như dao) hiệu quả hơn cho một số loại rau.

Điều này xảy ra nhờ temperature sampling τ=1.6 — giá trị cao khuyến khích model thử các hành vi mới lạ. Trong simulation, việc thử nghiệm táo bạo không gây hậu quả — worst case là task fail, reset, và thử lại.

LeRobot HIL-SERL: Exploration có kiểm soát

LeRobot có cách tiếp cận thận trọng hơn. Human interventions đóng vai trò "rào chắn an toàn" — khi robot bắt đầu exploration nguy hiểm (va chạm, rơi vật thể), operator can thiệp ngay. Điều này an toàn hơn nhưng cũng hạn chế khả năng khám phá chiến lược mới.

SAC có entropy regularization khuyến khích exploration, nhưng ở mức vừa phải — không táo bạo như GRPO với asymmetric clipping của SimpleVLA-RL.

7. Cộng đồng và hệ sinh thái

SimpleVLA-RL: Academic paper, nhóm nhỏ

SimpleVLA-RL là sản phẩm nghiên cứu từ ICLR 2026, được phát triển bởi nhóm nhỏ. Code được public nhưng hệ sinh thái còn non trẻ. Documentation chủ yếu là paper và một vài script reproduce. Nếu gặp bug hoặc muốn extend, bạn phải tự xử lý.

Framework nền là veRL (Volcano Engine RL) — thư viện RL cho LLM từ ByteDance, tương đối mới và chưa có cộng đồng lớn.

LeRobot: Hệ sinh thái khổng lồ

LeRobot có sự hậu thuẫn của HuggingFace — công ty đứng sau Transformers, Datasets, và Diffusers. Con số nói lên tất cả:

23K+ GitHub stars
236 contributors
100+ robot models trên HuggingFace Hub
1000+ datasets public
Discord community hoạt động sôi nổi

Hệ sinh thái này có nghĩa bạn không bao giờ training alone. Có pre-trained checkpoints, có datasets sẵn, có tutorials, có người giúp debug. Đây là lợi thế không thể đánh giá thấp — đặc biệt cho người mới bắt đầu.

LeRobot v0.5 (tháng 4/2026) còn thêm nhiều tính năng mới: Real-Time Chunking, Pi0-FAST support, training nhanh gấp 10 lần, hỗ trợ PEFT/LoRA fine-tuning, và EnvHub cho simulation.

8. Khi nào dùng cái gì?

Sau khi phân tích 7 tiêu chí trên, đây là recommendation thực tế:

Chọn SimpleVLA-RL khi:

Bạn có GPU cluster (8+ GPU high-end)
Muốn train trong simulation rồi transfer sang real
Cần scale nhiều task cùng lúc (sim song song)
Nghiên cứu về RL cho VLA models
Muốn khám phá hành vi mới (emergent behaviors)

Chọn LeRobot khi:

Bạn có robot thật và muốn train trực tiếp
Budget hạn chế (1 GPU + $300 robot)
Cần cộng đồng hỗ trợ và ecosystem phong phú
Muốn thử nhiều VLA architectures khác nhau
Xây dựng sản phẩm thực tế (near-perfect real performance)

Tương lai: Kết hợp cả hai?

Câu hỏi thú vị nhất không phải "chọn cái nào" mà là "kết hợp thế nào". Hãy tưởng tượng pipeline sau:

Pre-train VLA bằng SFT trên large-scale data (OpenVLA, Pi0)
RL trong simulation (SimpleVLA-RL style) — khám phá chiến lược mới, data efficiency cao, train hàng trăm task song song
Fine-tune trên robot thật (LeRobot HIL-SERL style) — bridge sim-to-real gap, human corrections cho edge cases
Deploy với confidence cao — đã qua cả sim training lẫn real validation

Pipeline này lấy ưu điểm của cả hai: exploration tự do của SimpleVLA-RL trong sim, và precision trên hardware thật của LeRobot HIL-SERL. Sim-to-real gap — vấn đề lớn nhất của SimpleVLA-RL — được giải quyết bằng giai đoạn fine-tune trên real.

Một số hướng phát triển đáng theo dõi:

SmolVLA + GRPO: Dùng model nhỏ 450M params của LeRobot nhưng train bằng GRPO trong sim — giảm compute requirement từ 8xA800 xuống có thể 1-2 GPU
LeRobot EnvHub + SimpleVLA-RL: Dùng simulation environments của LeRobot (dựa trên Gymnasium) với RL pipeline của SimpleVLA-RL
Shared datasets: Data từ LeRobot Hub được dùng cho SFT warm-start, sau đó GRPO improve trong sim

Bảng tổng kết

Tiêu chí	SimpleVLA-RL	LeRobot (HIL-SERL)
RL Algorithm	GRPO (no KL, asymmetric clip)	SAC + human interventions
Training env	Simulation (LIBERO, RoboTwin)	Real robot (SO100, Koch)
Reward	Binary 0/1 từ simulator	Learned reward classifier
VLA Model	OpenVLA-OFT (7B)	SmolVLA (450M), Pi0-FAST, ACT, v.v.
Hardware	8x A800 80GB	1 GPU + robot arm $200-500
Data efficiency	1 demo → 91.7%	~15 demos + few hours → near-perfect
Exploration	Tự do (τ=1.6, pushcut)	Có kiểm soát (human corrections)
Sim-to-real	17.5→38.5% (zero-shot)	Không cần (train on real)
Community	Academic paper, small team	23K+ stars, 236 contributors
Best for	Research, scaling, sim-to-real	Production, accessibility, real deployment

Kết luận

SimpleVLA-RL và LeRobot không phải đối thủ — chúng là hai mảnh ghép của bức tranh robot learning. SimpleVLA-RL mở ra khả năng train VLA bằng RL trong simulation với data efficiency đáng kinh ngạc. LeRobot cung cấp hệ sinh thái hoàn chỉnh để biến nghiên cứu thành sản phẩm thực tế trên robot thật.

Nếu bạn là researcher muốn đẩy giới hạn của VLA models, SimpleVLA-RL là playground lý tưởng. Nếu bạn là engineer muốn deploy robot manipulation trong thực tế, LeRobot là con đường nhanh nhất. Và nếu bạn tham vọng — hãy kết hợp cả hai.

Tương lai của robot learning không phải sim hoặc real. Nó là sim rồi real — và cả hai framework đều có vai trò quan trọng trong pipeline đó.

SimpleVLA-RL (5): So sánh với LeRobot