SimpleVLA-RL vs LeRobot: Hai con đường để robot học hành động
Nếu bạn đang theo dõi lĩnh vực robot manipulation trong năm 2026, chắc chắn bạn đã nghe đến hai cái tên nổi bật: SimpleVLA-RL — framework dùng Reinforcement Learning trực tiếp trên VLA model trong simulation, và LeRobot — hệ sinh thái mã nguồn mở của HuggingFace hỗ trợ cả Imitation Learning lẫn RL trên robot thật. Hai framework này tiếp cận cùng một bài toán — dạy robot thao tác vật thể — nhưng bằng hai triết lý hoàn toàn khác nhau.
Trong bài viết này, chúng ta sẽ phân tích chi tiết điểm mạnh, điểm yếu của từng framework qua 8 tiêu chí, từ đó giúp bạn chọn đúng công cụ cho dự án của mình. Spoiler: chúng không cạnh tranh — chúng bổ trợ cho nhau.
1. Triết lý RL: Simulation vs Real Robot
Đây là khác biệt cốt lõi nhất giữa hai framework.
SimpleVLA-RL: RL hoàn toàn trong simulation
SimpleVLA-RL sử dụng thuật toán GRPO (Group Relative Policy Optimization) — một biến thể của PPO được thiết kế cho language model. Điểm đặc biệt là reward function cực kỳ đơn giản: binary 0/1 (thành công hoặc thất bại). Không cần reward shaping phức tạp, không cần reward classifier — chỉ cần simulator trả về "task hoàn thành hay chưa".
Toàn bộ quá trình RL diễn ra trong simulation (LIBERO, RoboTwin). Robot thử hàng nghìn lần trong môi trường ảo, không lo hỏng thiết bị, không cần giám sát. Sau khi policy hội tụ, chuyển sang robot thật qua sim-to-real transfer.
GRPO có một thiết kế thú vị: asymmetric clipping với lower bound 0.2 và upper bound 1.28. Điều này khuyến khích model khám phá hành vi mới hơn là bám vào chiến lược an toàn — chính nhờ vậy mà SimpleVLA-RL phát hiện ra hiện tượng pushcut (đẩy để cắt thay vì dùng kéo truyền thống).
LeRobot HIL-SERL: RL trực tiếp trên robot thật
LeRobot đi con đường ngược lại với HIL-SERL (Human-in-the-Loop Sample Efficient RL). Thuật toán nền là SAC (Soft Actor-Critic) — phù hợp hơn cho continuous control trên hardware thật vì sample efficient hơn PPO/GRPO.
Thay vì binary reward từ simulator, LeRobot huấn luyện một reward classifier — mạng CNN/ResNet dự đoán xác suất thành công từ hình ảnh camera. Classifier này được train từ khoảng 15-20 demonstrations trước khi bắt đầu RL.
Điểm độc đáo nhất: con người can thiệp trực tiếp trong quá trình training bằng gamepad hoặc keyboard. Khi robot sắp va chạm hoặc đi sai hướng, operator nhấn nút để "sửa" hành vi. Điều này vừa an toàn hơn, vừa giúp robot học nhanh hơn — nhưng đổi lại cần có người túc trực.
2. Quy mô và chi phí
Đây là nơi hai framework khác nhau rõ rệt nhất về mặt thực tiễn.
| Tiêu chí | SimpleVLA-RL | LeRobot HIL-SERL |
|---|---|---|
| VLA model | OpenVLA-OFT (7B params) | SmolVLA (450M), ACT, Pi0-FAST |
| GPU cần thiết | 8x A800 80GB (~$100K+) | 1 GPU consumer-grade |
| Robot cần thiết | Không (train trong sim) | SO100, Koch, v.v. ($200-500) |
| Thời gian train | Vài giờ trên GPU cluster | Vài giờ trên 1 GPU + robot |
| Chi phí ước tính | $500-2000/run (cloud GPU) | $500-1000 (mua robot + GPU) |
SimpleVLA-RL đòi hỏi compute khổng lồ — 8 GPU A800 80GB để train model 7B parameters với online RL. Đây là mức đầu tư chỉ khả thi cho lab nghiên cứu hoặc công ty lớn.
LeRobot thì ngược lại — triết lý democratize robotics. SmolVLA chỉ có 450M parameters, chạy được trên 1 GPU. Robot arm SO100 giá khoảng $200-300. Tổng chi phí setup dưới $1000, phù hợp cho sinh viên, hobbyist, và startup nhỏ.
Tuy nhiên, cần lưu ý: SimpleVLA-RL train xong một lần là có thể deploy nhiều robot mà không cần thêm GPU. LeRobot HIL-SERL phải train riêng trên từng robot (vì mỗi robot có kinematics/camera khác nhau).
3. Hệ sinh thái VLA Models
SimpleVLA-RL: Chuyên sâu một model
SimpleVLA-RL tập trung vào OpenVLA-OFT — architecture dựa trên LLaMA2-7B kết hợp vision encoders. Đây là model mạnh nhưng framework chỉ hỗ trợ duy nhất kiến trúc này. Nếu bạn muốn thử policy khác (ACT, Diffusion Policy), bạn phải tự implement.
LeRobot: Siêu thị VLA
LeRobot v0.5.1 (tháng 4/2026) hỗ trợ một danh sách policy đáng kinh ngạc:
Imitation Learning:
- ACT (Action Chunking with Transformers)
- Diffusion Policy
- VQ-BeT (Vector Quantized Behavior Transformer)
- Multitask DiT
VLA Models:
- Pi0-FAST, Pi0.5
- GR00T N1.5 (NVIDIA)
- SmolVLA (450M — nhỏ gọn, hiệu quả)
- XVLA
Reinforcement Learning:
- HIL-SERL (SAC + human interventions)
- TDMPC (model-based RL)
Sự đa dạng này cho phép bạn thử nghiệm nhanh — train ACT baseline trong 30 phút, so sánh với SmolVLA, rồi fine-tune Pi0-FAST nếu cần hiệu suất cao hơn. Đây là lợi thế lớn của hệ sinh thái mã nguồn mở với 23K+ GitHub stars và 236 contributors.
4. Sim-to-Real vs Train-on-Real
SimpleVLA-RL: Train trong sim, deploy ngoài thực tế
Ưu điểm lớn nhất: không cần robot thật trong quá trình training. Robot thử hàng nghìn episode trong LIBERO hoặc RoboTwin, thất bại không tốn chi phí. Nhưng đổi lại phải đối mặt với sim-to-real gap — sự khác biệt giữa simulation và thế giới thật (vật lý, ánh sáng, ma sát, hình dạng vật thể).
Kết quả sim-to-real của SimpleVLA-RL khá ấn tượng: từ 17.5% lên 38.5% trên Piper dual-arm robot mà không cần bất kỳ demonstration nào trên robot thật. Tuy nhiên, 38.5% vẫn còn xa mức production-ready. Sim-to-real gap vẫn là thách thức lớn nhất.
LeRobot HIL-SERL: Train trực tiếp trên real
LeRobot bỏ qua hoàn toàn sim-to-real gap bằng cách train trực tiếp trên robot thật. Chỉ cần ~15 demonstrations + vài giờ RL trên SO100 hoặc Koch arm là đạt near-perfect performance.
Nhược điểm: chậm hơn (phải chờ robot thực hiện từng action), cần giám sát liên tục, và robot có thể bị hỏng nếu exploration quá mạnh. Actions được giới hạn trong end-effector space (không phải joint space) để an toàn hơn.
5. Data Efficiency: 1 demo vs 15 demos
Đây là kết quả bất ngờ nhất từ SimpleVLA-RL.
SimpleVLA-RL: Cold-start với 1 demo
Trong thí nghiệm cold-start, SimpleVLA-RL chỉ cần 1 demonstration duy nhất để SFT (Supervised Fine-Tuning), sau đó dùng RL trong simulation để cải thiện. Kết quả: 91.7% success rate trên LIBERO benchmark. Từ 1 demo mà đạt >90% — đây là mức data efficiency chưa từng thấy.
Bí quyết: VLA model 7B đã có kiến thức nền (language understanding, visual grounding) từ pre-training. RL chỉ cần "mở khóa" khả năng manipulation, không cần học từ đầu.
LeRobot HIL-SERL: ~15 demos + vài giờ RL
LeRobot cần nhiều data hơn — khoảng 15-20 demonstrations để train reward classifier và warm-start policy. Sau đó, vài giờ RL trên robot thật (với human interventions) để đạt near-perfect performance.
Tuy cần nhiều data hơn, nhưng quá trình thu thập data rất đơn giản: điều khiển robot bằng tay qua teleoperation, record lại, upload lên HuggingFace Hub. Format LeRobotDataset (Parquet + MP4) giúp chia sẻ data dễ dàng trong cộng đồng.
| Metric | SimpleVLA-RL | LeRobot HIL-SERL |
|---|---|---|
| Demos cần thiết | 1 (cold-start) | ~15-20 |
| Thời gian RL | Vài giờ (sim) | Vài giờ (real) |
| Success rate | 91.7-99.1% (sim) | Near-perfect (real) |
| Cần giám sát? | Không | Có (human-in-loop) |
6. Exploration: Tự do vs An toàn
SimpleVLA-RL: Khám phá tự do trong sandbox
Một trong những phát hiện thú vị nhất của SimpleVLA-RL là hiện tượng pushcut. Khi train task cắt rau bằng kéo, thay vì học cách dùng kéo truyền thống, robot phát hiện rằng đẩy lưỡi kéo xuống (dùng như dao) hiệu quả hơn cho một số loại rau.
Điều này xảy ra nhờ temperature sampling τ=1.6 — giá trị cao khuyến khích model thử các hành vi mới lạ. Trong simulation, việc thử nghiệm táo bạo không gây hậu quả — worst case là task fail, reset, và thử lại.
LeRobot HIL-SERL: Exploration có kiểm soát
LeRobot có cách tiếp cận thận trọng hơn. Human interventions đóng vai trò "rào chắn an toàn" — khi robot bắt đầu exploration nguy hiểm (va chạm, rơi vật thể), operator can thiệp ngay. Điều này an toàn hơn nhưng cũng hạn chế khả năng khám phá chiến lược mới.
SAC có entropy regularization khuyến khích exploration, nhưng ở mức vừa phải — không táo bạo như GRPO với asymmetric clipping của SimpleVLA-RL.
7. Cộng đồng và hệ sinh thái
SimpleVLA-RL: Academic paper, nhóm nhỏ
SimpleVLA-RL là sản phẩm nghiên cứu từ ICLR 2026, được phát triển bởi nhóm nhỏ. Code được public nhưng hệ sinh thái còn non trẻ. Documentation chủ yếu là paper và một vài script reproduce. Nếu gặp bug hoặc muốn extend, bạn phải tự xử lý.
Framework nền là veRL (Volcano Engine RL) — thư viện RL cho LLM từ ByteDance, tương đối mới và chưa có cộng đồng lớn.
LeRobot: Hệ sinh thái khổng lồ
LeRobot có sự hậu thuẫn của HuggingFace — công ty đứng sau Transformers, Datasets, và Diffusers. Con số nói lên tất cả:
- 23K+ GitHub stars
- 236 contributors
- 100+ robot models trên HuggingFace Hub
- 1000+ datasets public
- Discord community hoạt động sôi nổi
Hệ sinh thái này có nghĩa bạn không bao giờ training alone. Có pre-trained checkpoints, có datasets sẵn, có tutorials, có người giúp debug. Đây là lợi thế không thể đánh giá thấp — đặc biệt cho người mới bắt đầu.
LeRobot v0.5 (tháng 4/2026) còn thêm nhiều tính năng mới: Real-Time Chunking, Pi0-FAST support, training nhanh gấp 10 lần, hỗ trợ PEFT/LoRA fine-tuning, và EnvHub cho simulation.
8. Khi nào dùng cái gì?
Sau khi phân tích 7 tiêu chí trên, đây là recommendation thực tế:
Chọn SimpleVLA-RL khi:
- Bạn có GPU cluster (8+ GPU high-end)
- Muốn train trong simulation rồi transfer sang real
- Cần scale nhiều task cùng lúc (sim song song)
- Nghiên cứu về RL cho VLA models
- Muốn khám phá hành vi mới (emergent behaviors)
Chọn LeRobot khi:
- Bạn có robot thật và muốn train trực tiếp
- Budget hạn chế (1 GPU + $300 robot)
- Cần cộng đồng hỗ trợ và ecosystem phong phú
- Muốn thử nhiều VLA architectures khác nhau
- Xây dựng sản phẩm thực tế (near-perfect real performance)
Tương lai: Kết hợp cả hai?
Câu hỏi thú vị nhất không phải "chọn cái nào" mà là "kết hợp thế nào". Hãy tưởng tượng pipeline sau:
- Pre-train VLA bằng SFT trên large-scale data (OpenVLA, Pi0)
- RL trong simulation (SimpleVLA-RL style) — khám phá chiến lược mới, data efficiency cao, train hàng trăm task song song
- Fine-tune trên robot thật (LeRobot HIL-SERL style) — bridge sim-to-real gap, human corrections cho edge cases
- Deploy với confidence cao — đã qua cả sim training lẫn real validation
Pipeline này lấy ưu điểm của cả hai: exploration tự do của SimpleVLA-RL trong sim, và precision trên hardware thật của LeRobot HIL-SERL. Sim-to-real gap — vấn đề lớn nhất của SimpleVLA-RL — được giải quyết bằng giai đoạn fine-tune trên real.
Một số hướng phát triển đáng theo dõi:
- SmolVLA + GRPO: Dùng model nhỏ 450M params của LeRobot nhưng train bằng GRPO trong sim — giảm compute requirement từ 8xA800 xuống có thể 1-2 GPU
- LeRobot EnvHub + SimpleVLA-RL: Dùng simulation environments của LeRobot (dựa trên Gymnasium) với RL pipeline của SimpleVLA-RL
- Shared datasets: Data từ LeRobot Hub được dùng cho SFT warm-start, sau đó GRPO improve trong sim
Bảng tổng kết
| Tiêu chí | SimpleVLA-RL | LeRobot (HIL-SERL) |
|---|---|---|
| RL Algorithm | GRPO (no KL, asymmetric clip) | SAC + human interventions |
| Training env | Simulation (LIBERO, RoboTwin) | Real robot (SO100, Koch) |
| Reward | Binary 0/1 từ simulator | Learned reward classifier |
| VLA Model | OpenVLA-OFT (7B) | SmolVLA (450M), Pi0-FAST, ACT, v.v. |
| Hardware | 8x A800 80GB | 1 GPU + robot arm $200-500 |
| Data efficiency | 1 demo → 91.7% | ~15 demos + few hours → near-perfect |
| Exploration | Tự do (τ=1.6, pushcut) | Có kiểm soát (human corrections) |
| Sim-to-real | 17.5→38.5% (zero-shot) | Không cần (train on real) |
| Community | Academic paper, small team | 23K+ stars, 236 contributors |
| Best for | Research, scaling, sim-to-real | Production, accessibility, real deployment |
Kết luận
SimpleVLA-RL và LeRobot không phải đối thủ — chúng là hai mảnh ghép của bức tranh robot learning. SimpleVLA-RL mở ra khả năng train VLA bằng RL trong simulation với data efficiency đáng kinh ngạc. LeRobot cung cấp hệ sinh thái hoàn chỉnh để biến nghiên cứu thành sản phẩm thực tế trên robot thật.
Nếu bạn là researcher muốn đẩy giới hạn của VLA models, SimpleVLA-RL là playground lý tưởng. Nếu bạn là engineer muốn deploy robot manipulation trong thực tế, LeRobot là con đường nhanh nhất. Và nếu bạn tham vọng — hãy kết hợp cả hai.
Tương lai của robot learning không phải sim hoặc real. Nó là sim rồi real — và cả hai framework đều có vai trò quan trọng trong pipeline đó.
Bài viết liên quan
- SimpleVLA-RL (1): Tổng quan framework — Kiến trúc và ý tưởng cốt lõi đằng sau SimpleVLA-RL
- AI Series (5): VLA Models — Vision-Language-Action cho Robot — Nền tảng về các mô hình VLA hiện đại
- LeRobot Ecosystem Guide: Từ zero đến robot thật — Hướng dẫn toàn diện sử dụng LeRobot framework