SimpleVLA-RL (1): Tổng quan & Ý tưởng

Mở đầu: Khi VLA "học thuộc bài" nhưng chưa biết "thi"

Hãy tưởng tượng bạn đang dạy một đứa trẻ chơi bóng rổ. Bạn cho nó xem hàng trăm video về cách ném bóng vào rổ — góc tay, lực ném, vị trí đứng. Sau khi xem xong, đứa trẻ có thể mô tả chính xác cách ném bóng, nhưng khi ra sân thật, tỷ lệ ném trúng vẫn thấp. Tại sao? Vì xem người khác làm khác hoàn toàn với tự mình trải nghiệm.

Đây chính xác là vấn đề mà các Vision-Language-Action (VLA) model đang gặp phải. Sau giai đoạn Supervised Fine-Tuning (SFT) — tức là học từ dữ liệu biểu diễn của chuyên gia — chúng đạt đến một trần hiệu suất (performance ceiling) mà dù thêm bao nhiêu dữ liệu cũng khó vượt qua. SimpleVLA-RL, được công bố tại ICLR 2026, đề xuất một giải pháp đơn giản đến bất ngờ: cho robot tự luyện tập với phản hồi nhị phân (thành công/thất bại), và kết quả cải thiện lên tới 430%.

Bài viết này là phần 1 trong series 2 bài về SimpleVLA-RL, nơi chúng ta sẽ tìm hiểu ý tưởng cốt lõi và những kết quả đáng kinh ngạc của phương pháp này.

Vấn đề: Tại sao VLA "dậm chân tại chỗ" sau SFT?

Trần dữ liệu (Data Ceiling)

Các VLA model hiện tại như OpenVLA, RT-2, hay Octo đều sử dụng pipeline tương tự: thu thập demonstration data từ teleoperation (người điều khiển robot thực hiện task), rồi train model bằng supervised learning. Cách tiếp cận này có ba hạn chế cơ bản:

Chi phí thu thập dữ liệu cực cao: Mỗi demonstration cần một operator có kinh nghiệm, một robot vật lý, và thời gian setup. Thu thập 500 demonstrations cho một task đơn giản có thể mất hàng tuần.
Dữ liệu chỉ chứa những gì operator nghĩ ra: Nếu operator luôn gắp vật thể bằng cách tiếp cận từ trên xuống, model sẽ không bao giờ học cách tiếp cận từ bên cạnh — dù cách đó có thể hiệu quả hơn trong nhiều trường hợp.
Diminishing returns: Sau một lượng dữ liệu nhất định, thêm demonstrations mới không cải thiện đáng kể hiệu suất. Model đã "bão hòa" với kiến thức từ dữ liệu.

SFT = Học thuộc, RL = Học qua thực hành

Để hiểu rõ hơn, hãy dùng một phép so sánh quen thuộc:

SFT giống như đọc sách giáo khoa: Bạn học các bước, ghi nhớ quy trình, và có thể tái tạo lại những gì sách dạy. Nhưng khi gặp tình huống mới — vật thể ở vị trí lạ, ánh sáng khác, bề mặt trơn — bạn lúng túng vì sách không cover trường hợp này.
RL giống như tự luyện tập trên sân: Bạn thử, thất bại, điều chỉnh, thử lại. Mỗi lần thất bại dạy bạn điều mà sách không nói. Bạn phát hiện ra những "mẹo" mà không ai dạy — như đẩy vật thể vào góc trước khi gắp, hoặc nghiêng tay 45 độ thay vì 90 độ.

SimpleVLA-RL đưa VLA model từ giai đoạn "đọc sách" sang "tự luyện tập" — và kết quả là bước nhảy vọt về hiệu suất.

Ý tưởng cốt lõi: Binary Reward là đủ

Reward đơn giản nhất có thể

Một trong những rào cản lớn nhất khi áp dụng Reinforcement Learning cho robot manipulation là reward engineering — thiết kế hàm thưởng phù hợp. Truyền thống, các nhà nghiên cứu phải thiết kế reward phức tạp: khoảng cách tay đến vật thể, góc gắp, lực tiếp xúc, v.v. Mỗi task cần một reward function riêng, và một reward function tồi có thể dẫn đến reward hacking — robot tìm cách "gian lận" để tối đa hóa reward mà không thực sự hoàn thành task.

SimpleVLA-RL chọn cách tiếp cận ngược lại — đơn giản nhất có thể:

R = 1   nếu robot hoàn thành task thành công
R = 0   nếu robot thất bại

Vậy thôi. Không có reward trung gian, không có shaping, không có heuristic. Chỉ có thành công hoặc thất bại.

Tại sao cách này hiệu quả? Vì VLA model đã có một nền tảng tốt từ SFT. Nó đã biết cách tiếp cận vật thể, biết cách di chuyển gripper. Điều nó cần không phải là hướng dẫn chi tiết từng bước (dense reward), mà là phản hồi tổng thể: "cách này đúng" hay "cách này sai". Từ phản hồi đó, nó tự tìm ra cách cải thiện.

Hãy nghĩ lại ví dụ bóng rổ: bạn không cần ai phân tích từng khớp tay của bạn sau mỗi lần ném. Bạn chỉ cần biết bóng vào rổ hay không — và qua hàng trăm lần ném, cơ thể bạn tự điều chỉnh.

Hiện tượng "Pushcut": Khi RL phát minh ra chiến thuật mới

Đây là phần thú vị nhất của paper — và cũng là minh chứng mạnh mẽ nhất cho sức mạnh của RL so với SFT.

Gắp hay đẩy?

Trong benchmark LIBERO, có một task yêu cầu robot lấy một miếng thịt từ chảo rán. Dữ liệu demonstration từ người thao tác luôn thể hiện cùng một chiến lược: dùng gripper gắp trực tiếp miếng thịt.

Nhưng sau khi train với RL, robot phát hiện ra một chiến thuật hoàn toàn mới: thay vì gắp, nó đẩy miếng thịt ra khỏi chảo rồi mới gắp trên bề mặt phẳng — nơi việc gắp dễ dàng hơn nhiều. Các tác giả gọi hiện tượng này là "pushcut".

Tại sao SFT không thể phát hiện điều này?

SFT chỉ học từ dữ liệu có sẵn. Nếu không ai trong đội thu thập dữ liệu nghĩ đến việc đẩy thay vì gắp, model sẽ không bao giờ khám phá chiến thuật này. RL, ngược lại, được khuyến khích thử nghiệm (exploration) — và qua quá trình thử nhiều cách khác nhau, nó tình cờ phát hiện rằng đẩy trước khi gắp có tỷ lệ thành công cao hơn.

Đây là bản chất của sự khác biệt giữa imitation learning và reinforcement learning: imitation learning bị giới hạn bởi trí tưởng tượng của người dạy, còn RL chỉ bị giới hạn bởi không gian hành động của robot.

Kết quả: Những con số nói lên tất cả

LIBERO-Long: Từ 97.6% lên 99.1%

Trên benchmark LIBERO-Long (10 tasks dài, nhiều bước), SimpleVLA-RL đạt 99.1% tỷ lệ thành công, so với 97.6% của SFT baseline. Cải thiện tuyệt đối chỉ 1.5 điểm phần trăm, nhưng ở mức accuracy gần 100% này, mỗi phần trăm đều cực kỳ khó đạt được.

Cold-start: Từ 17.3% lên 91.7% (cải thiện 430%)

Đây là kết quả ấn tượng nhất. Khi chỉ có 1 demonstration cho mỗi task (thay vì 500), SFT chỉ đạt 17.3%. Nhưng khi kết hợp với RL online, performance nhảy lên 91.7% — gần bằng mức 91.0% mà SFT cần 500 demonstrations mới đạt được!

Nói cách khác: 1 demo + RL ≈ 500 demos SFT. Điều này có ý nghĩa thực tiễn cực lớn — thay vì tốn hàng tuần thu thập dữ liệu, bạn chỉ cần một lần biểu diễn rồi để robot tự cải thiện trong simulation.

RoboTwin: Từ 38.3% lên 68.8%

Trên RoboTwin benchmark (dual-arm tasks phức tạp hơn), SimpleVLA-RL cải thiện từ 38.3% lên 68.8% — tăng 79.6% tương đối. Đây là benchmark khó hơn nhiều vì yêu cầu phối hợp hai cánh tay cùng lúc.

Thế giới thực: Từ 17.5% lên 38.5%

Trên robot Piper dual-arm trong thế giới thực (không phải simulation), SimpleVLA-RL cải thiện từ 17.5% lên 38.5% — tăng 120%. Con số 38.5% nghe có vẻ thấp, nhưng đây là real-world manipulation với sim-to-real transfer, và cải thiện 120% cho thấy RL thực sự giúp model generalize tốt hơn ra ngoài simulation.

Pipeline tổng quan: Từ SFT đến RL

SimpleVLA-RL hoạt động theo pipeline 2 giai đoạn:

Giai đoạn 1: SFT Cold-start

Thu thập demonstration data (500 demos/task cho LIBERO, hoặc chỉ 1 demo cho cold-start experiment)
Fine-tune OpenVLA-OFT trên dữ liệu này bằng supervised learning
Kết quả: model có khả năng thực hiện task ở mức cơ bản

Giai đoạn 2: RL Online Training

Deploy model trong simulation environment (LIBERO hoặc RoboTwin)
Model thực hiện task, nhận reward nhị phân (1 hoặc 0)
Dùng thuật toán GRPO (Group Relative Policy Optimization) để cập nhật policy
Lặp lại cho đến khi converge

Điểm quan trọng: RL ở đây là online RL — model tương tác trực tiếp với environment, không phải offline RL (học từ dataset cố định). Điều này cho phép model khám phá những chiến thuật mới mà dữ liệu demonstration không chứa.

Tại sao SimpleVLA-RL quan trọng?

1. Phá vỡ data ceiling

Trước SimpleVLA-RL, cách duy nhất để cải thiện VLA model là thu thập thêm dữ liệu. Bây giờ, chúng ta có một con đường khác: để model tự cải thiện thông qua trial-and-error. Đây là paradigm shift trong robot learning.

2. Giảm chi phí thu thập dữ liệu 500x

Cold-start experiment cho thấy 1 demo + RL gần bằng 500 demos SFT. Trong thực tế, điều này có nghĩa rằng khi deploy robot cho một task mới, bạn chỉ cần biểu diễn một lần rồi để robot tự luyện overnight trong simulation.

3. Emergence of novel behaviors

Hiện tượng "pushcut" cho thấy RL có thể phát minh ra chiến thuật mà con người không nghĩ đến. Khi robot hoạt động trong môi trường đa dạng (nhà máy, bệnh viện, nhà ở), khả năng tự khám phá giải pháp mới là cực kỳ giá trị.

4. Đơn giản đến bất ngờ

Không cần reward engineering phức tạp, không cần critic network, không cần KL regularization. Chỉ cần binary reward + GRPO + một vài tricks (dynamic sampling, asymmetric clipping). Sự đơn giản này làm cho phương pháp dễ reproduce và áp dụng rộng rãi.

Series Roadmap

Series SimpleVLA-RL gồm 2 phần:

Phần	Nội dung	Mức độ
Phần 1 (bài này)	Tổng quan, ý tưởng, kết quả	Beginner
Phần 2	Kiến trúc chi tiết, GRPO, dynamic sampling	Intermediate

Prerequisites

Để theo dõi series này hiệu quả, bạn nên có:

Python cơ bản: Biết đọc code PyTorch
Hiểu biết về RL: Policy, reward, episode. Nếu chưa, đọc RL cơ bản cho Robotics
Hiểu biết về VLA: Vision-Language-Action model là gì. Tham khảo VLA Models: Từ ngôn ngữ đến hành động

Tài liệu tham khảo

SimpleVLA-RL: Reinforcing Vision-Language-Action Models with Simple Binary Rewards — Huaide Ren et al., ICLR 2026
GitHub: PRIME-RL/SimpleVLA-RL
OpenVLA-OFT — Backbone model
veRL Framework — RL training framework

Kết luận

SimpleVLA-RL không phải là một phương pháp phức tạp với hàng tá hyperparameter cần tinh chỉnh. Nó là một ý tưởng đơn giản — cho robot tự luyện tập với phản hồi đúng/sai — được thực thi một cách cẩn thận. Và đó chính là điều làm nó mạnh mẽ: khi một phương pháp đơn giản cho kết quả tốt, nó thường robust và generalizable hơn nhiều so với phương pháp phức tạp.

Trong phần 2, chúng ta sẽ đi sâu vào kiến trúc OpenVLA-OFT, thuật toán GRPO, và các kỹ thuật giúp SimpleVLA-RL hoạt động hiệu quả. Nếu bạn quan tâm đến cách Embodied AI đang phát triển trong năm 2026, đây là một trong những hướng nghiên cứu đáng theo dõi nhất.