Top nghiên cứu Robotics 2024-2025: Paper đáng đọc từ ICRA, CoRL và RSS

Robotics research đang bùng nổ

Nếu bạn theo dõi các hội nghị robotics hàng đầu — ICRA, CoRL, RSS — trong hai năm qua, bạn sẽ nhận thấy một sự chuyển dịch rõ rệt: robot không còn chỉ là vấn đề cơ khí hay control theory thuần túy. Thay vào đó, sự kết hợp giữa deep learning, large language models và physical simulation đang tạo ra những khả năng mà vài năm trước còn nằm trong phạm vi science fiction.

Bài viết này tổng hợp và phân tích 15+ paper có ảnh hưởng lớn nhất trong giai đoạn 2024-2025, được tổ chức theo 5 hướng nghiên cứu chính. Mỗi paper đều có link arXiv thật để bạn có thể đọc sâu hơn.

1. Foundation Models cho Robot — Một model, nhiều robot

Ý tưởng cốt lõi: thay vì huấn luyện policy riêng cho từng robot và từng task, liệu ta có thể xây dựng một "foundation model" cho robotics — tương tự GPT cho ngôn ngữ? Năm 2024-2025, câu trả lời đã rõ ràng hơn bao giờ hết.

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control — Brohan et al., Google DeepMind, 2023

RT-2 là paper mở đường cho dòng nghiên cứu Vision-Language-Action (VLA). Ý tưởng then chốt: co-fine-tune một vision-language model lớn trên cả dữ liệu internet (visual question answering, image captioning) lẫn dữ liệu trajectory của robot. Kết quả là model có thể "hiểu" ngôn ngữ tự nhiên và chuyển kiến thức từ web sang điều khiển robot thật.

Điều đáng chú ý nhất là khả năng emergent reasoning: RT-2 có thể suy luận "vật nào dùng được như búa" hoặc "đồ uống nào phù hợp cho người mệt" — những khả năng không hề có trong training data robot. Đây là minh chứng rõ ràng nhất rằng web-scale pretraining thực sự transfer được sang physical world.

Takeaway cho kỹ sư: Không cần thu thập hàng triệu trajectory cho mỗi task mới. Leverage vision-language pretraining là con đường hiệu quả nhất hiện tại.

Octo: An Open-Source Generalist Robot Policy

Octo: An Open-Source Generalist Robot Policy — Octo Model Team, RSS 2024

Nếu RT-2 là closed-source từ Google, thì Octo là câu trả lời open-source mà cộng đồng cần. Được huấn luyện trên 800k trajectories từ Open X-Embodiment dataset — bộ dữ liệu manipulation lớn nhất hiện tại — Octo là transformer-based policy có thể nhận instruction qua ngôn ngữ hoặc goal image.

Điểm mạnh thực tế: Octo có thể fine-tune cho robot setup mới (sensor khác, action space khác) chỉ trong vài giờ trên consumer GPU. Paper cũng thực hiện ablation study chi tiết về kiến trúc và training data, giúp cộng đồng hiểu rõ design decision nào thực sự quan trọng.

Takeaway: Nếu bạn muốn bắt đầu với generalist robot policy mà không cần infra của Google, Octo là điểm xuất phát tốt nhất. Code, weights và data đều public.

OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLA: An Open-Source Vision-Language-Action Model — Kim et al., 2024

OpenVLA đưa VLA models đến gần hơn với thực tế triển khai. Với 7B parameters (xây trên Llama 2 + DINOv2 + SigLIP), model này vượt trội RT-2-X (55B) tới 16.5% absolute success rate trên 29 tasks — với ít parameters hơn 7 lần. Đặc biệt, OpenVLA hỗ trợ fine-tuning bằng LoRA trên consumer GPU và quantization không mất performance.

Takeaway: VLA models đang trở nên đủ nhỏ và đủ mở để các lab nhỏ và startup cũng có thể sử dụng. Đây là bước đi quan trọng cho democratization of robotics AI.

2. Dexterous Manipulation — Tay robot thông minh hơn

Manipulation luôn là bài toán khó nhất trong robotics. Trong khi parallel-jaw gripper đã đủ tốt cho pick-and-place đơn giản, thế giới thực đòi hỏi sự khéo léo của bàn tay — và nghiên cứu gần đây đang thu hẹp khoảng cách này nhanh chóng.

DexGraspNet 2.0: Generative Dexterous Grasping in Cluttered Scenes

DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes — Wang et al., 2024

Phiên bản đầu tiên của DexGraspNet (arXiv:2210.02697) đã tạo ra benchmark với 1.32 triệu grasps cho 5355 objects. Phiên bản 2.0 nâng tầm bằng cách giải quyết bài toán thực tế hơn: grasping trong cluttered scenes — khi các vật thể chồng chéo, che khuất lẫn nhau. Sử dụng diffusion model conditioned trên local geometry, phương pháp này đạt 90.7% success rate trong real-world dexterous grasping — zero-shot sim-to-real transfer.

Takeaway: Diffusion models không chỉ generate ảnh đẹp — chúng cũng là công cụ mạnh mẽ cho robot grasp planning trong môi trường phức tạp.

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch — Chen et al., 2024

In-hand manipulation — xoay, lật vật thể trong lòng bàn tay — là một trong những thách thức lớn nhất. AnyRotate giải quyết vấn đề này bằng dense tactile policy: thay vì chỉ dựa vào vision, model sử dụng full contact pose và contact force từ tactile sensors để detect unstable grasps và điều chỉnh real-time.

Kết quả ấn tượng: lần đầu tiên đạt được in-hand rotation với tay robot di chuyển liên tục theo mọi hướng, không bị giới hạn bởi gravity orientation. Zero-shot sim-to-real transfer cho unseen objects.

Takeaway: Tactile sensing đang trở thành yếu tố then chốt — vision alone không đủ cho contact-rich manipulation.

Sparsh: Self-supervised Touch Representations

Sparsh: Self-supervised touch representations for vision-based tactile sensing — Higuera et al., 2024

Một trong những rào cản lớn nhất của tactile-based learning là thiếu data có label. Sparsh giải quyết bằng self-supervised learning: pre-train trên 460k+ tactile images sử dụng masking và self-distillation. Kết quả: SSL pre-training vượt trội task-specific end-to-end training 95.1% trung bình trên TacBench benchmark.

Takeaway: Foundation model cho tactile sensing đã xuất hiện. Tương tự ImageNet pretraining đã cách mạng hóa computer vision, Sparsh có thể là bước đầu cho tactile perception.

3. Sim-to-Real Transfer — Thu hẹp khoảng cách thực-ảo

Kỹ thuật sim-to-real và digital twin ngày càng quan trọng. Train trong simulation rồi deploy trên robot thật — ý tưởng đơn giản nhưng thực thi cực khó. Reality gap luôn là kẻ thù số một. Nhưng năm 2024-2025 chứng kiến những bước tiến đáng kể.

DrEureka: Language Model Guided Sim-To-Real Transfer

DrEureka: Language Model Guided Sim-To-Real Transfer — Ma et al., 2024

DrEureka là paper khiến tôi phấn khích nhất trong danh sách này. Thay vì engineer thủ công reward function và domain randomization parameters — công việc tốn hàng tuần cho mỗi task — DrEureka dùng LLM để tự động thiết kế cả hai. Quy trình 3 bước: LLM sinh reward function, policy được thử trong perturbed simulations để xác định sampling range, rồi LLM sinh domain randomization config.

Kết quả? Trong dexterous manipulation, policy của DrEureka thực hiện nhiều hơn 300% in-hand cube rotations so với policy do human design. Cho bài toán walking on yoga ball, robot giữ thăng bằng được nhiều phút trên nhiều loại địa hình — indoor lẫn outdoor.

Takeaway: LLMs không chỉ hữu ích cho NLP — chúng đang trở thành "reward engineer" và "sim tuner" tốt hơn con người. Đây có thể là tương lai của sim-to-real pipeline.

Isaac Lab: A GPU-Accelerated Simulation Framework for Multi-Modal Robot Learning — Mittal et al., NVIDIA, 2025

Isaac Lab là successor chính thức của Isaac Gym, và nó không chỉ là update nhỏ. Framework mới kết hợp GPU parallel physics, photorealistic rendering, actuator models, multi-frequency sensor simulation và domain randomization tools trong một platform duy nhất. Kiến trúc modular cho phép thiết kế environment nhanh chóng cho cả RL và imitation learning.

Nhiều paper trong danh sách này (Humanoid-Gym, NaVILA) đều sử dụng Isaac Lab/Gym làm simulation backend, cho thấy tầm ảnh hưởng to lớn của platform này.

Takeaway: Nếu bạn làm sim-to-real, Isaac Lab nên là default choice. Free, GPU-accelerated, và hầu hết SOTA papers đều dùng nó.

Humanoid-Gym: Zero-Shot Sim2Real Transfer

Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer — Gu et al., 2024

Paper này đặc biệt vì tính thực tiễn: một RL framework dễ sử dụng (dựa trên Isaac Gym) chuyên cho humanoid locomotion, với zero-shot transfer thành công sang robot thật. Không cần fine-tuning trên real robot, policy huấn luyện hoàn toàn trong sim có thể chạy trực tiếp.

Takeaway: Zero-shot sim-to-real cho locomotion đã trở thành hiện thực, không còn là exception mà là expectation.

Navigation tưởng chừng đã "giải quyết xong" với SLAM, nhưng thực tế phức tạp hơn nhiều: dynamic obstacles, natural language instructions, unknown environments. Learning-based approaches đang mở ra paradigm mới.

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration — Sridhar et al., ICRA 2024

NoMaD giải quyết một vấn đề thú vị: làm sao dùng một policy duy nhất cho cả goal-conditioned navigation (đi đến điểm B) và goal-agnostic exploration (khám phá môi trường mới). Sử dụng Transformer + diffusion model decoder, NoMaD học từ data của nhiều ground robots khác nhau.

Điểm mấu chốt: khi có goal, model navigation đến đó; khi không có goal, model tự explore theo distribution đã học. Trên real-world mobile robot, NoMaD cho collision rate thấp hơn đáng kể so với các phương pháp dùng model lớn hơn nhiều.

Takeaway: Diffusion policy không chỉ cho manipulation — chúng cũng là architecture mạnh cho navigation, đặc biệt khi cần flexibility giữa exploitation và exploration.

NaVILA: Legged Robot Vision-Language-Action Model for Navigation — An et al., 2024

NaVILA mang VLA models vào navigation cho legged robots — một bước ngoặt vì robot chân có thể đi qua terrain mà wheeled robots không thể. Kiến trúc 2 tầng: VLA sinh mid-level language instructions (ví dụ: "moving forward 75cm"), rồi visual locomotion RL policy thực thi.

Cách decoupling này rất thông minh: cùng một VLA có thể dùng cho nhiều robot khác nhau chỉ cần swap low-level policy. Training data cũng đa dạng hơn — kể cả real human videos và reasoning QA tasks.

Takeaway: Decoupling high-level reasoning (VLA) và low-level control (RL) có thể là design pattern chuẩn cho robot navigation trong tương lai.

Deep Reinforcement Learning for Multi-Agent Coordination

Deep Reinforcement Learning for Multi-Agent Coordination — Survey, 2025

Multi-robot coordination đang chuyển từ centralized sang decentralized approaches, chiếm hơn 50% methods trong các survey gần đây. Xu hướng nổi bật: kết hợp Graph Neural Networks với deep RL để học coordination policy mà không cần communication bandwidth lớn. Các framework như HIPPO-MAT (arXiv:2503.07662) dùng GraphSAGE + Independent PPO cho dynamic 3D task allocation.

Takeaway: Nếu bạn làm warehouse automation hay multi-robot systems, decentralized RL + GNN là hướng đi đáng đầu tư nghiên cứu.

5. Humanoid Locomotion — Robot đi như người

2024-2025 có thể gọi là "năm của humanoid" — từ Tesla Optimus đến Figure 01 đến Unitree H1. Nhưng đằng sau hardware là những bước tiến nghiên cứu quan trọng.

Expressive Whole-Body Control for Humanoid Robots

Expressive Whole-Body Control for Humanoid Robots — Cheng et al., 2024

ExBody đặt câu hỏi: robot humanoid có thể di chuyển biểu cảm như con người không? Paper đề xuất controller nhận cả reference motion (từ motion capture data) lẫn root movement command, cho phép robot không chỉ đi mà còn thể hiện phong cách di chuyển cụ thể. Leverage large-scale human motion capture data trong RL framework.

Takeaway: Humanoid locomotion không chỉ là "đi được" mà còn là "đi đẹp" — và điều đó quan trọng cho human-robot interaction.

HumanPlus: Humanoid Shadowing and Imitation from Humans

HumanPlus: Humanoid Shadowing and Imitation from Humans — Fu et al., CoRL 2024

HumanPlus là full-stack system ấn tượng: dùng một camera RGB duy nhất, người điều khiển có thể teleoperate toàn bộ body của humanoid robot real-time. Sau đó, imitation learning algorithm học từ chỉ 40 demonstrations để robot tự thực hiện task — từ mang giày đứng dậy đến đi bộ — với 60-100% success rate.

Hai contribution chính: Humanoid Shadowing Transformer (trained trên massive human motion data) và Humanoid Imitation Transformer (efficient learning từ ít demo). Sự kết hợp giữa teleoperation data collection và imitation learning tạo ra pipeline rất practical.

Takeaway: Data collection cho humanoid không cần motion capture suit đắt tiền — một RGB camera là đủ. Đây là game changer cho việc scale humanoid learning.

Robust Humanoid Walking on Compliant and Uneven Terrain

Robust Humanoid Walking on Compliant and Uneven Terrain with Deep Reinforcement Learning — Murooka et al., 2025

Paper này giải quyết bài toán thực tế nhất: humanoid đi trên địa hình không bằng phẳng và mềm (compliant terrain như cát, thảm dày). Sử dụng simple training curriculum với randomized terrain trong simulation, robot HRP-5P chạy policy chỉ dùng proprioceptive feedback — không cần vision hay terrain mapping.

Kết quả zero-shot transfer thành công trên nhiều loại terrain thực tế, cả trong lab lẫn outdoor. Đây là minh chứng rằng sim-to-real cho humanoid locomotion trên terrain phức tạp đã đạt mức production-ready.

Takeaway: Proprioceptive-only policy + domain randomization đủ cho robust locomotion. Không phải lúc nào cũng cần vision — đôi khi simplicity wins.

Kết nối các mảnh ghép

Nhìn tổng thể, 5 hướng nghiên cứu trên không tách rời mà đan xen chặt chẽ:

Foundation models (RT-2, Octo, OpenVLA) cung cấp "bộ não" general-purpose
Dexterous manipulation (DexGraspNet, AnyRotate) cho robot "đôi tay khéo léo"
Sim-to-real (DrEureka, Isaac Lab) là cầu nối từ research đến deployment
Navigation (NoMaD, NaVILA) giải quyết "đôi chân" cho mobile robots
Humanoid locomotion (ExBody, HumanPlus) hướng đến robot "toàn diện như con người"

Xu hướng xuyên suốt là convergence: VLA models kết hợp vision + language + action, tactile + visual fusion cho manipulation, LLM-guided sim-to-real, và RL + imitation learning cho locomotion. Robot tương lai sẽ không excel ở một khía cạnh mà phải integrate tất cả.

Lời khuyên cho kỹ sư Việt Nam

Bắt đầu với open-source: Octo, OpenVLA, Isaac Lab đều free — không cần budget của Google để bắt đầu nghiên cứu. Dùng Python để lập trình robot là bước đi đầu tiên
Đầu tư vào simulation: Isaac Lab + domain randomization là pipeline chính cho mọi hướng nghiên cứu
Theo dõi arXiv hàng tuần: Tốc độ publish trong robotics đang ngang ngửa NLP — miss 1 tháng là miss rất nhiều
Kết hợp theory và practice: Đọc paper xong, reproduce kết quả. Cộng đồng open-source robotics đang rất active
Focus vào integration: Competitive advantage không nằm ở một algorithm đơn lẻ mà ở khả năng kết hợp perception + planning + control

Robotics research đang ở giai đoạn exciting nhất trong lịch sử. Và với sự mở rộng của manufacturing tại Việt Nam, kỹ sư Việt có cơ hội lớn để không chỉ apply mà còn contribute vào những nghiên cứu này.

Top nghiên cứu Robotics 2024-2025: Paper đáng đọc từ ICRA, CoRL và RSS

Robotics research đang bùng nổ

1. Foundation Models cho Robot — Một model, nhiều robot

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Octo: An Open-Source Generalist Robot Policy

OpenVLA: An Open-Source Vision-Language-Action Model

2. Dexterous Manipulation — Tay robot thông minh hơn

DexGraspNet 2.0: Generative Dexterous Grasping in Cluttered Scenes

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch

Sparsh: Self-supervised Touch Representations

3. Sim-to-Real Transfer — Thu hẹp khoảng cách thực-ảo

DrEureka: Language Model Guided Sim-To-Real Transfer

Humanoid-Gym: Zero-Shot Sim2Real Transfer

4. Mobile Robot Navigation — Đi từ A đến B, nhưng thông minh hơn

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

Deep Reinforcement Learning for Multi-Agent Coordination

5. Humanoid Locomotion — Robot đi như người

Expressive Whole-Body Control for Humanoid Robots

HumanPlus: Humanoid Shadowing and Imitation from Humans

Robust Humanoid Walking on Compliant and Uneven Terrain

Kết nối các mảnh ghép

Lời khuyên cho kỹ sư Việt Nam

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

NVIDIA Newton 1.0: GPU Physics 475x Nhanh Hơn MJX

Hướng dẫn GigaBrain-0: VLA + World Model + RL

Gemma 4 cho Robotics: AI mã nguồn mở chạy trên Edge

Robotics research đang bùng nổ

1. Foundation Models cho Robot — Một model, nhiều robot

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Octo: An Open-Source Generalist Robot Policy

OpenVLA: An Open-Source Vision-Language-Action Model

2. Dexterous Manipulation — Tay robot thông minh hơn

DexGraspNet 2.0: Generative Dexterous Grasping in Cluttered Scenes

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch

Sparsh: Self-supervised Touch Representations

3. Sim-to-Real Transfer — Thu hẹp khoảng cách thực-ảo

DrEureka: Language Model Guided Sim-To-Real Transfer

Isaac Lab: GPU-Accelerated Simulation for Multi-Modal Robot Learning

Humanoid-Gym: Zero-Shot Sim2Real Transfer

4. Mobile Robot Navigation — Đi từ A đến B, nhưng thông minh hơn

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

Deep Reinforcement Learning for Multi-Agent Coordination

5. Humanoid Locomotion — Robot đi như người

Expressive Whole-Body Control for Humanoid Robots

HumanPlus: Humanoid Shadowing and Imitation from Humans

Robust Humanoid Walking on Compliant and Uneven Terrain

Kết nối các mảnh ghép

Lời khuyên cho kỹ sư Việt Nam

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

NVIDIA Newton 1.0: GPU Physics 475x Nhanh Hơn MJX

Hướng dẫn GigaBrain-0: VLA + World Model + RL

Gemma 4 cho Robotics: AI mã nguồn mở chạy trên Edge