IROS 2026 Pittsburgh — Navigation và Manipulation chiếm spotlight
IROS 2026 sẽ diễn ra tại Pittsburgh (27 Sep - 1 Oct) với chương trình ấn tượng. Hai chủ đề autonomous navigation và robot manipulation tiếp tục dẫn đầu về số lượng submissions. Bài viết này phân tích những papers nổi bật nhất mà kỹ sư robotics nên đọc trước hội nghị.
Với sự bùng nổ của foundation models và sim-to-real transfer, ranh giới giữa navigation và manipulation đang mờ dần — robot ngày càng cần khả năng vừa di chuyển vừa thao tác trong môi trường phức tạp.
Navigation Papers
1. Hybrid Motion Planning với Deep RL cho Mobile Robot
Paper: "Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation" (arXiv:2512.24651)
Vấn đề: Classical planners (A*, RRT) tối ưu về completeness nhưng chậm trong dynamic environments. RL planners react nhanh nhưng thiếu global reasoning và safety guarantees.
Giải pháp: Paper đề xuất kiến trúc hybrid kết hợp cả hai — global planner cổ điển cho long-range path và RL-based local planner cho obstacle avoidance real-time. Điểm mới là cơ chế switching thông minh giữa hai mode dựa trên uncertainty estimation.
Kết quả: Navigation success rate tăng 15% so với pure RL và thời gian completion giảm 25% so với pure classical planning trong dynamic environments với người đi bộ.
Takeaway: Đừng chọn giữa classical và learning — kết hợp cả hai. Global planner đảm bảo robot đến đích, RL local planner giúp tránh vật cản dynamic mà classical planner không handle tốt.
2. Human-like Navigation với VLM Reasoning
Paper: "Human-like Navigation in a World Built for Humans" (arXiv:2509.21189)
Vấn đề: Robot navigation hiện tại treat người như vật cản cần tránh, thay vì hiểu social norms. Robot đi qua đám đông nhưng hành vi "bất lịch sự" — cắt ngang, đi quá gần, không nhường đường.
Giải pháp: ReasonNav sử dụng Vision-Language Model (VLM) theo kiểu agentic để lập kế hoạch navigation giống người. Thay vì costmap thuần tuý, robot "suy luận" về context — nhận diện cửa ra vào, hành lang, khu vực đông người, và chọn hành vi phù hợp (chờ, nhường, đi vòng).
Takeaway: Social navigation không chỉ là tránh va chạm — robot cần hiểu context. VLM reasoning mở ra khả năng robot navigate như người, đặc biệt quan trọng cho service robot trong bệnh viện, khách sạn, và trung tâm thương mại.
3. Decentralized Multi-Robot Navigation với Limited Communication
Paper: "Decentralized Multi-Robot Relative Navigation in Unknown, Structurally Constrained Environments under Limited Communication" (arXiv:2510.09188)
Vấn đề: Multi-robot navigation trong môi trường unknown và GPS-denied (warehouse, underground, disaster zones) — mỗi robot chỉ có sensor cục bộ và bandwidth communication hạn chế.
Giải pháp: Framework phân tầng — (1) Topological sharing nhẹ cho strategic planning tầm xa (chia sẻ graph thay vì full map), (2) Local metric planning cho collision avoidance real-time. Cách chia hai tầng này giảm đáng kể bandwidth cần thiết mà vẫn đảm bảo coordination hiệu quả.
Takeaway: Trong warehouse automation, bandwidth là tài nguyên quý. Thiết kế communication protocol 2 tầng — high-level topology (low bandwidth) + local metric (high bandwidth khi cần) — là pattern thực tế cho multi-robot fleet.
Manipulation Papers
4. DexUMI: Human Hand làm Universal Interface
Paper: "DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation" (arXiv:2505.21864)
Vấn đề: Thu thập dữ liệu demonstration cho dexterous manipulation tốn kém và chậm. Teleoperation với robot hand đòi hỏi operator lành nghề. Mỗi loại robot hand cần retargeting riêng.
Giải pháp: DexUMI dùng bàn tay người trực tiếp làm interface — operator thao tác bằng tay trần, hệ thống vision capture chuyển động rồi retarget sang bất kỳ robot hand nào. Framework đạt 86% success rate trung bình trên multiple tasks và transfer được sang nhiều loại robot hand khác nhau.
Takeaway: Nếu bạn cần thu thập manipulation data, bỏ qua teleoperation phức tạp — dùng hand tracking (MediaPipe, LeapMotion) để capture human demonstration rồi retarget. Nhanh hơn, rẻ hơn, và tự nhiên hơn cho operator.
5. Sim-to-Real cho Long-Horizon Pick-and-Place
Paper: "Robotic Sim-to-Real Transfer for Long-Horizon Pick-and-Place Tasks" (arXiv:2503.11012)
Vấn đề: Sim-to-real cho manipulation thường chỉ demo trên single-step tasks (pick OR place). Long-horizon tasks (pick từ bin A, sort theo loại, place vào bin B, C, D) có error compounding nghiêm trọng — sai lệch nhỏ ở bước đầu tích luỹ thành failure ở bước cuối.
Giải pháp: Paper trình bày hệ thống fully autonomous cho long-horizon pick-and-place, vượt qua discrepancies giữa sim và real bằng cách: (1) robust perception pipeline xử lý domain gap về visual, (2) adaptive grasp planner điều chỉnh realtime dựa trên force feedback, (3) error recovery module phát hiện và sửa lỗi mid-execution.
Takeaway: Cho long-horizon tasks, đừng cố làm mỗi bước hoàn hảo — đầu tư vào error detection và recovery. Robot công nghiệp thành công nhờ biết khi nào sai và sửa được, không phải nhờ không bao giờ sai.
6. Dexterous Manipulation qua Imitation Learning Survey
Paper: "Dexterous Manipulation through Imitation Learning: A Survey" (arXiv:2504.03515)
Đây là survey toàn diện về state-of-the-art imitation learning cho dexterous manipulation, bao gồm:
- Data collection: Teleoperation, motion capture, video demonstration
- Learning methods: Behavioral cloning, diffusion policy, VLA models
- Representations: Point cloud, tactile, multi-modal
- Sim-to-real: Domain randomization, teacher-student, residual policy
Survey phân tích ưu nhược điểm từng approach và chỉ ra open challenges: generalization across objects, long-horizon reasoning, và safety during learning.
Takeaway: Survey tuyệt vời để đọc trước khi bắt đầu project manipulation mới. Giúp bạn chọn đúng method cho use case cụ thể — behavioral cloning cho tasks đơn giản, diffusion policy cho tasks cần multimodal actions, VLA cho tasks cần language conditioning.
Xu hướng xuyên suốt IROS 2026
Navigation + Manipulation = Mobile Manipulation
Nhiều papers tại IROS 2026 blur ranh giới giữa navigation và manipulation. Robot không chỉ cần đi đến đúng chỗ mà còn phải tương tác với environment. Mobile manipulation — robot di chuyển rồi gắp, đặt, mở cửa — là use case thực tế nhất cho service robot và logistics.
Foundation Models ở khắp nơi
Từ navigation (VLM reasoning), manipulation (VLA models), perception (foundation model detection), đến multi-robot (LLM task planning) — foundation models xuất hiện trong gần như mọi track. Đây không còn là trend mà là paradigm shift.
Safety là yêu cầu, không phải option
Papers về safe RL, formal verification, và human-aware planning tăng mạnh. Reviewer đang yêu cầu safety analysis trong mọi paper deploy trên robot thật — đây là tín hiệu rõ ràng cho cộng đồng.
Tổng kết
IROS 2026 Pittsburgh đã cho thấy robotics đang ở giai đoạn chuyển mình mạnh mẽ. Navigation không còn chỉ là A-to-B pathfinding — nó cần social awareness, semantic understanding, và multi-robot coordination. Manipulation không còn chỉ là pick-and-place đơn giản — nó đòi hỏi dexterous skills, long-horizon planning, và sim-to-real transfer hiệu quả.
Cho kỹ sư robotics Việt Nam, các papers từ IROS 2026 cung cấp toolkit thực tế: hybrid planning cho warehouse AMR, imitation learning cho manipulation, và foundation models cho rapid prototyping. Thời điểm tốt nhất để bắt đầu áp dụng là ngay bây giờ.
Bài viết liên quan
- SLAM và Navigation cho robot tự hành — Nền tảng SLAM và navigation stack
- Multi-Robot Coordination — Thuật toán fleet management và task allocation
- IROS 2026 Preview: Những gì đáng chờ đợi — Preview trước hội nghị