ICRA 2026 Vienna: Papers được accept đáng chú ý nhất
ICRA 2026 sẽ diễn ra tại Vienna (1-5 tháng 6) với hàng nghìn papers được accept. Danh sách accepted papers đã được công bố, và đây là phân tích của tôi về những papers xuất sắc nhất và xu hướng mà kỹ sư robotics Việt Nam cần theo dõi.
Năm nay, ICRA có sự thống trị rõ rệt của Vision-Language-Action models, sự trưởng thành của sim-to-real pipelines, và sự bùng nổ của 3D perception trong manipulation. Dưới đây là phân tích chi tiết.
Best Paper Trends: VLA Models chiếm sóng
pi-0.5: Open-World Generalization cho Robot
pi-0.5: a Vision-Language-Action Model with Open-World Generalization — Physical Intelligence, 2025
Nếu phải chọn một paper có impact lớn nhất từ ICRA 2026, pi-0.5 chắc chắn nằm trong top. Đây là bước tiến vượt bậc từ pi-0 — model VLA đầu tiên có thể thực hiện long-horizon và dexterous manipulation tasks trong hoàn toàn nhà mới, chưa từng thấy (unseen homes).
Bí quyết nằm ở co-training trên heterogeneous tasks: dữ liệu từ multiple robots, high-level semantic prediction, web data, và object detections được combine trong hybrid multi-modal training examples. Kết quả? Robot có thể dọn bếp, dọn phòng ngủ trong environments hoàn toàn mới — lần đầu tiên một end-to-end learning system đạt được mức generalization này.
Practical takeaway: Open-world generalization không còn là viễn tưởng. Nếu bạn đang xây dựng robot service cho thị trường Việt Nam (nhà hàng, khách sạn, kho hàng), VLA models đã đủ mature để bắt đầu pilot.
MAC-VO: Metrics-aware Visual Odometry
Tiếp nối thành công từ ICRA 2025 nơi MAC-VO giành Best Conference Paper Award, năm nay các papers về robust perception tiếp tục được đánh giá cao. MAC-VO giới thiệu metrics-aware uncertainty model giúp stereo visual odometry robust và accurate hơn trên challenging benchmarks — một đóng góp thiết thực cho mọi mobile robot platform.
Practical takeaway: Uncertainty estimation trong perception pipeline là yếu tố quyết định reliability trong real deployment. Đừng chỉ optimize accuracy — hãy đầu tư vào việc biết khi nào model đang "không chắc chắn".
Xu hướng 1: 3D Perception + VLA Integration
Một trong những xu hướng nổi bật nhất tại ICRA 2026 là sự kết hợp giữa 3D perception và VLA models. Nhiều papers cho thấy rằng chỉ dùng 2D vision là không đủ cho precise manipulation.
PointVLA: 3D vào VLA Models
PointVLA: Injecting the 3D World into Vision-Language-Action Models — 2025
PointVLA đề xuất framework inject point clouds vào pre-trained VLA models, giải quyết một hạn chế lớn: hầu hết VLA models hiện tại chỉ "thấy" qua 2D images và thiếu depth understanding chính xác. Bằng cách fuse 3D spatial information với vision-language features, PointVLA cải thiện đáng kể manipulation accuracy cho tasks đòi hỏi precise spatial reasoning.
Any3D-VLA: Robust VLA qua Diverse Point Clouds
Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds — 2026
Any3D-VLA đi xa hơn bằng cách lift visual inputs thành point clouds, compress chúng, rồi fuse 2D-3D representations. Paper giới thiệu hybrid point-cloud training strategy và xây dựng large-scale RGBD dataset cho VLA tasks — giải quyết vấn đề thiếu 3D data trong VLA training.
Insight cho kỹ sư Việt Nam: Depth cameras (Intel RealSense, Stereolabs ZED) đang rẻ đi nhanh chóng. Đầu tư vào RGBD sensing pipeline ngay bây giờ sẽ là lợi thế khi 3D-aware VLA models trở thành mainstream.
Xu hướng 2: Humanoid Locomotion trưởng thành
Whole-Body Control đa nền tảng
Tại ICRA 2026, papers về humanoid locomotion không còn tập trung vào "đi được" mà là "đi trên mọi robot". Cross-embodiment control là chủ đề nóng nhất.
Scalable and General Whole-Body Control for Cross-Humanoid Locomotion được thảo luận rộng rãi vì khả năng zero-shot transfer sang 7 humanoid robots khác nhau. Cùng với đó, survey toàn diện về Behavior Foundation Models cho humanoid whole-body control cung cấp roadmap rõ ràng cho hướng nghiên cứu này.
SONIC: Motion Tracking cho Humanoid Control
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control nổi bật với quy mô training data lớn hơn bậc so với trước, kết hợp robot commands, human commands, và hybrid commands trong shared latent space. Điểm nhấn: real-time sim-to-real control trên Unitree G1 — humanoid robot đang ngày càng phổ biến.
Insight cho kỹ sư Việt Nam: Unitree G1 có giá dưới $20,000 — accessible cho các lab đại học và startup. Nếu kết hợp với SONIC hoặc GR00T N1, đây là platform thực tế nhất để bắt đầu nghiên cứu humanoid tại Việt Nam.
Xu hướng 3: Fleet Intelligence và Multi-Robot Systems
RobotFleet: LLM-powered Task Planning
RobotFleet: An Open-Source Framework for Centralized Multi-Robot Task Planning — 2025
RobotFleet leverage LLMs để heterogeneous robot fleets thực hiện multiple tasks. Framework cung cấp abstractions cho planning, scheduling, và execution — robots được deploy dưới dạng containerized services. Đây là architecture pattern rất phù hợp với trend cloud robotics.
Safe Navigation trong Warehouse
Safe Human Robot Navigation in Warehouse Scenario — 2025
Với sự phát triển của AMR trong logistics Việt Nam, bài toán safety khi robot chia sẻ không gian với người là cực kỳ quan trọng. Paper này đề xuất methodology sử dụng control barrier functions để đảm bảo safety trong warehouse navigation — relevant trực tiếp cho các deployment tại Lazada, Shopee fulfillment centers.
Workshop Highlights
VLA Pipelines for Real Robots
Workshop nổi bật nhất ICRA 2026 là "From Data to Decisions: VLA Pipelines for Real Robots" do AIRoA tổ chức. Với gần 10,000 giờ dữ liệu robot thực tế và global competition về VLA pipelines, workshop này thu hút đông đảo participants. Key takeaways:
- Data quality > data quantity: Diverse, well-labeled data quan trọng hơn raw volume
- Evaluation standards đang hình thành: Cộng đồng đang converge về benchmarks chung cho VLA evaluation
- Real-world deployment gaps: Latency, safety constraints, và hardware limitations vẫn là challenges lớn
Field Robotics Workshop
Workshop về Field Robotics tập trung vào agricultural và construction robots — lĩnh vực có tiềm năng lớn tại Việt Nam. Các thảo luận xoay quanh robust perception trong outdoor environments, long-term autonomy, và operation trong điều kiện thời tiết khắc nghiệt.
5 Takeaways thực tế cho kỹ sư Việt Nam
1. VLA models đã production-ready cho specific domains
Không cần chờ thêm — pi-0.5 và GR00T N1 đã chứng minh khả năng generalize trong real environments. Bắt đầu với open-source models và fine-tune cho use case cụ thể.
2. 3D perception là investment bắt buộc
PointVLA và Any3D-VLA cho thấy 2D vision alone không đủ cho precise manipulation. Thêm depth sensing vào pipeline ngay.
3. Cross-embodiment giảm cost
Thay vì train policy riêng cho từng robot, invest vào cross-embodiment approaches như XHugWBC. Điều này đặc biệt important khi bạn deploy nhiều types of robots.
4. Safety-first cho fleet deployment
Control barrier functions và safety-aware navigation không còn là "nice to have" — đó là requirement cho warehouse deployment. Đọc thêm So sánh AGV và AMR để hiểu context.
5. Sim-to-real pipeline là competitive advantage
Đầu tư vào NVIDIA Isaac Lab và automated sim-to-real tuning. Đây là multiplier effect lớn nhất cho team robotics nhỏ.
Nhìn về RSS 2026
Với momentum từ ICRA 2026, RSS 2026 tại Sydney (13-17 tháng 7) hứa hẹn tiếp tục đẩy mạnh các xu hướng trên, đặc biệt sim-to-real transfer và dexterous manipulation. Hãy theo dõi preview RSS 2026 để cập nhật.