ICRA 2026: Papers đáng đọc nhất trước hội nghị Vienna

ICRA 2026 Vienna: Papers được accept đáng chú ý nhất

ICRA 2026 sẽ diễn ra tại Vienna (1-5 tháng 6) với hàng nghìn papers được accept. Danh sách accepted papers đã được công bố, và đây là phân tích của tôi về những papers xuất sắc nhất và xu hướng mà kỹ sư robotics Việt Nam cần theo dõi.

Năm nay, ICRA có sự thống trị rõ rệt của Vision-Language-Action models, sự trưởng thành của sim-to-real pipelines, và sự bùng nổ của 3D perception trong manipulation. Dưới đây là phân tích chi tiết.

Best Paper Trends: VLA Models chiếm sóng

pi-0.5: Open-World Generalization cho Robot

pi-0.5: a Vision-Language-Action Model with Open-World Generalization — Physical Intelligence, 2025

Nếu phải chọn một paper có impact lớn nhất từ ICRA 2026, pi-0.5 chắc chắn nằm trong top. Đây là bước tiến vượt bậc từ pi-0 — model VLA đầu tiên có thể thực hiện long-horizon và dexterous manipulation tasks trong hoàn toàn nhà mới, chưa từng thấy (unseen homes).

Bí quyết nằm ở co-training trên heterogeneous tasks: dữ liệu từ multiple robots, high-level semantic prediction, web data, và object detections được combine trong hybrid multi-modal training examples. Kết quả? Robot có thể dọn bếp, dọn phòng ngủ trong environments hoàn toàn mới — lần đầu tiên một end-to-end learning system đạt được mức generalization này.

Practical takeaway: Open-world generalization không còn là viễn tưởng. Nếu bạn đang xây dựng robot service cho thị trường Việt Nam (nhà hàng, khách sạn, kho hàng), VLA models đã đủ mature để bắt đầu pilot.

MAC-VO: Metrics-aware Visual Odometry

Tiếp nối thành công từ ICRA 2025 nơi MAC-VO giành Best Conference Paper Award, năm nay các papers về robust perception tiếp tục được đánh giá cao. MAC-VO giới thiệu metrics-aware uncertainty model giúp stereo visual odometry robust và accurate hơn trên challenging benchmarks — một đóng góp thiết thực cho mọi mobile robot platform.

Practical takeaway: Uncertainty estimation trong perception pipeline là yếu tố quyết định reliability trong real deployment. Đừng chỉ optimize accuracy — hãy đầu tư vào việc biết khi nào model đang "không chắc chắn".

Xu hướng 1: 3D Perception + VLA Integration

Một trong những xu hướng nổi bật nhất tại ICRA 2026 là sự kết hợp giữa 3D perception và VLA models. Nhiều papers cho thấy rằng chỉ dùng 2D vision là không đủ cho precise manipulation.

PointVLA: 3D vào VLA Models

PointVLA: Injecting the 3D World into Vision-Language-Action Models — 2025

PointVLA đề xuất framework inject point clouds vào pre-trained VLA models, giải quyết một hạn chế lớn: hầu hết VLA models hiện tại chỉ "thấy" qua 2D images và thiếu depth understanding chính xác. Bằng cách fuse 3D spatial information với vision-language features, PointVLA cải thiện đáng kể manipulation accuracy cho tasks đòi hỏi precise spatial reasoning.

Any3D-VLA: Robust VLA qua Diverse Point Clouds

Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds — 2026

Any3D-VLA đi xa hơn bằng cách lift visual inputs thành point clouds, compress chúng, rồi fuse 2D-3D representations. Paper giới thiệu hybrid point-cloud training strategy và xây dựng large-scale RGBD dataset cho VLA tasks — giải quyết vấn đề thiếu 3D data trong VLA training.

Insight cho kỹ sư Việt Nam: Depth cameras (Intel RealSense, Stereolabs ZED) đang rẻ đi nhanh chóng. Đầu tư vào RGBD sensing pipeline ngay bây giờ sẽ là lợi thế khi 3D-aware VLA models trở thành mainstream.

Xu hướng 2: Humanoid Locomotion trưởng thành

Whole-Body Control đa nền tảng

Tại ICRA 2026, papers về humanoid locomotion không còn tập trung vào "đi được" mà là "đi trên mọi robot". Cross-embodiment control là chủ đề nóng nhất.

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion được thảo luận rộng rãi vì khả năng zero-shot transfer sang 7 humanoid robots khác nhau. Cùng với đó, survey toàn diện về Behavior Foundation Models cho humanoid whole-body control cung cấp roadmap rõ ràng cho hướng nghiên cứu này.

SONIC: Motion Tracking cho Humanoid Control

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control nổi bật với quy mô training data lớn hơn bậc so với trước, kết hợp robot commands, human commands, và hybrid commands trong shared latent space. Điểm nhấn: real-time sim-to-real control trên Unitree G1 — humanoid robot đang ngày càng phổ biến.

Insight cho kỹ sư Việt Nam: Unitree G1 có giá dưới $20,000 — accessible cho các lab đại học và startup. Nếu kết hợp với SONIC hoặc GR00T N1, đây là platform thực tế nhất để bắt đầu nghiên cứu humanoid tại Việt Nam.

Xu hướng 3: Fleet Intelligence và Multi-Robot Systems

RobotFleet: LLM-powered Task Planning

RobotFleet: An Open-Source Framework for Centralized Multi-Robot Task Planning — 2025

RobotFleet leverage LLMs để heterogeneous robot fleets thực hiện multiple tasks. Framework cung cấp abstractions cho planning, scheduling, và execution — robots được deploy dưới dạng containerized services. Đây là architecture pattern rất phù hợp với trend cloud robotics.

Safe Human Robot Navigation in Warehouse Scenario — 2025

Với sự phát triển của AMR trong logistics Việt Nam, bài toán safety khi robot chia sẻ không gian với người là cực kỳ quan trọng. Paper này đề xuất methodology sử dụng control barrier functions để đảm bảo safety trong warehouse navigation — relevant trực tiếp cho các deployment tại Lazada, Shopee fulfillment centers.

Workshop Highlights

VLA Pipelines for Real Robots

Workshop nổi bật nhất ICRA 2026 là "From Data to Decisions: VLA Pipelines for Real Robots" do AIRoA tổ chức. Với gần 10,000 giờ dữ liệu robot thực tế và global competition về VLA pipelines, workshop này thu hút đông đảo participants. Key takeaways:

Data quality > data quantity: Diverse, well-labeled data quan trọng hơn raw volume
Evaluation standards đang hình thành: Cộng đồng đang converge về benchmarks chung cho VLA evaluation
Real-world deployment gaps: Latency, safety constraints, và hardware limitations vẫn là challenges lớn

Field Robotics Workshop

Workshop về Field Robotics tập trung vào agricultural và construction robots — lĩnh vực có tiềm năng lớn tại Việt Nam. Các thảo luận xoay quanh robust perception trong outdoor environments, long-term autonomy, và operation trong điều kiện thời tiết khắc nghiệt.

5 Takeaways thực tế cho kỹ sư Việt Nam

1. VLA models đã production-ready cho specific domains

Không cần chờ thêm — pi-0.5 và GR00T N1 đã chứng minh khả năng generalize trong real environments. Bắt đầu với open-source models và fine-tune cho use case cụ thể.

2. 3D perception là investment bắt buộc

PointVLA và Any3D-VLA cho thấy 2D vision alone không đủ cho precise manipulation. Thêm depth sensing vào pipeline ngay.

3. Cross-embodiment giảm cost

Thay vì train policy riêng cho từng robot, invest vào cross-embodiment approaches như XHugWBC. Điều này đặc biệt important khi bạn deploy nhiều types of robots.

4. Safety-first cho fleet deployment

Control barrier functions và safety-aware navigation không còn là "nice to have" — đó là requirement cho warehouse deployment. Đọc thêm So sánh AGV và AMR để hiểu context.

5. Sim-to-real pipeline là competitive advantage

Đầu tư vào NVIDIA Isaac Lab và automated sim-to-real tuning. Đây là multiplier effect lớn nhất cho team robotics nhỏ.

Nhìn về RSS 2026

Với momentum từ ICRA 2026, RSS 2026 tại Sydney (13-17 tháng 7) hứa hẹn tiếp tục đẩy mạnh các xu hướng trên, đặc biệt sim-to-real transfer và dexterous manipulation. Hãy theo dõi preview RSS 2026 để cập nhật.