VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam
VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
  1. Trang chủ
  2. Blog
  3. ENPiRE: AI Agents Dạy Robot Tự Cải Thiện Policy
researchnvidiagear-labcoding-agentsrobot-learningmanipulationreinforcement-learningpolicy-improvementautonomous-learningenpire

ENPiRE: AI Agents Dạy Robot Tự Cải Thiện Policy

ENPiRE của NVIDIA GEAR Lab cho phép coding agents (Claude Code, Codex, Kimi) tự chạy thí nghiệm robot thực, đạt 99% success rate mà không cần giám sát người.

Nguyễn Anh Tuấn18 tháng 6, 202611 phút đọc
ENPiRE: AI Agents Dạy Robot Tự Cải Thiện Policy

Hãy tưởng tượng bạn không cần ngồi cạnh robot hàng giờ để reset cảnh, đánh giá kết quả, và chỉnh sửa code. Thay vào đó, bạn giao nhiệm vụ cho một coding agent AI — nó tự cắm GPU vào mainboard, tự nhận biết thành công hay thất bại, tự viết lại policy, và lặp lại cho đến khi đạt 99% success rate. Không một người nào cần giám sát.

Đây chính xác là những gì ENPiRE của NVIDIA GEAR Lab làm được. Công bố vào tháng 6/2026, ENPiRE là framework đầu tiên cho phép coding agents hoạt động hoàn toàn tự trị trên phần cứng robot thực — không phải chỉ trong simulator.

Vấn đề: Bottleneck của Con Người trong Robot Learning

Nếu bạn đã từng train một robot manipulation policy, bạn biết cái vòng lặp tẻ nhạt này: chạy policy một lần → robot thất bại → bạn đi đặt lại đồ vật → nhìn log → chỉnh code → chạy lại. Cứ thế hàng trăm lần.

Vấn đề không phải là robot chậm học. Vấn đề là con người là bottleneck:

  • Phải có mặt để reset scene sau mỗi lần thử
  • Phải đánh giá thủ công xem trial nào thành công, cái nào không
  • Phải đọc log và tự nghĩ ra hướng cải tiến
  • Phải viết lại code training, điều chỉnh reward function, thay đổi algorithm

Đây là lý do tại sao robot learning đắt tiền và chậm: mỗi giờ robot chạy thực thường tương đương hàng chục giờ engineering của người.

ENPiRE đặt câu hỏi ngược lại: "Nếu chúng ta giao toàn bộ vòng lặp đó cho AI, chuyện gì xảy ra?"

ENPiRE Là Gì? Breakdown Acronym

ENPiRE = ENvironment + Policy Improvement + Rollout + Evolution

Đây là bốn module cốt lõi, mỗi module đảm nhiệm một phần của vòng lặp thực nghiệm robot. Khi ghép lại, chúng tạo thành một hệ thống khép kín — coding agents có thể sống trong đó mà không cần thoát ra để hỏi người.

Nguồn: NVIDIA GEAR Lab ENPiRE project page

Kiến Trúc: 4 Module

1. EN — Environment (Môi trường)

Module Environment là người "quản lý phòng lab" trong hệ thống. Nó làm hai việc quan trọng:

Auto-reset: Sau mỗi lần robot thử một task (dù thành công hay thất bại), Environment tự động reset cảnh về trạng thái ban đầu. Với task Push-T, điều này có nghĩa là tự đặt khối T trở lại vị trí ngẫu nhiên. Với task cắm GPU, là tự tháo GPU ra và đặt lại trên bàn.

Verification: Environment cũng xác nhận kết quả — dùng perception để kiểm tra xem robot có hoàn thành task không. Nếu GPU đã nằm gọn trong slot, báo thành công. Nếu còn cách 5mm, báo thất bại và ghi lại trạng thái.

Điều quan trọng: mọi thứ đều tự động. Không có human-in-the-loop tại bước này.

2. PI — Policy Improvement (Cải Thiện Policy)

Đây là "bộ não" của ENPiRE. Module Policy Improvement nhận vào:

  • Reward signal từ Environment (success/failure + distance metrics)
  • Video của các trial gần đây (thành công lẫn thất bại)
  • Failure cases được phân tích tự động

Và đầu ra là code mới — policy code được cải tiến. Agent dùng chain-of-thought reasoning để phỏng đoán nguyên nhân thất bại trước khi viết lại code, thay vì random mutation.

Ví dụ: nếu robot liên tục trượt khi cầm pin, agent sẽ phân tích video, nhận ra gripper đang đóng quá sớm, và viết lại heuristic để điều chỉnh timing.

3. R — Rollout (Thực Thi Trial)

Module Rollout quản lý việc thực thi policy trên robot thực. Nó hỗ trợ:

  • Single rollout: Chạy một robot, ghi log đầy đủ (state, action, video)
  • Parallel rollout: Chạy nhiều robot cùng lúc (fleet 4, 8 robots) để thu thập dữ liệu nhanh hơn

Mỗi trial được log chi tiết: joint positions, gripper force, camera feed, timestep, outcome. Những log này là input cho Evolution module.

4. E — Evolution (Tiến Hóa)

Module Evolution là bước "meta-improvement" — thay vì chỉ cải thiện policy, nó cải thiện cả cách cải thiện policy. Cụ thể:

  • Phân tích log dài hạn: Tìm pattern thất bại lặp lại qua nhiều iteration
  • Tham khảo literature: Agent có thể đọc paper robotics để tìm algorithm tốt hơn
  • Cải thiện infrastructure: Điều chỉnh cấu trúc training, reward shaping, data augmentation

Đây là điểm tạo ra sự khác biệt: Evolution không chỉ fix bug, nó nghĩ lại toàn bộ chiến lược.

Hardware Stack: Ba Công Nghệ NVIDIA

ENPiRE không chỉ là phần mềm — nó được xây dựng trên hệ sinh thái hardware và middleware của NVIDIA.

YAM Arm

Robot thực hiện các task trong ENPiRE là YAM arm (NVIDIA's dexterous manipulator). Đây là cánh tay robot được thiết kế cho manipulation tasks đòi hỏi độ chính xác cao — như cắm GPU hay pin vào socket nhỏ.

SAM 3 — Perception

SAM 3 phân đoạn đối tượng cho robot perception trong ENPiRE
SAM 3 phân đoạn đối tượng cho robot perception trong ENPiRE
Nguồn: NVIDIA GEAR Lab ENPiRE project page

Để robot "thấy" được môi trường, ENPiRE dùng SAM 3 (Segment Anything Model v3). SAM 3 cung cấp real-time object segmentation — robot biết chính xác vị trí và shape của từng đồ vật trong scene. Đây là foundation cho cả auto-reset verification lẫn policy input.

cuRobo — Motion Planning

cuRobo là thư viện motion planning GPU-accelerated của NVIDIA. Khi agent viết policy code, cuRobo xử lý bài toán inverse kinematics và collision-free path planning. Nhờ chạy trên GPU, cuRobo tính toán trajectory trong milliseconds — đủ nhanh cho real-time control.

Tổ hợp YAM + SAM 3 + cuRobo tạo ra một hardware stack mạnh cho dexterous manipulation, đủ để tackle các task như GPU insertion mà ngay cả người mới học việc cũng thấy khó.

Bốn Task Demo: Từ Đơn Giản Đến Phức Tạp

ENPiRE được test trên bốn task manipulation với độ khó tăng dần:

1. Push-T (Benchmark chuẩn)

Task kinh điển trong robot learning: đẩy khối hình chữ T về đúng vị trí và góc xoay mục tiêu. Tưởng đơn giản, nhưng yêu cầu robot học được cả position control lẫn rotation strategy.

Push-T task trong ENPiRE — đẩy khối T về vị trí mục tiêu
Push-T task trong ENPiRE — đẩy khối T về vị trí mục tiêu
Nguồn: NVIDIA GEAR Lab ENPiRE project page

2. Pin Insertion (Độ chính xác cao)

Cắm pin nhỏ vào slot — task đòi hỏi độ chính xác dưới millimeter. Lực cầm, góc tiếp cận, tốc độ đóng gripper đều phải được calibrate chính xác.

Pin insertion task — cắm pin vào slot đòi hỏi độ chính xác dưới mm
Pin insertion task — cắm pin vào slot đòi hỏi độ chính xác dưới mm
Nguồn: NVIDIA GEAR Lab ENPiRE project page

3. Zip-Tie Cutting (Dùng tool)

Robot phải dùng kéo cắt zip-tie — task đòi hỏi không chỉ grasp mà còn tool use coordination. Agent phải học cách định vị kéo đúng vị trí trên zip-tie và điều phối lực cắt.

Zip-tie cutting task — robot dùng kéo cắt dây buộc
Zip-tie cutting task — robot dùng kéo cắt dây buộc
Nguồn: NVIDIA GEAR Lab ENPiRE project page

4. GPU Insertion (Task ấn tượng nhất)

Task flagship: cắm GPU card vào slot PCIe trên mainboard thực. Đây là task đòi hỏi alignment cực kỳ chính xác — PCIe slot có tolerance chỉ vài mm, và GPU phải ăn khớp hoàn toàn trước khi được nhấn xuống. Thất bại có thể làm hỏng cả GPU lẫn mainboard.

GPU insertion — cắm GPU vào mainboard PCIe slot, task phức tạp nhất
GPU insertion — cắm GPU vào mainboard PCIe slot, task phức tạp nhất
Nguồn: NVIDIA GEAR Lab ENPiRE project page

Coding Agents Được Test: Claude Code, Codex, Kimi

ENPiRE không gắn với một coding agent cụ thể — framework được thiết kế agnostic. Các agent được test bao gồm:

  • Codex (GPT-5.5) — mô hình coding của OpenAI
  • Claude Code — coding agent của Anthropic (cùng model bạn đang đọc bài này)
  • Kimi Code — coding agent của Moonshot AI (Trung Quốc)

Điều này có nghĩa là bạn có thể plug in bất kỳ frontier coding model nào vào ENPiRE và nó sẽ hoạt động — framework là infrastructure, agent là "người lao động".

Fleet Scaling: 1, 4, 8 Robots

Một trong những thí nghiệm thú vị nhất của ENPiRE là fleet scaling — chạy nhiều robot song song để thu thập dữ liệu nhanh hơn.

Kết quả:

  • 1 robot: Learning chậm, nhiều thời gian idle khi robot reset
  • 4 robots: Throughput tăng đáng kể, agent có nhiều data hơn để phân tích
  • 8 robots: Tăng tốc rõ rệt trên các task phức tạp

Metrics MRU (Mean Robot Utilization) đo lường phần trăm thời gian robot thực sự đang chạy trial (không phải đang reset hoặc idle). MTU (Mean Token Utilization) đo hiệu quả của agent — bao nhiêu token được dùng để sinh ra improvement thực sự.

Fleet scaling hoạt động vì ENPiRE's Rollout module hỗ trợ parallel execution: nhiều robot chạy cùng policy, collect data song song, rồi Evolution module tổng hợp tất cả để đưa ra improvement tiếp theo.

Các Phương Pháp Policy Improvement Được Thử

Một điểm mạnh của ENPiRE là agent không bị giới hạn trong một learning algorithm. Các phương pháp được thử nghiệm:

  1. Heuristic learning — viết hard-coded rules dựa trên observation
  2. Behavior Cloning (BC) — học từ các successful demonstrations
  3. Offline RL — train trên dataset đã thu thập, không cần chạy thêm trial
  4. Online RL — train trực tiếp từ real-time feedback trong khi chạy
  5. Tool calling — agent dùng external tools (cuRobo, SAM 3) như một phần của policy

Agent tự quyết định phương pháp nào phù hợp dựa trên task và kết quả hiện tại. Đây là điểm khác biệt với các framework truyền thống nơi researcher phải chọn algorithm trước.

Kết Quả: Từ Zero đến 99%

Kết quả chính của ENPiRE:

  • Pass@8 success rate lên đến 99% trên các task phức tạp (Push-T, pin insertion, zip-tie, GPU insertion)
  • Robot học từ zero (không có demonstration ban đầu) đến near-perfect reliability
  • Thời gian: dưới 2 giờ trên một số task với fleet 8 robots

"Pass@8" có nghĩa là: trong 8 lần thử độc lập, ít nhất 1 lần thành công. Đây là metric phổ biến trong software coding benchmarks (như HumanEval), và ENPiRE áp dụng nó vào robot hardware — một sự chuyển đổi thú vị từ thế giới software sang robotics.

Simulation: RoboCasa

Ngoài real robot experiments, ENPiRE cũng được đánh giá trong RoboCasa — simulation environment phổ biến cho household manipulation. Các task trong RoboCasa bao gồm:

  • Coffee Setup Mug — đặt cốc vào máy pha cà phê
  • Open Cabinet — mở tủ
  • Open Drawer — mở ngăn kéo

Simulation cho phép test nhanh ý tưởng trước khi chuyển lên hardware thực, mặc dù ENPiRE nhấn mạnh rằng mục tiêu chính là real-world learning — không phải sim-to-real transfer.

Ý Nghĩa: Tại Sao ENPiRE Quan Trọng?

ENPiRE mở ra một paradigm mới cho robot learning. Thay vì:

Human engineer → thiết kế policy → test → sửa → test lại

Chúng ta có:

Coding agent → viết policy → chạy robot thực → phân tích kết quả → cải tiến → lặp lại (tự động hoàn toàn)

Điều này có nghĩa là:

  • Scale: Với nhiều robot và nhiều agent, learning speed tăng tuyến tính
  • Cost: Giảm chi phí engineering vì human chỉ cần set up task ban đầu
  • Diversity: Nhiều coding agent test song song có thể khám phá nhiều chiến lược hơn

Đây là bước tiến quan trọng hướng tới autonomous robot research — tương lai nơi robot labs không chỉ là nơi người nghiên cứu robot, mà là nơi robot tự nghiên cứu chính mình.

Nếu bạn muốn tìm hiểu thêm về các kỹ thuật học tăng cường nền tảng, AI Series Part 1: RL Basics là điểm khởi đầu tốt. Để hiểu về diffusion policy — một trong các phương pháp mà ENPiRE có thể sử dụng, xem AI Series Part 4: Diffusion Policy. Và nếu bạn tò mò về NVIDIA GEAR Lab đã làm gì với whole-body control, đọc GEAR-SONIC.

Kết Luận

ENPiRE là một công trình đáng chú ý vì nó không cải tiến một algorithm cụ thể — nó tự động hóa toàn bộ vòng lặp nghiên cứu. Đây là sự khác biệt về chất:

  • Từ "robot học với sự giúp đỡ của AI" → "AI tự chạy robot lab"
  • Từ "human chọn algorithm" → "agent tự thử nhiều algorithm"
  • Từ "một robot, một researcher" → "đội robot, nhiều agent song song"

Khi coding agents ngày càng capable và robot hardware ngày càng reliable, framework như ENPiRE sẽ là infrastructure nền tảng cho cuộc cách mạng tiếp theo trong robotics.

Paper: ENPiRE — Google Drive
Project page: research.nvidia.com/labs/gear/enpire
Tổ chức: NVIDIA GEAR Lab, Carnegie Mellon University, UC Berkeley


Khuyến nghị công cụ

Stack train/deploy cho VLA

Train trên cloud/workstation, deploy bản tối ưu xuống Jetson hoặc robot computer.

Cloud GPU for VLA / policy training Dùng cho imitation learning, diffusion policy, RL và fine-tuning model robotics. Xem cloud GPU → NVIDIA Jetson Orin NX / Orin Nano Máy deploy edge cho perception, logging và inference đã tối ưu. Xem Jetson → Hugging Face / robotics dataset hosting Lưu dataset, checkpoint và model card để workflow LeRobot/VLA dễ chia sẻ hơn. Xem platform →

Khuyến nghị công cụ

Stack train/deploy cho VLA

Train trên cloud/workstation, deploy bản tối ưu xuống Jetson hoặc robot computer.

Cloud GPU for VLA / policy training Dùng cho imitation learning, diffusion policy, RL và fine-tuning model robotics. Xem cloud GPU → NVIDIA Jetson Orin NX / Orin Nano Máy deploy edge cho perception, logging và inference đã tối ưu. Xem Jetson → Hugging Face / robotics dataset hosting Lưu dataset, checkpoint và model card để workflow LeRobot/VLA dễ chia sẻ hơn. Xem platform →

Bài Viết Liên Quan

  • GEAR-SONIC: Whole-Body Control cho Humanoid Robot
  • AI Series #1: Reinforcement Learning cho Robotics
  • GigaBrain-0: World Model + RL cho Robot Manipulation
NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Khám phá VnRobo

Fleet MonitoringROS 2 IntegrationAMR Solutions

Bài viết liên quan

Deep Dive
RISE: VLA tự cải thiện bằng imagination
vlaworld-modelreinforcement-learning
research

RISE: VLA tự cải thiện bằng imagination

RISE dùng compositional world model để cho VLA robot học RL trong imagination, giảm tương tác thật nhưng vẫn tăng mạnh kết quả manipulation.

6/6/202613 phút đọc
NT
NEWNghiên cứu
WholeBodyVLA: video egocentric + RL loco-manipulation
manipulationvlawhole-bodyPhần 5
research

WholeBodyVLA: video egocentric + RL loco-manipulation

WholeBodyVLA học từ video egocentric action-free và nối VLA cấp cao với RL controller cấp thấp cho whole-body loco-manipulation. Phân tích paper ICLR 2026, test trên AgiBot X2.

14/6/20267 phút đọc
NT
Nghiên cứu
Robot Ping-Pong DeepMind: AI Đánh Bóng Bàn Trình Độ Người
ai-perceptionreinforcement-learningmanipulation
research

Robot Ping-Pong DeepMind: AI Đánh Bóng Bàn Trình Độ Người

Cách Google DeepMind xây dựng robot đánh bóng bàn trình độ nghiệp dư bằng Reinforcement Learning, kiến trúc phân cấp LLC-HLC, và kỹ thuật sim-to-real zero-shot.

22/4/202612 phút đọc
NT
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam