ENPiRE: AI Agents Dạy Robot Tự Cải Thiện Policy

Hãy tưởng tượng bạn không cần ngồi cạnh robot hàng giờ để reset cảnh, đánh giá kết quả, và chỉnh sửa code. Thay vào đó, bạn giao nhiệm vụ cho một coding agent AI — nó tự cắm GPU vào mainboard, tự nhận biết thành công hay thất bại, tự viết lại policy, và lặp lại cho đến khi đạt 99% success rate. Không một người nào cần giám sát.

Đây chính xác là những gì ENPiRE của NVIDIA GEAR Lab làm được. Công bố vào tháng 6/2026, ENPiRE là framework đầu tiên cho phép coding agents hoạt động hoàn toàn tự trị trên phần cứng robot thực — không phải chỉ trong simulator.

Vấn đề: Bottleneck của Con Người trong Robot Learning

Nếu bạn đã từng train một robot manipulation policy, bạn biết cái vòng lặp tẻ nhạt này: chạy policy một lần → robot thất bại → bạn đi đặt lại đồ vật → nhìn log → chỉnh code → chạy lại. Cứ thế hàng trăm lần.

Vấn đề không phải là robot chậm học. Vấn đề là con người là bottleneck:

Phải có mặt để reset scene sau mỗi lần thử
Phải đánh giá thủ công xem trial nào thành công, cái nào không
Phải đọc log và tự nghĩ ra hướng cải tiến
Phải viết lại code training, điều chỉnh reward function, thay đổi algorithm

Đây là lý do tại sao robot learning đắt tiền và chậm: mỗi giờ robot chạy thực thường tương đương hàng chục giờ engineering của người.

ENPiRE đặt câu hỏi ngược lại: "Nếu chúng ta giao toàn bộ vòng lặp đó cho AI, chuyện gì xảy ra?"

ENPiRE Là Gì? Breakdown Acronym

ENPiRE = ENvironment + Policy Improvement + Rollout + Evolution

Đây là bốn module cốt lõi, mỗi module đảm nhiệm một phần của vòng lặp thực nghiệm robot. Khi ghép lại, chúng tạo thành một hệ thống khép kín — coding agents có thể sống trong đó mà không cần thoát ra để hỏi người.

Nguồn: NVIDIA GEAR Lab ENPiRE project page

Kiến Trúc: 4 Module

1. EN — Environment (Môi trường)

Module Environment là người "quản lý phòng lab" trong hệ thống. Nó làm hai việc quan trọng:

Auto-reset: Sau mỗi lần robot thử một task (dù thành công hay thất bại), Environment tự động reset cảnh về trạng thái ban đầu. Với task Push-T, điều này có nghĩa là tự đặt khối T trở lại vị trí ngẫu nhiên. Với task cắm GPU, là tự tháo GPU ra và đặt lại trên bàn.

Verification: Environment cũng xác nhận kết quả — dùng perception để kiểm tra xem robot có hoàn thành task không. Nếu GPU đã nằm gọn trong slot, báo thành công. Nếu còn cách 5mm, báo thất bại và ghi lại trạng thái.

Điều quan trọng: mọi thứ đều tự động. Không có human-in-the-loop tại bước này.

2. PI — Policy Improvement (Cải Thiện Policy)

Đây là "bộ não" của ENPiRE. Module Policy Improvement nhận vào:

Reward signal từ Environment (success/failure + distance metrics)
Video của các trial gần đây (thành công lẫn thất bại)
Failure cases được phân tích tự động

Và đầu ra là code mới — policy code được cải tiến. Agent dùng chain-of-thought reasoning để phỏng đoán nguyên nhân thất bại trước khi viết lại code, thay vì random mutation.

Ví dụ: nếu robot liên tục trượt khi cầm pin, agent sẽ phân tích video, nhận ra gripper đang đóng quá sớm, và viết lại heuristic để điều chỉnh timing.

3. R — Rollout (Thực Thi Trial)

Module Rollout quản lý việc thực thi policy trên robot thực. Nó hỗ trợ:

Single rollout: Chạy một robot, ghi log đầy đủ (state, action, video)
Parallel rollout: Chạy nhiều robot cùng lúc (fleet 4, 8 robots) để thu thập dữ liệu nhanh hơn

Mỗi trial được log chi tiết: joint positions, gripper force, camera feed, timestep, outcome. Những log này là input cho Evolution module.

4. E — Evolution (Tiến Hóa)

Module Evolution là bước "meta-improvement" — thay vì chỉ cải thiện policy, nó cải thiện cả cách cải thiện policy. Cụ thể:

Phân tích log dài hạn: Tìm pattern thất bại lặp lại qua nhiều iteration
Tham khảo literature: Agent có thể đọc paper robotics để tìm algorithm tốt hơn
Cải thiện infrastructure: Điều chỉnh cấu trúc training, reward shaping, data augmentation

Đây là điểm tạo ra sự khác biệt: Evolution không chỉ fix bug, nó nghĩ lại toàn bộ chiến lược.

Hardware Stack: Ba Công Nghệ NVIDIA

ENPiRE không chỉ là phần mềm — nó được xây dựng trên hệ sinh thái hardware và middleware của NVIDIA.

YAM Arm

Robot thực hiện các task trong ENPiRE là YAM arm (NVIDIA's dexterous manipulator). Đây là cánh tay robot được thiết kế cho manipulation tasks đòi hỏi độ chính xác cao — như cắm GPU hay pin vào socket nhỏ.

SAM 3 — Perception

SAM 3 phân đoạn đối tượng cho robot perception trong ENPiRE

Nguồn: NVIDIA GEAR Lab ENPiRE project page

Để robot "thấy" được môi trường, ENPiRE dùng SAM 3 (Segment Anything Model v3). SAM 3 cung cấp real-time object segmentation — robot biết chính xác vị trí và shape của từng đồ vật trong scene. Đây là foundation cho cả auto-reset verification lẫn policy input.

cuRobo — Motion Planning

cuRobo là thư viện motion planning GPU-accelerated của NVIDIA. Khi agent viết policy code, cuRobo xử lý bài toán inverse kinematics và collision-free path planning. Nhờ chạy trên GPU, cuRobo tính toán trajectory trong milliseconds — đủ nhanh cho real-time control.

Tổ hợp YAM + SAM 3 + cuRobo tạo ra một hardware stack mạnh cho dexterous manipulation, đủ để tackle các task như GPU insertion mà ngay cả người mới học việc cũng thấy khó.

Bốn Task Demo: Từ Đơn Giản Đến Phức Tạp

ENPiRE được test trên bốn task manipulation với độ khó tăng dần:

1. Push-T (Benchmark chuẩn)

Task kinh điển trong robot learning: đẩy khối hình chữ T về đúng vị trí và góc xoay mục tiêu. Tưởng đơn giản, nhưng yêu cầu robot học được cả position control lẫn rotation strategy.

Push-T task trong ENPiRE — đẩy khối T về vị trí mục tiêu

Nguồn: NVIDIA GEAR Lab ENPiRE project page

2. Pin Insertion (Độ chính xác cao)

Cắm pin nhỏ vào slot — task đòi hỏi độ chính xác dưới millimeter. Lực cầm, góc tiếp cận, tốc độ đóng gripper đều phải được calibrate chính xác.

Pin insertion task — cắm pin vào slot đòi hỏi độ chính xác dưới mm

Nguồn: NVIDIA GEAR Lab ENPiRE project page

3. Zip-Tie Cutting (Dùng tool)

Robot phải dùng kéo cắt zip-tie — task đòi hỏi không chỉ grasp mà còn tool use coordination. Agent phải học cách định vị kéo đúng vị trí trên zip-tie và điều phối lực cắt.

Zip-tie cutting task — robot dùng kéo cắt dây buộc

Nguồn: NVIDIA GEAR Lab ENPiRE project page

4. GPU Insertion (Task ấn tượng nhất)

Task flagship: cắm GPU card vào slot PCIe trên mainboard thực. Đây là task đòi hỏi alignment cực kỳ chính xác — PCIe slot có tolerance chỉ vài mm, và GPU phải ăn khớp hoàn toàn trước khi được nhấn xuống. Thất bại có thể làm hỏng cả GPU lẫn mainboard.

GPU insertion — cắm GPU vào mainboard PCIe slot, task phức tạp nhất

Nguồn: NVIDIA GEAR Lab ENPiRE project page

Coding Agents Được Test: Claude Code, Codex, Kimi

ENPiRE không gắn với một coding agent cụ thể — framework được thiết kế agnostic. Các agent được test bao gồm:

Codex (GPT-5.5) — mô hình coding của OpenAI
Claude Code — coding agent của Anthropic (cùng model bạn đang đọc bài này)
Kimi Code — coding agent của Moonshot AI (Trung Quốc)

Điều này có nghĩa là bạn có thể plug in bất kỳ frontier coding model nào vào ENPiRE và nó sẽ hoạt động — framework là infrastructure, agent là "người lao động".

Fleet Scaling: 1, 4, 8 Robots

Một trong những thí nghiệm thú vị nhất của ENPiRE là fleet scaling — chạy nhiều robot song song để thu thập dữ liệu nhanh hơn.

Kết quả:

1 robot: Learning chậm, nhiều thời gian idle khi robot reset
4 robots: Throughput tăng đáng kể, agent có nhiều data hơn để phân tích
8 robots: Tăng tốc rõ rệt trên các task phức tạp

Metrics MRU (Mean Robot Utilization) đo lường phần trăm thời gian robot thực sự đang chạy trial (không phải đang reset hoặc idle). MTU (Mean Token Utilization) đo hiệu quả của agent — bao nhiêu token được dùng để sinh ra improvement thực sự.

Fleet scaling hoạt động vì ENPiRE's Rollout module hỗ trợ parallel execution: nhiều robot chạy cùng policy, collect data song song, rồi Evolution module tổng hợp tất cả để đưa ra improvement tiếp theo.

Các Phương Pháp Policy Improvement Được Thử

Một điểm mạnh của ENPiRE là agent không bị giới hạn trong một learning algorithm. Các phương pháp được thử nghiệm:

Heuristic learning — viết hard-coded rules dựa trên observation
Behavior Cloning (BC) — học từ các successful demonstrations
Offline RL — train trên dataset đã thu thập, không cần chạy thêm trial
Online RL — train trực tiếp từ real-time feedback trong khi chạy
Tool calling — agent dùng external tools (cuRobo, SAM 3) như một phần của policy

Agent tự quyết định phương pháp nào phù hợp dựa trên task và kết quả hiện tại. Đây là điểm khác biệt với các framework truyền thống nơi researcher phải chọn algorithm trước.

Kết Quả: Từ Zero đến 99%

Kết quả chính của ENPiRE:

Pass@8 success rate lên đến 99% trên các task phức tạp (Push-T, pin insertion, zip-tie, GPU insertion)
Robot học từ zero (không có demonstration ban đầu) đến near-perfect reliability
Thời gian: dưới 2 giờ trên một số task với fleet 8 robots

"Pass@8" có nghĩa là: trong 8 lần thử độc lập, ít nhất 1 lần thành công. Đây là metric phổ biến trong software coding benchmarks (như HumanEval), và ENPiRE áp dụng nó vào robot hardware — một sự chuyển đổi thú vị từ thế giới software sang robotics.

Simulation: RoboCasa

Ngoài real robot experiments, ENPiRE cũng được đánh giá trong RoboCasa — simulation environment phổ biến cho household manipulation. Các task trong RoboCasa bao gồm:

Coffee Setup Mug — đặt cốc vào máy pha cà phê
Open Cabinet — mở tủ
Open Drawer — mở ngăn kéo

Simulation cho phép test nhanh ý tưởng trước khi chuyển lên hardware thực, mặc dù ENPiRE nhấn mạnh rằng mục tiêu chính là real-world learning — không phải sim-to-real transfer.

Ý Nghĩa: Tại Sao ENPiRE Quan Trọng?

ENPiRE mở ra một paradigm mới cho robot learning. Thay vì:

Human engineer → thiết kế policy → test → sửa → test lại

Chúng ta có:

Coding agent → viết policy → chạy robot thực → phân tích kết quả → cải tiến → lặp lại (tự động hoàn toàn)

Điều này có nghĩa là:

Scale: Với nhiều robot và nhiều agent, learning speed tăng tuyến tính
Cost: Giảm chi phí engineering vì human chỉ cần set up task ban đầu
Diversity: Nhiều coding agent test song song có thể khám phá nhiều chiến lược hơn

Đây là bước tiến quan trọng hướng tới autonomous robot research — tương lai nơi robot labs không chỉ là nơi người nghiên cứu robot, mà là nơi robot tự nghiên cứu chính mình.

Nếu bạn muốn tìm hiểu thêm về các kỹ thuật học tăng cường nền tảng, AI Series Part 1: RL Basics là điểm khởi đầu tốt. Để hiểu về diffusion policy — một trong các phương pháp mà ENPiRE có thể sử dụng, xem AI Series Part 4: Diffusion Policy. Và nếu bạn tò mò về NVIDIA GEAR Lab đã làm gì với whole-body control, đọc GEAR-SONIC.

Kết Luận

ENPiRE là một công trình đáng chú ý vì nó không cải tiến một algorithm cụ thể — nó tự động hóa toàn bộ vòng lặp nghiên cứu. Đây là sự khác biệt về chất:

Từ "robot học với sự giúp đỡ của AI" → "AI tự chạy robot lab"
Từ "human chọn algorithm" → "agent tự thử nhiều algorithm"
Từ "một robot, một researcher" → "đội robot, nhiều agent song song"

Khi coding agents ngày càng capable và robot hardware ngày càng reliable, framework như ENPiRE sẽ là infrastructure nền tảng cho cuộc cách mạng tiếp theo trong robotics.

Paper: ENPiRE — Google Drive
Project page: research.nvidia.com/labs/gear/enpire
Tổ chức: NVIDIA GEAR Lab, Carnegie Mellon University, UC Berkeley

Vấn đề: Bottleneck của Con Người trong Robot Learning

Vấn đề không phải là robot chậm học. Vấn đề là con người là bottleneck:

Phải có mặt để reset scene sau mỗi lần thử
Phải đánh giá thủ công xem trial nào thành công, cái nào không
Phải đọc log và tự nghĩ ra hướng cải tiến
Phải viết lại code training, điều chỉnh reward function, thay đổi algorithm

Đây là lý do tại sao robot learning đắt tiền và chậm: mỗi giờ robot chạy thực thường tương đương hàng chục giờ engineering của người.

ENPiRE đặt câu hỏi ngược lại: "Nếu chúng ta giao toàn bộ vòng lặp đó cho AI, chuyện gì xảy ra?"

ENPiRE Là Gì? Breakdown Acronym

ENPiRE = ENvironment + Policy Improvement + Rollout + Evolution

Nguồn: NVIDIA GEAR Lab ENPiRE project page