VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam
VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
  1. Trang chủ
  2. Blog
  3. AGIBOT WORLD 2026: Dataset Thế Giới Thực Cho Robot Học Bắt Chước
researchagibotimitation-learningdatasetmanipulationgo-1villaembodied-aihumanoid

AGIBOT WORLD 2026: Dataset Thế Giới Thực Cho Robot Học Bắt Chước

Hướng dẫn thực hành khám phá AGIBOT WORLD 2026 — dataset lớn nhất thế giới thu thập 100% từ môi trường thật, cùng mô hình GO-1 ViLLA và thách thức ICRA 2026.

Nguyễn Anh Tuấn21 tháng 4, 202611 phút đọcCập nhật: 14 thg 6, 2026
AGIBOT WORLD 2026: Dataset Thế Giới Thực Cho Robot Học Bắt Chước

Bạn có bao giờ thắc mắc tại sao các mô hình robot học bắt chước vẫn còn chật vật khi gặp tình huống chưa thấy bao giờ? Câu trả lời thường nằm ở chất lượng và quy mô dữ liệu huấn luyện. Tháng 4/2026, AGIBOT mở nguồn AGIBOT WORLD 2026 — dataset được xây dựng hoàn toàn từ dữ liệu thế giới thực, không một pixel nào là tổng hợp ở phase đầu tiên.

Đây không phải lần đầu ngành robotics thấy dataset lớn, nhưng AGIBOT WORLD 2026 khác ở chỗ: quy mô và cách thu thập. Hơn 100 robot đồng nhất thu thập dữ liệu song song, teleoperator được huấn luyện bài bản, và mọi episode đều có annotation phân cấp từ task-level xuống tới từng keyframe. Cộng đồng nghiên cứu đang gọi đây là "by far the largest dataset for humanoid robots."

Bài toán gốc: Tại sao data thật quan trọng hơn tưởng?

Trong imitation learning, robot học bắt chước bằng cách quan sát và sao chép các demonstration từ expert. Nghe đơn giản, nhưng có một vấn đề cốt lõi: distribution shift. Khi robot thực thi, nó sẽ gặp những trạng thái không có trong dữ liệu huấn luyện — và mỗi lỗi nhỏ có thể khuếch đại thành lỗi lớn hơn (còn gọi là compounding errors).

Data tổng hợp (synthetic) từ simulator giúp giải quyết vấn đề quy mô, nhưng lại tạo ra sim-to-real gap: ánh sáng không thật, texture đồ vật không chính xác, contact dynamics sai. Mô hình huấn luyện trên data tổng hợp thường bị "giật mình" khi gặp thế giới thực.

AGIBOT WORLD 2026 chọn hướng ngược lại: 100% real-world data, thu thập trong môi trường thực tế — không gian thương mại, căn hộ, nhà kho. Chi phí thu thập cao hơn nhiều, nhưng mô hình huấn luyện xong có thể deploy thẳng mà không cần domain adaptation.

Robot G2 của AGIBOT thu thập dữ liệu trong môi trường nhà kho thực tế
Robot G2 của AGIBOT thu thập dữ liệu trong môi trường nhà kho thực tế

Nền tảng thu thập: Robot AGIBOT G2

Toàn bộ dataset được thu thập trên AGIBOT G2 — robot humanoid bánh xe công nghiệp với những thông số đáng nể:

Thông số Giá trị
Chiều cao 175 cm
Cân nặng 55 kg
Bậc tự do 49+ DoF
Tay (mỗi bên) 7-DoF, có force sensor
Payload 5 kg/tay
Tần số thu thập 30 Hz
IP rating IP42
Onboard compute Rhino R1 (500 TOPS) + NVIDIA Jetson Thor T5000 (2070 TFLOPS)

Điều đặc biệt ở G2 là dual 7-DoF arms với full joint torque sensors — có nghĩa là robot không chỉ ghi lại vị trí, mà còn ghi lại lực tác động tại từng khớp. Đây là dữ liệu force-control quan trọng cho các task đòi hỏi contact dynamics chính xác như lắp linh kiện điện tử hay xử lý vật liệu mỏng.

Hệ thống cảm biến đầy đủ: LiDAR cho 3D mapping, RGB-D cho depth perception, nhiều camera RGB cho góc quan sát 360°, cảm biến xúc giác (tactile) trên đầu ngón tay, và IMU. Tất cả được đồng bộ hóa trong một pipeline duy nhất.

Kiến trúc Dataset: 5 Phase — 5 Hướng nghiên cứu

AGIBOT WORLD 2026 được thiết kế theo 5 phase phát hành, mỗi phase tương ứng với một hướng nghiên cứu cốt lõi trong embodied AI:

Phase 1: Imitation Learning     ✅ LIVE (April 2026)
Phase 2: Primitive Discovery    🔜 Sắp ra
Phase 3: Multi-granularity      🔜 Sắp ra
         Language Conditioning
Phase 4: Reasoning to Action    🔜 Sắp ra  
Phase 5: World Model            🔜 Sắp ra

Phase 1 — Imitation Learning (đang mở): Hàng trăm giờ dữ liệu thu thập chủ yếu trong môi trường thương mại và dịch vụ. Bao gồm task-level demonstrations, error-recovery trajectories (quan trọng cho robustness), và hierarchical annotations.

Điểm đặc biệt: Free-form Collection. Khác với nhiều dataset dùng kịch bản cố định, AGIBOT sử dụng free-form collection mode: teleoperator thực hiện task dựa trên điều kiện thực tế tại từng thời điểm, không theo script. Kết quả là diversity cao hơn đáng kể về:

  • Loại đồ vật (object categories)
  • Cấu hình ban đầu (initial configurations)
  • Thứ tự thực thi (execution sequences)

Format & Cấu trúc Dữ liệu

Dataset được host trên Hugging Face tại agibot-world/AgiBotWorld2026 với format tương thích LeRobot v2.1.

AgiBotWorld2026/
├── meta/
│   ├── info.json         # Schema: camera names, sensors, dimensions
│   └── episodes.jsonl    # Episode-level metadata (task, duration, quality)
├── data/
│   └── *.parquet         # Joint states, actions, force data (30Hz)
└── videos/
    └── *.mp4             # Synchronized camera streams

Annotation phân cấp — đây là điểm mạnh nhất của dataset:

Task level
  └── Atomic Skill level   (primitive actions: grasp, move, place...)
        └── 2D BBox level   (vật thể liên quan trong mỗi skill)
              └── Keyframe level  (các frame quan trọng nhất)

Annotation 3 cấp này cho phép nghiên cứu nhiều vấn đề khác nhau: imitation learning toàn bộ task, primitive discovery (học atomic skills độc lập), hay language-conditioned manipulation với nhiều độ chi tiết ngôn ngữ.

Các modalities có sẵn:

  • observation.images.cam_*: Multi-camera RGB streams
  • observation.images.cam_*_depth: RGB-D streams
  • observation.state: Full joint states (49+ DoF)
  • observation.tactile: Fingertip tactile signals
  • action: Target joint positions/velocities
  • action.force: Force/torque data at wrist

Cấu trúc annotation phân cấp của AGIBOT WORLD 2026 — từ task tới keyframe
Cấu trúc annotation phân cấp của AGIBOT WORLD 2026 — từ task tới keyframe

GO-1: Mô hình ViLLA Tiên tiến

Song song với dataset, AGIBOT phát hành GO-1 — mô hình foundation cho manipulation với kiến trúc hoàn toàn mới: Vision-Language-Latent-Action (ViLLA).

Câu hỏi đặt ra: tại sao không dùng VLA thông thường? VLA (Vision-Language-Action) model truyền thống đưa ra action trực tiếp từ vision + language input. Vấn đề là khoảng cách ngữ nghĩa quá lớn giữa "hiểu ngôn ngữ hình ảnh" và "điều khiển cánh tay robot". ViLLA thêm một tầng trung gian — latent action tokens — để bridge khoảng cách này.

Kiến trúc ViLLA (3 tầng)

┌────────────────────────────────────────────┐
│  VLM Backbone                              │
│  (scene understanding + language)          │
└────────────────────┬───────────────────────┘
                     │ visual + language features
          ┌──────────▼──────────┐
          │   Latent Planner    │  ← Masked Language Modeling
          │   (MoE module)      │  → discrete latent action tokens
          └──────────┬──────────┘
                     │ latent tokens
          ┌──────────▼──────────┐
          │   Action Expert     │  ← Diffusion objective
          │                     │  → low-level joint commands (30Hz)
          └─────────────────────┘

VLM Backbone: Được pre-train trên lượng lớn internet data — cho khả năng hiểu ngữ cảnh, nhận dạng đồ vật, và follow language instruction tổng quát.

Latent Planner (MoE): Sử dụng masked language modeling để sinh ra các discrete latent action tokens. Được train trên data từ nhiều embodiment khác nhau và cả human demonstrations — giúp model xây dựng "từ điển hành động" chung.

Action Expert: Module diffusion-based, nhận latent tokens và regress ra low-level joint commands qua quá trình iterative denoising. Diffusion objective phù hợp để model phân phối liên tục của action, đặc biệt cho manipulation phức tạp nhiều mode.

Cài đặt môi trường

# Clone repo
git clone https://github.com/OpenDriveLab/AgiBot-World.git
cd AgiBot-World

# Tạo conda environment
conda create -n agibot python=3.10 -y
conda activate agibot

# Cài dependencies (CUDA 12.4 required)
pip install -e ".[go1]"

# Download dataset từ Hugging Face
pip install huggingface_hub
python -c "
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id='agibot-world/AgiBotWorld2026',
    repo_type='dataset',
    local_dir='./data/AgiBotWorld2026'
)
"

Cấu hình Training

Tạo file config YAML với 3 nhóm tham số chính:

# config/go1_train.yaml

# 1. Model architecture
model:
  architecture: "go1"          # hoặc "go1_air" (nhẹ hơn)
  action_chunk_size: 16        # số bước dự đoán cùng lúc
  diffusion_steps: 10          # số bước denoising

# 2. Data / Space settings
space:
  state_dim: 49                # số joint states
  action_dim: 49               # số dimensions của action
  control_frequency: 30        # Hz
  default_prompt: "Pick up the object and place it in the box."
  
# 3. Training hyperparameters
training:
  batch_size: 128
  learning_rate: 1e-4
  num_epochs: 100
  warmup_steps: 1000
  gradient_clip: 1.0

Chạy Training

# Set run name và bắt đầu train
RUNNAME=go1_imitation_v1 bash go1/shell/train.sh config/go1_train.yaml

# Checkpoints và logs lưu tại:
# experiment/go1_imitation_v1/
#   ├── checkpoints/
#   └── logs/

Inference trên Robot

from go1.model import GO1Policy
from go1.data import ObservationProcessor

# Load checkpoint
policy = GO1Policy.from_pretrained("experiment/go1_imitation_v1/checkpoints/best")
processor = ObservationProcessor(config)

# Inference loop
obs = robot.get_observation()  # dict với cameras, joints, tactile
processed = processor(obs)

with torch.no_grad():
    action = policy.predict(
        images=processed["images"],
        state=processed["state"],
        language="Place the cup on the tray"
    )

robot.execute_action(action)

Kết quả: GO-1 vs. SOTA

Kết quả benchmark trên AgiBot World evaluation suite:

Mô hình Success Rate Task Completion Score
Previous SOTA 46% 0.61
GO-1 Air 68% 0.71
GO-1 (full) 78% 0.85

GO-1 full tăng success rate từ 46% lên 78% (+32 percentage points) so với SOTA trước đó. Latent Planner riêng mình đóng góp thêm +0.12 task completion score so với variant không có module này.

AGIBOT World Challenge tại ICRA 2026

Cùng với dataset, AGIBOT tổ chức AGIBOT World Challenge tại ICRA 2026 với prize pool $530,000 USD — một trong những cuộc thi robotics lớn nhất từ trước đến nay.

Track 1 — Reasoning to Action: Đánh giá khả năng lập luận và thực thi hành động. 10 task thách thức bao gồm dual-arm collaboration, long-horizon operations, và high-precision manipulation (logistics sorting, office organization, retail operations). Gồm 2 giai đoạn: online simulation và offline real-robot finals.

Track 2 — World Model: Huấn luyện video generation model trên AGIBOT WORLD dataset để sinh ra interaction videos của robot thực thi 10 loại task khác nhau trong các môi trường thực tế (furniture, retail, industrial).

Timeline quan trọng:

  • 12/02/2026: Mở đăng ký toàn cầu
  • 28/02/2026: Server thi đấu online
  • 20/04/2026: Đóng submission online
  • 30/04/2026: Công bố kết quả online
  • 01/06/2026: Real-robot finals tại ICRA 2026

Leaderboard được cập nhật real-time trên Hugging Face tại agibot-world/AgiBotWorldChallenge-2026.

Tại sao đây là bước ngoặt?

Nhìn lại lịch sử imitation learning cho robot manipulation, vấn đề dữ liệu luôn là nút thắt cổ chai:

  • 2022: RT-1 (Google) — 130k episodes, nhiều robot nhưng task đơn giản
  • 2023: Open X-Embodiment — aggregate từ nhiều lab, format không đồng nhất
  • 2024: RoboTwin, LIBERO — data tổng hợp quality cao nhưng sim-to-real gap còn tồn tại
  • 2026: AGIBOT WORLD — 100% real-world, >1M trajectories, 217 tasks, 5 deployment scenarios

Điểm mấu chốt không phải chỉ là quy mô — mà là quy trình thu thập có hệ thống. Edge-side processing (training teleoperator, consistency verification) kết hợp với cloud-side processing (automatic annotation, manual review, algorithm closed-loop) tạo ra data quality nhất quán ở quy mô công nghiệp.

Nếu bạn đang nghiên cứu về imitation learning hay muốn hiểu tại sao các mô hình robotics tiên tiến nhất năm 2026 lại mạnh như vậy, AGIBOT WORLD 2026 là case study không thể bỏ qua.

Kết luận

AGIBOT WORLD 2026 đánh dấu sự chuyển dịch của cả ngành từ "dữ liệu đủ dùng" sang "dữ liệu chất lượng công nghiệp ở quy mô lớn." Dataset 100% real-world với annotation phân cấp 4 cấp độ, kết hợp với mô hình GO-1 ViLLA và challenge ICRA 2026 với prize pool $530K, là minh chứng rõ ràng rằng Trung Quốc đang đặt cược lớn vào embodied AI.

Với Phase 1 đã live và 4 phase tiếp theo sẽ ra trong năm 2026, đây là thời điểm tốt để bắt đầu khám phá — dù bạn là researcher, kỹ sư robotics, hay chỉ đơn giản là tò mò về tương lai của robot.

Resources:

  • GitHub: OpenDriveLab/AgiBot-World
  • Dataset: huggingface.co/datasets/agibot-world/AgiBotWorld2026
  • Paper: AgiBot World Colosseo (arXiv:2503.06669) — IROS 2025 Best Paper Award Finalist & IEEE TRO 2026

Khuyến nghị công cụ

Stack train/deploy cho VLA

Train trên cloud/workstation, deploy bản tối ưu xuống Jetson hoặc robot computer.

Cloud GPU for VLA / policy training Dùng cho imitation learning, diffusion policy, RL và fine-tuning model robotics. Xem cloud GPU → NVIDIA Jetson Orin NX / Orin Nano Máy deploy edge cho perception, logging và inference đã tối ưu. Xem Jetson → Hugging Face / robotics dataset hosting Lưu dataset, checkpoint và model card để workflow LeRobot/VLA dễ chia sẻ hơn. Xem platform →

Bài viết liên quan

  • Imitation Learning cho Robot: Từ BC đến ACT và Diffusion Policy
  • RoboTwin 2.0: Framework Tạo Data Dual-Arm Manipulation Quy Mô Lớn
  • LeRobot: Framework Imitation Learning Mã Nguồn Mở của Hugging Face
NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Khám phá VnRobo

Fleet MonitoringROS 2 IntegrationAMR Solutions

Bài viết liên quan

Nghiên cứu
Thu data manipulation: teleop vs robot-free vs video
manipulationdata-collectionteleoperationPhần 6
research

Thu data manipulation: teleop vs robot-free vs video

Ba chiến lược thu dữ liệu whole-body manipulation — teleop, robot-free demo (HuMI), và video egocentric action-free. Bảng so sánh cost/quality/throughput và cách chọn theo ngân sách.

14/6/20267 phút đọc
NT
Nghiên cứu
Research
humanoiddatasetvlaPhần 1
research

Cuộc Chiến Data: Ai Sở Hữu Dữ Liệu Robot Humanoid 2026?

Map toàn cảnh cuộc chiến dữ liệu robot humanoid: AgiBot World 1M+ trajectory vs Open X-Embodiment vs π0 của Physical Intelligence vs LeRobot — ai đang thắng và tại sao điều đó quan trọng chiến lược.

10/6/202612 phút đọc
NT
Nghiên cứu
Perception 3D cho humanoid: Omni-Manip & spatial reasoning
manipulationhumanoid3d-perceptionPhần 4
research

Perception 3D cho humanoid: Omni-Manip & spatial reasoning

Humanoid vừa đi vừa với tay ra xa cần perception ngoài FOV camera và active spatial reasoning. Phân tích Omni-Manip và Active Spatial Reasoning — 2 paper humanoid 2026.

14/6/20268 phút đọc
NT
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam