Cuộc Chiến Data: Ai Sở Hữu Dữ Liệu Robot Humanoid 2026?

Năm 2026, cuộc đua sản xuất robot humanoid không còn chỉ xoay quanh phần cứng. Tesla Optimus, Figure 02, Unitree H1 — tất cả đều đang cạnh tranh trên một mặt trận ít được nhắc đến hơn nhưng quyết định tất cả: dữ liệu huấn luyện. Ai sở hữu dataset đủ lớn, đủ đa dạng, và đủ chất lượng — người đó sở hữu tương lai của robotics.

Bài viết này là bản đồ toàn cảnh — phần đầu tiên trong series 7 bài — giúp bạn hiểu 4 dataset lớn nhất đang định hình ngành, cơ chế "data flywheel" các công ty đang khai thác, và tại sao claim "cải thiện 30% so với Open X-Embodiment" của AgiBot lại là một tín hiệu chiến lược quan trọng hơn nhiều so với một con số benchmark đơn thuần.

Roadmap Series: Ai Sở Hữu Dữ Liệu Robot Humanoid 2026?

Series này gồm 7 bài, đi từ tổng quan toàn cảnh đến chiến lược thu thập data thực chiến:

Bài	Tiêu đề	Nội dung chính
1 (bài này)	Cuộc Chiến Data: Ai Sở Hữu Dữ Liệu Robot 2026?	Map 4 dataset lớn nhất, data flywheel, phân tích chiến lược
2	Teleoperation: Thu Thập Dữ Liệu Thực Tế	Cách AgiBot, Figure, Unitree thu thập data bằng teleop hardware
3	Human Video Mining: Khai Thác Video Người	Dùng video YouTube và internet để pre-train robot policy
4	Synthetic Data Pipeline: Từ Sim Đến Thực	Isaac Lab, MuJoCo và kỹ thuật synthetic trajectory generation
5	VLA Data Scaling: Luật Scaling Cho Robot	Scaling laws, data diversity vs quantity, diminishing returns
6	Data Strategy: Bạn Nên Thu Thập Gì?	Hướng dẫn thực chiến cho team nhỏ và startup
7	Open vs Closed: License, Data Moat & Tương Lai	Giấy phép dataset (CC-BY-NC vs Apache), data marketplace, dự báo 2027

Tại Sao Data Là "Dầu Mỏ" Mới Của Robot Humanoid?

Hãy tưởng tượng bạn muốn dạy robot học gấp quần áo. Cách tiếp cận cổ điển — lập trình từng bước cứng nhắc bằng kinematics — thất bại vì mỗi cái áo có hình dạng khác nhau, mỗi lần gấp trạng thái vải hơi thay đổi, ánh sáng và góc nhìn luôn biến động. Bạn không thể "code" hết mọi tình huống.

Thay vào đó, Vision-Language-Action (VLA) models học bằng cách xem hàng nghìn lần con người làm — mỗi lần một chút khác nhau, trong nhiều môi trường khác nhau. Cách tiếp cận này hoạt động, nhưng đòi hỏi data đủ lớn, đủ đa dạng, và đủ chất lượng. Đây chính là bài toán khó nhất của ngành hiện tại.

Data Flywheel: Vòng Xoáy Tự Gia Cường

     Thu thập data nhiều hơn
              ↓
      Train model tốt hơn
              ↓
  Deploy robot ra thực tế nhiều hơn
              ↓
     Thu thập data nhiều hơn
         (vòng lặp tiếp tục)

Concept "data flywheel" nghe đơn giản nhưng cực kỳ mạnh: công ty nào bắt đầu flywheel trước sẽ có lợi thế ngày càng tăng theo cấp số nhân. Model tốt hơn → deploy được nhiều robot hơn → thu thập nhiều real-world data hơn → model còn tốt hơn nữa.

Trong thế giới LLM, OpenAI đã hiểu điều này từ năm 2020: ChatGPT không chỉ là sản phẩm — nó là cỗ máy thu thập RLHF feedback khổng lồ. Robotics năm 2026 đang lặp lại bài học đó, nhưng với thách thức khó hơn nhiều: thu thập physical interaction data đắt hơn text data gấp hàng nghìn lần.

Bốn Dataset Đang Định Hình Cuộc Chơi

1. AgiBot World — "Đội Quân Triệu Trajectory"

Paper: AgiBot World Colosseo (arXiv:2503.06669)
IROS 2025 Best Paper Award Finalist | IEEE TRO 2026

AgiBot World là dataset lớn nhất và tham vọng nhất trong nhóm này, được xây dựng bởi AgiBot — startup robotics Trung Quốc được hậu thuẫn bởi Alibaba. Đây là những con số:

Chỉ số	Giá trị
Tổng trajectories	1,001,552 (~1M+)
Số tasks cụ thể	217
Số skills	87
Số scene khác nhau	106
Tổng thời lượng data	2,976 giờ
Deployment scenarios	5 (nhà bếp, phòng khách, kho hàng, v.v.)

Dataset này được thu thập bằng pipeline chuẩn hóa với human-in-the-loop verification — mỗi trajectory được kiểm tra chất lượng bởi con người trước khi đưa vào dataset. Đây là sự khác biệt quan trọng so với thu thập tự động thuần túy.

Đi kèm với dataset là Genie Operator-1 (GO-1) — policy mới nhất, dùng latent action representations để tối đa hóa khai thác dữ liệu. GO-1 đạt 60%+ success rate trên complex tasks và vượt trội RDT (phương pháp trước đó) 32%.

Điểm mấu chốt chiến lược: AgiBot World là open-source (dataset, tools, và models đều public). Nhưng đây không phải từ thiện — đây là cách xây dựng hệ sinh thái, thu hút talent toàn cầu, và định vị AgiBot như "Google của robotics data". Flywheel của họ đang chạy, và phần quan trọng nhất — khả năng thu thập data tiếp theo — vẫn là lợi thế cạnh tranh của riêng họ.

2. Open X-Embodiment — "Chuẩn Mở Của Học Viện"

Paper: Open X-Embodiment: Robotic Learning Datasets and RT-X Models (arXiv:2310.08864)

Được publish năm 2023 bởi sự hợp tác của 21 tổ chức nghiên cứu trên toàn thế giới, Open X-Embodiment (OXE) là "ngôn ngữ chung" đầu tiên cho dữ liệu robot:

Chỉ số	Giá trị
Tổ chức tham gia	21 institutions, 34 research labs
Robot embodiments	22 loại robot khác nhau
Số skills	527 (~160,000 tasks)
License	CC-BY (mở hoàn toàn, dùng thương mại được)

Điểm quan trọng nhất của OXE là chuẩn hóa định dạng — bạn có thể dùng data từ robot Stanford cùng với data từ Google DeepMind trong cùng một training pipeline. Model RT-X (Robot Transformer X) được train trên dataset này và chứng minh positive transfer: học từ robot A giúp cải thiện performance của robot B.

Điểm yếu: OXE được xây dựng bởi academia, với nhiều loại robot nhưng số trajectory mỗi task còn khiêm tốn. Đây là tập dữ liệu rộng nhưng chưa sâu — diversity cao nhưng data per task thấp, đặc biệt khi so với 1M+ trajectory tập trung của AgiBot World.

3. Physical Intelligence π0 — "Đế Chế Bí Ẩn"

Paper: π₀: A Vision-Language-Action Flow Model for General Robot Control (arXiv:2410.24164)

Physical Intelligence (pi.ai) là startup được co-founded bởi Sergey Levine (UC Berkeley) cùng các researcher hàng đầu từ Google, Stanford, và CMU. π0 là model flagship của họ — và đây là điều thú vị nhất: chúng ta biết rất ít về dataset thực sự của nó.

Từ paper, chúng ta biết:

Khía cạnh	Thông tin công khai
Nguồn data	OXE + in-house proprietary data
Platforms	Single-arm, dual-arm, mobile manipulators
Tasks	Dexterous, multi-step (gấp quần áo, lắp ráp)
Duration	100 giây đến nhiều phút
Scale thực	Không được tiết lộ
Architecture	Pre-trained VLM + action expert với flow matching loss

Quy mô thực của dataset in-house, chi tiết phân phối task, số lượng robot đang thu thập data — tất cả đều không được tiết lộ. Physical Intelligence đang chơi theo kiểu OpenAI sau GPT-2: open paper, closed weights, closed data.

Tại sao điều này quan trọng: Bằng cách giữ dataset và model weights tốt nhất cho riêng mình, Physical Intelligence đang xây dựng "moat" (hào bảo vệ) mà đối thủ không thể sao chép chỉ bằng cách đọc paper. Đây là chiến lược bảo vệ lợi thế cạnh tranh dài hạn, không phải sự cởi mở học thuật.

4. LeRobot — "Phong Trào Dân Chủ Hóa"

GitHub: huggingface/lerobot

HuggingFace's LeRobot là câu trả lời của cộng đồng open-source với toàn bộ cuộc chiến data này. Thay vì cạnh tranh về quy mô với AgiBot hay Physical Intelligence, LeRobot tập trung vào standardization và accessibility:

Tính năng	Chi tiết
Số datasets trên Hub	181+ (và đang tăng)
Datasets nổi bật	DROID-100, ALOHA, ALOHA-2, RoboCasa, SO-100
Format	Chuẩn hóa với PyTorch loaders
LeRobotDataset v3	Streaming — không cần download toàn bộ
Hardware recipe	SO-100 arm (~$100), Koch v1.1

Điểm đặc biệt của LeRobot là hardware recipes — hướng dẫn build robot giá rẻ để bất kỳ ai cũng có thể bắt đầu thu thập data với format chuẩn. Khi hàng nghìn người dùng trên toàn thế giới cùng đóng góp theo cùng một chuẩn, tổng data cộng đồng có thể cạnh tranh với các lab lớn về độ đa dạng — dù không về độ tập trung.

Phân Tích Chiến Lược: Open vs Proprietary Flywheel

┌──────────────────────────────────────────────────────────────────┐
│                    Data Strategy Landscape 2026                  │
├──────────────────────────┬───────────────────────────────────────┤
│  OPEN (Academic/OSS)     │  PROPRIETARY / HYBRID                 │
├──────────────────────────┼───────────────────────────────────────┤
│ Open X-Embodiment (OXE)  │ Physical Intelligence (π0)            │
│ • 21 institutions        │ • Quy mô undisclosed                  │
│ • CC-BY license          │ • Commercial advantage mạnh           │
│ • 527 skills, 22 robots  │ • Multi-platform in-house data        │
│ • Định chuẩn academia    │ • Silent leader?                      │
├──────────────────────────┼───────────────────────────────────────┤
│ LeRobot (HuggingFace)    │ AgiBot World (open + strategic)       │
│ • 181+ community sets    │ • 1M+ trajectories (mở công khai)     │
│ • Cheap hardware recipe  │ • Alibaba-backed infrastructure       │
│ • Streaming format       │ • GO-1 policy open-source             │
│ • Community-driven       │ • Flywheel tiếp tục closed            │
└──────────────────────────┴───────────────────────────────────────┘

Nhìn vào bản đồ này, một điều rõ ràng: "open" không có nghĩa là không có chiến lược. AgiBot World mở dataset nhưng vẫn là công ty thương mại với lợi thế riêng về hardware và collection infrastructure. OXE mở hoàn toàn nhưng bị giới hạn bởi mô hình academia phân tán. LeRobot mở rộng nhất nhưng phụ thuộc vào sự đóng góp tự nguyện của cộng đồng.

Physical Intelligence là case study thú vị nhất: bằng cách giữ data và weights tốt nhất cho riêng mình trong khi vẫn publish papers, họ thu được credit học thuật mà không từ bỏ lợi thế thương mại.

Tại Sao "30% Improvement" Của AgiBot Quan Trọng Chiến Lược?

Claim chính thức từ paper AgiBot World: "Policies pre-trained on AgiBot World achieve an average performance improvement of 30% over those trained on Open X-Embodiment."

Về mặt kỹ thuật, đây là so sánh không hoàn toàn apple-to-apple (khác hardware setup, khác evaluation protocol, khác task distribution). Nhưng về mặt chiến lược, con số này quan trọng theo 4 cách:

1. Confirmation của scaling laws trong robotics. Cùng một loại policy architecture, train trên data lớn hơn và đồng nhất hơn → performance tăng đáng kể. Đây không còn là giả thuyết — là số liệu thực.

2. Systems engineering beats pure research. AgiBot thu thập 1M+ trajectory không phải vì có nhiều nghiên cứu sinh thiên tài hơn — mà vì họ build industrial-scale collection infrastructure với quality control pipeline. Khoảng cách giữa OXE và AgiBot World không phải về intelligence mà về execution.

3. Benchmark là bài toán truyền thông. Khi AgiBot công bố con số 30%, họ không chỉ nói với cộng đồng nghiên cứu. Họ nói với nhà đầu tư, đối tác công nghiệp, và talent tiềm năng: "Chúng tôi đang dẫn đầu." Benchmark games là một phần không thể tách rời của data war.

4. Open data không có nghĩa là mất lợi thế. AgiBot mở dataset nhưng vẫn giữ lợi thế về robot hardware, deployment infrastructure, và quan trọng nhất — khả năng thu thập data mới mỗi ngày từ robots đang hoạt động ngoài thực tế. Dataset hiện tại là "show card"; flywheel thực sự tiếp tục chạy.

Bức Tranh 2026: Ai Đang Ở Đâu?

Dataset	Quy mô data	Độ mở	Quality control	Vị thế chiến lược
AgiBot World	★★★★★	★★★★☆	★★★★★	Aggressive challenger
Open X-Embodiment	★★★☆☆	★★★★★	★★★☆☆	Academic foundation
Physical Intelligence	Không rõ	★☆☆☆☆	Ước tính cao	Silent leader
LeRobot	★★★☆☆	★★★★★	★★★☆☆	Community enabler

Không có "người thắng" rõ ràng tại thời điểm này — mỗi player đang thắng theo metric riêng của mình. Nhưng nếu robotics theo đúng quỹ đạo của NLP (từ pre-GPT3 đến ChatGPT era), cuộc chơi sẽ ngã ngũ khi ai đó đạt được critical mass: đủ data đủ đa dạng để train một model thực sự generalize across embodiments và environments.

Câu hỏi cốt lõi là: ai đạt critical mass đó trước? Và khi đó, open-source có còn đủ sức cạnh tranh?

Các bài tiếp theo trong series sẽ đi sâu hơn vào cách mỗi dataset được thu thập, tại sao teleoperation vẫn là "gold standard" cho high-quality data, và cuối cùng — bạn cần làm gì nếu muốn tham gia cuộc chơi này với nguồn lực hạn chế.

Đón đọc Bài 2: Teleoperation — Thu Thập Dữ Liệu Thực Tế.

Roadmap Series: Ai Sở Hữu Dữ Liệu Robot Humanoid 2026?

Series này gồm 7 bài, đi từ tổng quan toàn cảnh đến chiến lược thu thập data thực chiến:

Bài	Tiêu đề	Nội dung chính
1 (bài này)	Cuộc Chiến Data: Ai Sở Hữu Dữ Liệu Robot 2026?	Map 4 dataset lớn nhất, data flywheel, phân tích chiến lược
2	Teleoperation: Thu Thập Dữ Liệu Thực Tế	Cách AgiBot, Figure, Unitree thu thập data bằng teleop hardware
3	Human Video Mining: Khai Thác Video Người	Dùng video YouTube và internet để pre-train robot policy
4	Synthetic Data Pipeline: Từ Sim Đến Thực	Isaac Lab, MuJoCo và kỹ thuật synthetic trajectory generation
5	VLA Data Scaling: Luật Scaling Cho Robot	Scaling laws, data diversity vs quantity, diminishing returns
6	Data Strategy: Bạn Nên Thu Thập Gì?	Hướng dẫn thực chiến cho team nhỏ và startup
7	Open vs Closed: License, Data Moat & Tương Lai	Giấy phép dataset (CC-BY-NC vs Apache), data marketplace, dự báo 2027

Tại Sao Data Là "Dầu Mỏ" Mới Của Robot Humanoid?

Data Flywheel: Vòng Xoáy Tự Gia Cường

     Thu thập data nhiều hơn
              ↓
      Train model tốt hơn
              ↓
  Deploy robot ra thực tế nhiều hơn
              ↓
     Thu thập data nhiều hơn
         (vòng lặp tiếp tục)

Bốn Dataset Đang Định Hình Cuộc Chơi

1. AgiBot World — "Đội Quân Triệu Trajectory"

Paper: AgiBot World Colosseo (arXiv:2503.06669)
IROS 2025 Best Paper Award Finalist | IEEE TRO 2026

Chỉ số	Giá trị
Tổng trajectories	1,001,552 (~1M+)
Số tasks cụ thể	217
Số skills	87
Số scene khác nhau	106
Tổng thời lượng data	2,976 giờ
Deployment scenarios	5 (nhà bếp, phòng khách, kho hàng, v.v.)

2. Open X-Embodiment — "Chuẩn Mở Của Học Viện"

Paper: Open X-Embodiment: Robotic Learning Datasets and RT-X Models (arXiv:2310.08864)

Được publish năm 2023 bởi sự hợp tác của 21 tổ chức nghiên cứu trên toàn thế giới, Open X-Embodiment (OXE) là "ngôn ngữ chung" đầu tiên cho dữ liệu robot:

Chỉ số	Giá trị
Tổ chức tham gia	21 institutions, 34 research labs
Robot embodiments	22 loại robot khác nhau
Số skills	527 (~160,000 tasks)
License	CC-BY (mở hoàn toàn, dùng thương mại được)

3. Physical Intelligence π0 — "Đế Chế Bí Ẩn"

Paper: π₀: A Vision-Language-Action Flow Model for General Robot Control (arXiv:2410.24164)

Từ paper, chúng ta biết:

Khía cạnh	Thông tin công khai
Nguồn data	OXE + in-house proprietary data
Platforms	Single-arm, dual-arm, mobile manipulators
Tasks	Dexterous, multi-step (gấp quần áo, lắp ráp)
Duration	100 giây đến nhiều phút
Scale thực	Không được tiết lộ
Architecture	Pre-trained VLM + action expert với flow matching loss

4. LeRobot — "Phong Trào Dân Chủ Hóa"

GitHub: huggingface/lerobot

Tính năng	Chi tiết
Số datasets trên Hub	181+ (và đang tăng)
Datasets nổi bật	DROID-100, ALOHA, ALOHA-2, RoboCasa, SO-100
Format	Chuẩn hóa với PyTorch loaders
LeRobotDataset v3	Streaming — không cần download toàn bộ
Hardware recipe	SO-100 arm (~$100), Koch v1.1

Phân Tích Chiến Lược: Open vs Proprietary Flywheel

┌──────────────────────────────────────────────────────────────────┐
│                    Data Strategy Landscape 2026                  │
├──────────────────────────┬───────────────────────────────────────┤
│  OPEN (Academic/OSS)     │  PROPRIETARY / HYBRID                 │
├──────────────────────────┼───────────────────────────────────────┤
│ Open X-Embodiment (OXE)  │ Physical Intelligence (π0)            │
│ • 21 institutions        │ • Quy mô undisclosed                  │
│ • CC-BY license          │ • Commercial advantage mạnh           │
│ • 527 skills, 22 robots  │ • Multi-platform in-house data        │
│ • Định chuẩn academia    │ • Silent leader?                      │
├──────────────────────────┼───────────────────────────────────────┤
│ LeRobot (HuggingFace)    │ AgiBot World (open + strategic)       │
│ • 181+ community sets    │ • 1M+ trajectories (mở công khai)     │
│ • Cheap hardware recipe  │ • Alibaba-backed infrastructure       │
│ • Streaming format       │ • GO-1 policy open-source             │
│ • Community-driven       │ • Flywheel tiếp tục closed            │
└──────────────────────────┴───────────────────────────────────────┘

Tại Sao "30% Improvement" Của AgiBot Quan Trọng Chiến Lược?

Claim chính thức từ paper AgiBot World: "Policies pre-trained on AgiBot World achieve an average performance improvement of 30% over those trained on Open X-Embodiment."

Bức Tranh 2026: Ai Đang Ở Đâu?

Dataset	Quy mô data	Độ mở	Quality control	Vị thế chiến lược
AgiBot World	★★★★★	★★★★☆	★★★★★	Aggressive challenger
Open X-Embodiment	★★★☆☆	★★★★★	★★★☆☆	Academic foundation
Physical Intelligence	Không rõ	★☆☆☆☆	Ước tính cao	Silent leader
LeRobot	★★★☆☆	★★★★★	★★★☆☆	Community enabler

Câu hỏi cốt lõi là: ai đạt critical mass đó trước? Và khi đó, open-source có còn đủ sức cạnh tranh?

Đón đọc Bài 2: Teleoperation — Thu Thập Dữ Liệu Thực Tế.

Cuộc Chiến Data: Ai Sở Hữu Dữ Liệu Robot Humanoid 2026?

Roadmap Series: Ai Sở Hữu Dữ Liệu Robot Humanoid 2026?

Tại Sao Data Là "Dầu Mỏ" Mới Của Robot Humanoid?

Data Flywheel: Vòng Xoáy Tự Gia Cường

Bốn Dataset Đang Định Hình Cuộc Chơi

1. AgiBot World — "Đội Quân Triệu Trajectory"

2. Open X-Embodiment — "Chuẩn Mở Của Học Viện"

3. Physical Intelligence π0 — "Đế Chế Bí Ẩn"

4. LeRobot — "Phong Trào Dân Chủ Hóa"

Phân Tích Chiến Lược: Open vs Proprietary Flywheel

Tại Sao "30% Improvement" Của AgiBot Quan Trọng Chiến Lược?

Bức Tranh 2026: Ai Đang Ở Đâu?

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

WholeBodyVLA: video egocentric + RL loco-manipulation

Vì sao VLA 2D chưa đủ cho manipulation

Teleoperation: Thu Thập Dữ Liệu Robot Thực Tế

Cuộc Chiến Data: Ai Sở Hữu Dữ Liệu Robot Humanoid 2026?

Roadmap Series: Ai Sở Hữu Dữ Liệu Robot Humanoid 2026?

Tại Sao Data Là "Dầu Mỏ" Mới Của Robot Humanoid?

Data Flywheel: Vòng Xoáy Tự Gia Cường

Bốn Dataset Đang Định Hình Cuộc Chơi

1. AgiBot World — "Đội Quân Triệu Trajectory"

2. Open X-Embodiment — "Chuẩn Mở Của Học Viện"

3. Physical Intelligence π0 — "Đế Chế Bí Ẩn"

4. LeRobot — "Phong Trào Dân Chủ Hóa"

Phân Tích Chiến Lược: Open vs Proprietary Flywheel

Tại Sao "30% Improvement" Của AgiBot Quan Trọng Chiến Lược?

Bức Tranh 2026: Ai Đang Ở Đâu?

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

WholeBodyVLA: video egocentric + RL loco-manipulation

Vì sao VLA 2D chưa đủ cho manipulation

Teleoperation: Thu Thập Dữ Liệu Robot Thực Tế