humanoidhumanoidrobot-datalerobotisaac-labegohumanoidhumanoid-everydayvladata-ownership

Bản đồ dữ liệu humanoid 2026

Bản đồ beginner-friendly về dữ liệu humanoid: file thô, LeRobot, Isaac Lab, Humanoid Everyday và ai kiểm soát giá trị ở từng lớp.

Nguyễn Anh Tuấn10 tháng 6, 202616 phút đọc
Bản đồ dữ liệu humanoid 2026

Vì sao phải bắt đầu từ "bề mặt dữ liệu"?

Khi nói "ai sở hữu dữ liệu robot hình người", nhiều cuộc thảo luận nhảy thẳng tới câu hỏi pháp lý: chủ robot, người điều khiển, công ty lưu trữ hay nhóm train model mới là bên sở hữu? Cách đó dễ làm người mới bị lạc, vì dữ liệu humanoid không phải một file duy nhất. Nó là một chuỗi bề mặt dữ liệu: file thô từ robot hoặc người đeo thiết bị, file đã đồng bộ camera, format train như LeRobot, file mô phỏng từ Isaac Lab, checkpoint model, log đánh giá và đôi khi cả video chạy trên robot thật trong cloud evaluation platform.

Bài đầu tiên của series này đi theo hướng thực dụng hơn: nhìn vào file trước, rồi mới nói về quyền kiểm soát giá trị. Nếu bạn mở một folder dataset và thấy episode_0.hdf5, episode_0.svo2, data/chunk-000/file-000.parquet, videos/observation.images.front/file-000.mp4, hoặc generated_dataset_gr1_nut_pouring.hdf5, bạn cần biết chúng đại diện cho lớp nào trong chuỗi giá trị.

Mục tiêu của bài này không phải đưa ra tư vấn pháp lý. Mục tiêu là giúp bạn phân loại: lớp nào do chủ phần cứng kiểm soát, lớp nào gắn với công sức teleoperator, lớp nào thuộc quyền điều phối của dataset host, lớp nào tạo lợi thế cho model trainer, và lớp nào được cloud evaluation platform giữ lại như bằng chứng hiệu năng.

Nếu bạn đã đọc LeRobot v0.5 với G1 whole-body control hoặc GR00T-VisualSim2Real cho G1 trong Isaac Lab, hãy xem bài này như bản đồ dữ liệu nằm phía sau các tutorial đó.

Roadmap series

  1. Bản đồ dữ liệu humanoid 2026 — bài hiện tại, bắt đầu từ file thô và phân lớp quyền kiểm soát giá trị.
  2. VR teleoperation và dữ liệu người điều khiển — vì sao PICO, Apple Vision Pro và hand tracking biến thao tác con người thành tài sản dữ liệu.
  3. View alignment và action alignment — lớp chuyển đổi khiến human video có thể dùng cho humanoid.
  4. Simulation và synthetic demonstration — dữ liệu Isaac Lab, Mimic, domain randomization và câu hỏi ai sở hữu demo tổng hợp.
  5. Human video và dữ liệu robot-free — khi video người làm việc trở thành tiền huấn luyện VLA.
  6. VLA stack và quyền kiểm soát cuối chuỗi — từ dataset sang checkpoint, API inference, benchmark và moat sản phẩm.

Bốn ví dụ cụ thể để định nghĩa bản đồ

Thay vì nói trừu tượng, ta bắt đầu với bốn bề mặt dữ liệu đang xuất hiện trong humanoid research năm 2026.

Bề mặt dữ liệu Ví dụ file hoặc số liệu Nó chứa gì? Ai thường kiểm soát trực tiếp?
Raw egocentric humanoid data episode_*.hdf5 + episode_*.svo2 trong EgoHumanoid Skeleton, hand pose, timestamp, video ZED thô, sau đó merge thành HDF5 có ảnh trái/phải Lab thu thập, chủ thiết bị, nhóm vận hành data pipeline
LeRobotDataset Parquet + MP4, đôi khi ảnh rời khi debug/export State, action, timestamp trong Parquet; camera trong MP4; metadata, task, stats Dataset host, người chuẩn hóa schema, người upload Hub
Isaac Lab synthetic dataset generated_dataset_gr1_nut_pouring.hdf5 1000 demonstration của humanoid GR1 cho task nut pouring/placing, sinh bằng Isaac Lab Mimic Người sở hữu scene, asset, script generation, compute
Humanoid Everyday 10.3k trajectories, hơn 3 triệu frames, 260 tasks RGB, depth, LiDAR, tactile, state/action, annotation ngôn ngữ, teleop từ Apple Vision Pro Nhóm phát hành dataset, chủ robot G1/H1, cloud evaluation operator

Điểm quan trọng: cùng là "dữ liệu humanoid", nhưng bốn dòng trên có kinh tế học rất khác nhau. File episode_0.svo2 là video cảm biến gốc. File Parquet trong LeRobot là bảng đã chuẩn hóa để train. HDF5 từ Isaac Lab là demonstration được sinh trong mô phỏng. Humanoid Everyday là một hệ sinh thái gồm dataset, dataloader, benchmark và cloud evaluation. Mỗi lớp có một người giữ chìa khóa khác nhau.

Lớp 1: File thô từ người hoặc robot

EgoHumanoid là ví dụ tốt vì nó đặt vấn đề rất rõ: dùng egocentric human demonstrations để hỗ trợ humanoid loco-manipulation, rồi co-train VLA với một lượng robot data hạn chế. Repo chính thức mô tả pipeline gồm thu thập dữ liệu từ Unitree G1, người đeo PICO VR và ZED Mini, xử lý alignment, fine-tune VLA dựa trên π₀.₅, rồi deploy lại lên robot thật. Nguồn: OpenDriveLab/EgoHumanoidpaper arXiv 2602.10106.

Ở mức file, phần human data pipeline của EgoHumanoid kỳ vọng raw data được tổ chức theo batch ngày tháng:

raw_data/
  2025-01-15_batch1/
    episode_0.hdf5
    episode_0.svo2
    episode_1.hdf5
    episode_1.svo2
  2025-01-15_batch2/
    ...

episode_*.hdf5 chứa các stream cấu trúc như body_pose, left_hand_pose, right_hand_poselocal_timestamps_ns. episode_*.svo2 là file ZED camera recording. Pipeline sau đó reorder episode, tính navigation command từ body pose, downsample, đọc frame từ SVO2, đồng bộ timestamp, nén ảnh thành JPEG trong HDF5 và tính hand_status nhị phân cho tay trái/phải. Nguồn kỹ thuật: Human Data Processing Pipeline của EgoHumanoid.

Với người mới, hãy nhớ một quy tắc: file thô là nơi quyền kiểm soát gần nhất với thế giới thật. Nếu một công ty sở hữu robot, camera, VR headset, workstation và môi trường thu thập, họ thường kiểm soát việc file thô có được tạo ra hay không. Nếu teleoperator là nhân viên hoặc contractor, hợp đồng lao động/quy chế dữ liệu sẽ quyết định phần quyền của họ. Nếu teleoperator là người dùng cuối, vấn đề privacy và consent trở nên khó hơn nhiều.

Sơ đồ tối giản:

Human/robot activity
  -> sensor recording
  -> episode_0.hdf5      # pose, hand, timestamp, command
  -> episode_0.svo2      # camera stream from ZED
  -> processed_episode.hdf5
  -> LeRobot format
  -> model training

Giá trị ở lớp này nằm ở độ hiếm của tình huống: góc nhìn egocentric, object thật, ánh sáng thật, lỗi thật, thao tác tay người thật, và những pha "khó chịu" mà simulation chưa sinh ra được. Nhưng file thô cũng là lớp rủi ro nhất: có thể chứa mặt người, nhà xưởng, màn hình máy tính, biển số, giọng nói, hoặc thói quen thao tác của nhân sự.

Lớp 2: Format train tiêu chuẩn như LeRobotDataset

Raw file không nhất thiết là format tốt để train. Model trainer cần sampling nhanh, metadata rõ, episode segmentation ổn định, task label nhất quán và cách đọc được trên nhiều máy. Đây là lý do LeRobotDataset trở thành một lớp quan trọng trong chuỗi giá trị.

Theo tài liệu LeRobotDataset v3.0 của Hugging Face, thiết kế chính là tách storage khỏi API người dùng. Dữ liệu thấp chiều, tần số cao như state, action và timestamp được lưu trong Apache Parquet. Dữ liệu hình ảnh từ camera được nối và encode thành MP4 theo camera, sharding để giảm số lượng file. Metadata trong meta/ mô tả schema, FPS, stats, task và episode offsets. Nguồn: LeRobotDataset v3.0 documentationLeRobot datasets v3 blog.

Một layout LeRobotDataset v3 thường giống:

my-humanoid-dataset/
  meta/
    info.json
    stats.json
    tasks.jsonl
    episodes/
      chunk-000/file-000.parquet
  data/
    chunk-000/file-000.parquet
  videos/
    observation.images.front/
      chunk-000/file-000.mp4
    observation.images.wrist/
      chunk-000/file-000.mp4

Điều này tạo ra một lớp quyền kiểm soát mới. Người giữ raw file chưa chắc là người kiểm soát dataset sau chuẩn hóa. Khi dữ liệu được upload lên Hugging Face Hub hoặc một object store nội bộ, dataset host kiểm soát access token, license, versioning, visibility, takedown, mirror và metadata. Một model trainer có thể không bao giờ thấy episode_0.svo2, nhưng vẫn train được nếu có Parquet, MP4 và metadata đủ tốt.

Nếu bạn làm startup humanoid, đừng xem "convert sang LeRobot" là thao tác phụ. Đây là lúc bạn quyết định:

Quyết định schema Tác động kỹ thuật Tác động quyền kiểm soát
Tên camera: observation.images.front hay head_rgb Model config có đọc được không Ai sở hữu convention sẽ giảm chi phí tích hợp
State/action dimension Có tương thích G1, H1, GR1 hay không Ai định nghĩa action space kiểm soát khả năng reuse
FPS và downsampling Cân bằng I/O, latency, smooth action Có thể làm mất chi tiết thao tác của teleoperator
Task text VLA có hiểu instruction không Người viết annotation tạo thêm giá trị ngữ nghĩa
Stats normalization Train ổn định hơn Stats có thể tiết lộ distribution nội bộ
License và access Dễ chia sẻ hay đóng kín Dataset host có quyền điều phối downstream use

Một ví dụ kiểm tra nhanh với Python:

from lerobot.datasets.lerobot_dataset import LeRobotDataset

dataset = LeRobotDataset("org/humanoid-demo")
sample = dataset[100]

print(sample.keys())
print(sample["observation.state"].shape)
print(sample["action"].shape)
print(sample["observation.images.front"].shape)

Khi code trên chạy, giá trị không còn nằm ở file gốc nữa. Giá trị nằm ở việc dataset đã được biến thành API huấn luyện ổn định. Đây là lý do những tổ chức không sở hữu nhiều robot vẫn có thể tạo giá trị lớn nếu họ trở thành nơi chuẩn hóa, index, validate và phân phối dữ liệu.

Lớp 3: Synthetic demonstration trong Isaac Lab

Dữ liệu humanoid không chỉ đến từ robot thật. Isaac Lab Mimic cho phép sinh demonstration trong simulation, rồi train policy bằng Robomimic hoặc post-train VLA. Tài liệu Isaac Lab có ví dụ rất cụ thể: tải dataset generated_dataset_gr1_nut_pouring.hdf5, đặt trong IsaacLab/datasets/, dung lượng khoảng 12GB, chứa 1000 demonstration của humanoid GR1 thực hiện task pouring/placing, được sinh bằng Isaac Lab Mimic cho Isaac-NutPour-GR1T2-Pink-IK-Abs-Mimic-v0. Nguồn: Isaac Lab teleoperation and imitation learning docs.

Task này không chỉ là "nhặt vật". Robot phải nhặt beaker đỏ, đổ vật bên trong vào tô vàng, thả beaker vào thùng xanh, rồi đặt tô vàng lên cân trắng. Success criteria cũng là multi-condition: beaker ở bin, nut ở bowl, bowl trên scale. Đây là dữ liệu rất có giá trị để train visuomotor policy, vì nó kết hợp perception, manipulation và sequence dài.

Pipeline Isaac Lab rút gọn:

./isaaclab.sh -p scripts/imitation_learning/isaaclab_mimic/generate_dataset.py \
  --device cpu \
  --headless \
  --enable_pinocchio \
  --enable_cameras \
  --rendering_mode balanced \
  --task Isaac-NutPour-GR1T2-Pink-IK-Abs-Mimic-v0 \
  --generation_num_trials 1000 \
  --num_envs 5 \
  --input_file ./datasets/dataset_annotated_gr1_nut_pouring.hdf5 \
  --output_file ./datasets/generated_dataset_gr1_nut_pouring.hdf5

Về ownership, synthetic data làm câu hỏi phức tạp hơn. Không có teleoperator trực tiếp trong từng frame cuối, nhưng vẫn có nhiều lớp đóng góp: người tạo scene USD, người model hóa robot GR1, người viết task, người annotate subtask, người chạy generation, người sở hữu asset object, người trả tiền GPU, và license của simulator/toolchain.

Một cách phân loại thực dụng:

Thành phần synthetic data Giá trị tạo ra Bên kiểm soát thường gặp
Robot asset và controller Khả năng action hợp lệ, joint limit, dynamics Robot vendor, lab, simulator vendor
Scene/object asset Độ đa dạng môi trường và vật thể Asset owner, simulation team
Task definition Reward, success condition, subtask graph Research team hoặc benchmark owner
Demonstration generator Số lượng rollout, quality filter Người chạy Isaac Lab Mimic
Output HDF5 Dữ liệu train trực tiếp Người lưu trữ và cấp quyền truy cập
Conversion sang LeRobot Khả năng dùng với VLA stack Dataset engineer hoặc model team

Nói ngắn gọn: synthetic dataset không "miễn phí quyền sở hữu" chỉ vì nó không quay từ người thật. Nó thay rủi ro privacy bằng rủi ro license, asset provenance và benchmark leakage.

Lớp 4: Dataset hệ sinh thái như Humanoid Everyday

Humanoid Everyday cho thấy một hướng khác: dataset không còn là folder file đơn lẻ, mà là hệ sinh thái gồm data, code, policy analysis và cloud evaluation. Abstract arXiv mô tả dataset này có 10.3k trajectories, hơn 3 triệu frames, 260 tasks trên 7 nhóm, gồm RGB, depth, LiDAR, tactile, annotation ngôn ngữ và pipeline teleoperation có giám sát con người. Paper cũng giới thiệu cloud-based evaluation platform để researcher deploy policy trong môi trường kiểm soát và nhận feedback hiệu năng. Nguồn: Humanoid Everyday arXiv 2510.08807.

Repo Humanoid Everyday bổ sung chi tiết thực dụng: dữ liệu được ghi trên Unitree G1 và H1 ở 30Hz, task gồm loco-manipulation, basic manipulation, tool use, deformable object, articulated object và human-robot interaction. Modalities thấp chiều gồm joint states, IMU, odometry/kinematics, hand pressure sensor trên G1, teleoperator hands/head actions từ Apple Vision Pro và inverse kinematics data. Modalities cao chiều gồm egocentric RGB 480x640x3, depth 480x640 và LiDAR khoảng 6k điểm mỗi step. Repo cũng cung cấp dataloader và script chuyển sang LeRobot. Nguồn: physical-superintelligence-lab/Humanoid-Everyday.

Điểm mới nằm ở cloud evaluation. Khi một nhóm giữ robot thật và cho cộng đồng gửi policy tới benchmark, họ không chỉ là dataset host. Họ trở thành evaluation platform owner. Họ có thể kiểm soát:

Lớp evaluation Dữ liệu phát sinh Giá trị
Input stream từ robot thật RGB/depth/state hiện tại Cho phép policy chạy không cần sở hữu robot
Action trả về từ policy Command, latency, failure mode Có thể đo phong cách điều khiển của model
Video rollout Bằng chứng thành công/thất bại Tạo leaderboard, paper, demo
Metric và protocol Success rate, time, safety reset Quyết định ai được xem là tốt nhất
Log vận hành Crash, timeout, intervention Dữ liệu quý cho debugging và productization

Trong thế giới humanoid, evaluation data có thể quý gần bằng training data. Lý do đơn giản: train offline nhìn loss đẹp chưa đủ. Humanoid thật có balance, contact, latency, nhiệt motor, safety intervention và vật thể lệch khỏi vị trí chuẩn. Ai sở hữu benchmark thật có thể nhìn thấy failure distribution của rất nhiều model mà không nhất thiết công khai toàn bộ log.

Bản đồ năm lớp quyền kiểm soát giá trị

Từ bốn ví dụ trên, ta có thể xây một bản đồ chung:

Layer 0: Physical world
  people, robot, room, object, lighting, safety rig

Layer 1: Raw capture
  HDF5, SVO2, ROS bag, camera stream, VR hand/head tracking

Layer 2: Processed dataset
  synchronized HDF5, LeRobot Parquet + MP4/images, metadata, stats

Layer 3: Model training
  sampling code, normalization, checkpoints, VLA adapters, finetune recipes

Layer 4: Evaluation and deployment
  cloud benchmark, rollout videos, success metrics, inference API, logs

Và đây là bảng phân loại "ai kiểm soát giá trị":

Tác nhân Họ kiểm soát gì? Giá trị họ giữ Rủi ro nếu bị bỏ qua
Hardware owner Robot, camera, VR headset, workspace, safety rig Khả năng tạo raw data độc quyền Dataset không tái lập được nếu mất quyền vào robot
Teleoperator Kỹ năng thao tác, chiến lược sửa lỗi, tốc độ, style Demonstration quality và long-tail behavior Hợp đồng/consent mơ hồ, bias thao tác không được ghi nhận
Dataset host Storage, schema, license, version, access Khả năng phân phối và chuẩn hóa data Downstream user không biết provenance hoặc hạn chế license
Model trainer Recipe, compute, checkpoint, normalization, model card Biến dataset thành capability Model có thể hấp thụ dữ liệu nhạy cảm hoặc vi phạm điều khoản
Cloud evaluation platform Robot benchmark, protocol, logs, leaderboard Đo hiệu năng thật, thấy failure của nhiều model Benchmark trở thành gatekeeper không minh bạch

Bản đồ này giúp bạn đọc các thông báo dataset một cách tỉnh táo hơn. Khi một paper nói "we release data", hãy hỏi: release raw hay processed? Có video gốc hay chỉ state/action? Có license thương mại không? Có cho tải toàn bộ hay phải dùng cloud API? Có log evaluation không? Có task spreadsheet nhưng không có asset provenance không? Có conversion script không? Có stats normalization không?

Checklist cho người mới khi nhìn một dataset humanoid

Bạn có thể dùng checklist sau trước khi train bất kỳ policy nào:

1. Dataset đến từ robot thật, người thật, simulation hay hỗn hợp?
2. File gốc là gì: HDF5, SVO2, ROS bag, Parquet, MP4, PNG, PCD?
3. Camera và state/action đã đồng bộ timestamp chưa?
4. Task text có nhất quán với episode không?
5. Action space là joint target, end-effector pose, base velocity hay mixed action?
6. Có metadata về FPS, robot type, camera intrinsics, stats normalization không?
7. License cho phép research, commercial, redistribution hay fine-tuning model đóng?
8. Có dữ liệu người, mặt, giọng nói, không gian riêng tư hoặc thông tin nhà máy không?
9. Có benchmark/evaluation platform riêng không?
10. Model trainer có được giữ checkpoint và log rollout hay phải chia sẻ lại?

Nếu trả lời không rõ ở các câu 2, 3, 5 và 7, bạn chưa thực sự biết mình đang dùng gì. Với robot arm cố định, sai vài chi tiết có thể chỉ làm policy kém. Với humanoid, sai action space hoặc timestamp có thể làm robot mất thăng bằng, va chạm hoặc phá hỏng dữ liệu đánh giá.

Kết luận: dữ liệu humanoid là một chuỗi quyền kiểm soát

Năm 2026, lợi thế trong humanoid robotics không chỉ nằm ở số lượng robot. Nó nằm ở khả năng đi từ file thô đáng tin, qua format train chuẩn, tới checkpoint mạnh, rồi chứng minh bằng evaluation trên robot thật. Mỗi bước tạo thêm giá trị và cũng dịch chuyển quyền kiểm soát.

EgoHumanoid nhắc ta rằng human egocentric data có thể mở rộng môi trường vượt xa teleoperation trong lab, nhưng cần alignment. LeRobotDataset nhắc ta rằng schema và metadata có thể biến file rời rạc thành tài sản train được. Isaac Lab nhắc ta rằng synthetic demonstration có provenance riêng. Humanoid Everyday nhắc ta rằng dataset lớn cộng cloud evaluation có thể trở thành hạ tầng benchmark, không chỉ là một download link.

Bài tiếp theo trong series sẽ đi sâu vào VR teleoperation và dữ liệu người điều khiển: khi một người đeo headset để điều khiển G1/H1, phần nào là "dữ liệu robot", phần nào là "dữ liệu lao động", và vì sao điều này ảnh hưởng trực tiếp tới giá trị của VLA stack.

Nguồn kỹ thuật tham khảo

Chủ đề Nguồn
EgoHumanoid framework OpenDriveLab/EgoHumanoid, arXiv 2602.10106
EgoHumanoid raw episode_*.hdf5 + episode_*.svo2 Human Data Processing Pipeline
LeRobotDataset v3 Hugging Face docs, LeRobot v3 blog
Isaac Lab GR1 nut-pouring dataset Isaac Lab imitation learning docs
Humanoid Everyday arXiv 2510.08807, GitHub repo

Bài viết liên quan

NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Khám phá VnRobo

Bài viết liên quan

Teleop VR: từ PICO/ZED đến HDF5
humanoid

Teleop VR: từ PICO/ZED đến HDF5

10/6/202618 phút đọc
NT
Stack VLA: dữ liệu đến triển khai
humanoid

Stack VLA: dữ liệu đến triển khai

10/6/202613 phút đọc
NT
Căn góc nhìn người sang robot
humanoid

Căn góc nhìn người sang robot

10/6/202616 phút đọc
NT