Vì sao phần 5 nói về video người?
Bốn phần đầu của series đi từ bản đồ sở hữu dữ liệu tới teleoperation, alignment và dữ liệu tổng hợp. Bài 1 đặt khung "ai tạo giá trị ở lớp dữ liệu nào?". Bài 3 nói về view alignment và action alignment, tức cách biến quan sát của người thành thứ robot có thể học. Bài 4 chuyển sang synthetic data, nơi demonstration người được khuếch đại bằng mô phỏng.
Bài 5 quay lại một nguồn dữ liệu dễ bị đánh giá thấp: video người. Nếu một kỹ sư cầm camera RGBD quay người đang quét bàn, xếp trứng, mở ngăn kéo hoặc sắp xếp kệ gia vị, video đó chỉ là tư liệu tham khảo, hay đã là dữ liệu huấn luyện robot? Nếu một model trích pose tay từ video, xóa tay người rồi render tay robot vào ảnh, dataset mới thuộc về ai? Nếu một VLA như pi0.5 chỉ co-finetune trên video góc nhìn người và dữ liệu robot liên quan, video người có biến thành "robot data" không?
Hai case study tốt nhất để trả lời là Phantom và Physical Intelligence pi0.5 human-to-robot transfer. Phantom, trong paper Training Robots Without Robots Using Only Human Videos, chủ động biến RGBD human demonstrations thành observation-action pairs của robot: dùng hand-pose estimator để lấy action, dùng inpainting để xóa tay người, rồi render robot arm vào observation. Physical Intelligence, trong bài nghiên cứu Emergence of Human to Robot Transfer in Vision-Language-Action Models, làm điều gần như ngược lại: họ không thiết kế một cơ chế transfer riêng, mà co-finetune pi0.5 với human video như một embodiment nữa, action là vị trí tay 3D, và để khả năng alignment nổi lên khi pretraining robot đủ đa dạng. Bài pi0.5 gốc, π0.5: a Vision-Language-Action Model with Open-World Generalization, cũng giải thích vì sao co-training đa nguồn là trung tâm của hệ thống.
Nếu bạn cần thêm ngữ cảnh về pi0.5 trong workflow thực hành, đọc EXPO-FT: RL online cho VLA π0.5. Nếu muốn xem góc tooling open-source quanh VLA, đọc LeRobot và pi0-FAST training.
Nếu bạn đang xây dataset humanoid cho startup, câu hỏi thực dụng không phải là "video người có hữu ích không?". Câu trả lời là có. Câu hỏi đúng hơn là: ở bước nào video người đổi trạng thái pháp lý và kỹ thuật: raw media, training data, derived robot data, hay benchmark evidence?
Hai pipeline trong một bảng
| Điểm so sánh | Phantom | pi0.5 human-to-robot |
|---|---|---|
| Input chính | Video RGBD người làm task từ góc nhìn thứ ba | Video egocentric người làm task, cộng với robot data liên quan |
| Cách tạo action | Ước lượng pose tay bằng HaMeR, refine bằng depth/SAM2/ICP, rồi map sang pose end-effector robot | Gán action cho human data bằng vị trí tay 3D, xử lý như một embodiment trong co-finetuning |
| Cách xử lý observation | Xóa tay người bằng segmentation + inpainting, render target robot arm vào ảnh | Không cần render robot vào ảnh; dựa vào VLA đã pretrain để học alignment người-robot |
| Dữ liệu robot thật để train task | Không cần robot demo cho target task | Có robot data liên quan; human video bổ sung scenario hoặc task concept thiếu |
| Model/policy | Imitation learning policy, paper dùng Diffusion Policy và deploy zero-shot | VLA pi0.5 co-finetuned trên mixture human + robot |
| Ý nghĩa ownership | Tạo ra robot observation-action pairs phái sinh từ video người | Human video vẫn là data source riêng, nhưng giá trị tăng nhờ robot pretraining mixture |
| Rủi ro chính | Hand-pose error, occlusion, embodiment mismatch, derived-data rights | Benchmark leakage, consent của egocentric video, quyền với mixture và representation learned |
Beginner nên đọc bảng này như sau. Phantom cố gắng chuyển đổi dữ liệu: từ "người trong video" sang "robot trong ảnh và action robot". pi0.5 cố gắng hấp thụ dữ liệu: giữ human video là human video, nhưng train một model đã đủ lớn để nhận ra sự tương đồng giữa thao tác người và thao tác robot.
Phantom: biến video người thành robot demonstration
Phantom bắt đầu từ một giả định rõ ràng: ta có dataset D_human gồm nhiều video demonstration. Mỗi demo là chuỗi ảnh từ camera RGBD, người dùng ngón cái và ngón trỏ để làm task dạng pinch grasp. Không có action label robot sẵn. Mục tiêu là tạo D_robot, trong đó mỗi frame người I_h,t được đổi thành cặp (I_r,t, a_r,t): observation nhìn giống robot và action robot tương ứng.
Pipeline kỹ thuật có thể tóm tắt như sau:
RGBD human video
-> hand pose estimation with HaMeR
-> SAM2 hand mask + depth point cloud
-> ICP refinement for 3D hand pose
-> convert hand pose to robot end-effector action
-> segment and inpaint human arm
-> render target robot arm from known camera extrinsics
-> overlay rendered robot with depth-aware occlusion
-> train imitation policy on edited robot observation-action pairs
Điểm quan trọng là Phantom không chỉ dùng video người làm pretraining visual. Nó tạo action label. Paper nói HaMeR dự đoán 21 keypoints và mesh tay 778 vertices. Vì monocular hand pose dễ sai về pose tuyệt đối, nhóm dùng SAM2 để lấy mask tay, depth image để lấy point cloud tay, rồi dùng ICP để align mesh với point cloud. Pose cuối được convert sang frame robot bằng camera extrinsics. Action robot có dạng position, orientation và gripper state.
Observation cũng bị chỉnh mạnh. Phantom dùng SAM2 để segment vùng tay/người, E2FGVI hoặc inpainting đơn giản để xóa tay, rồi render model robot target vào đúng viewpoint. Ở test time, họ cũng overlay robot render lên observation robot thật để giảm domain shift giữa ảnh train và ảnh deploy. Vì vậy dataset đầu ra không còn là video người nguyên bản. Nó là dữ liệu robot phái sinh: nhìn giống robot, có action robot, nhưng nguồn gốc vẫn là hành vi người.
Về kết quả, paper báo cáo success rate lên tới 92% ở một số task và cho thấy Hand Inpaint/Hand Mask tốt hơn nhiều so với Red Line hoặc Vanilla. Một chi tiết ownership rất đáng chú ý: Phantom kết luận cách data editing đơn giản của họ tạo ra robot observation-action pairs có thể tích hợp vào dataset cho generalist policies. Nói cách khác, sau khi qua pipeline, video người đã được đóng gói thành loại dữ liệu mà các VLA hoặc policy robot có thể tiêu thụ trực tiếp.
pi0.5: để transfer nổi lên từ co-training
Physical Intelligence đặt câu hỏi khác: nếu VLA đủ lớn và được pretrain trên robot data đủ đa dạng, liệu nó có tự học được cách dùng human videos không? Họ tập trung vào egocentric human videos, tức video quay bằng camera đeo trên người. Loại dữ liệu này rẻ và tự nhiên hơn teleoperation robot, nhưng có domain gap rõ ràng: người và robot khác hình dạng, khác chuyển động, khác camera, khác kinematics.
Recipe của họ rất đơn giản trên bề mặt:
pretrained pi0.5
+ relevant robot data
+ egocentric human videos
+ actions represented as 3D hand positions
-> human-robot co-finetuning
-> evaluate on scenarios shown only in human demonstrations
Trong sorting eggs, robot data có kỹ năng đặt trứng vào carton; human data cho biết rule mới: trứng màu nào vào carton nào. Trong dresser tidying, robot data có nhiều cảnh phòng ngủ, còn human data chỉ ra cách sắp xếp đúng trong dresser cụ thể: trang sức vào hộp, dây buộc tóc vào organizer. Trong spice rack, robot cần hiểu kệ gia vị và bố trí của căn bếp chưa thấy. Đây không chỉ là manipulation primitive; nó là task semantics được truyền từ video người.
Điểm thử quan trọng nhất là pretraining diversity. Bài human-to-robot của PI so sánh các checkpoint qua các mức 0%, 25%, 50%, 75%, 100%, và 100% + Xemb. Diễn giải beginner:
| Mức pretraining | Cách hiểu thực dụng | Kỳ vọng khi thêm human video |
|---|---|---|
0% |
Gần như chỉ có base VLM initialization, chưa có robot pretraining đủ mạnh | Human video khó giúp vì representation người-robot tách rời |
25% |
Có ít robot data đa dạng hơn | Có thể học một phần thao tác, nhưng transfer yếu |
50% |
Robot pretraining khá hơn, nhưng chưa đủ ổn định | Một số task bắt đầu có tín hiệu |
75% |
Representation robot đa dạng hơn | Human video bắt đầu tạo gain rõ |
100% |
Full robot pretraining diversity trong setting ablation | Model hấp thụ human data tốt hơn |
100% + Xemb |
Full pi0.5 mixture có thêm cross-embodiment | Transfer mạnh nhất trong các task được báo cáo |
Con số đáng nhớ: PI báo cáo co-training với human video tạo gain lớn ở các task generalization. Spice tăng từ 32% lên 71%, Dresser từ 25% lên 50%, Bussing từ 53% lên 63%, và egg sorting từ 57% lên 78%. Riêng egg sorting rất hay cho câu hỏi ownership: robot đã biết pick/place trứng, nhưng chưa biết rule phân loại theo màu. Human video không chỉ thêm ảnh; nó thêm quy tắc task. Khi policy sort đúng hơn, phần giá trị đó đến từ người demo, từ robot pretraining, hay từ recipe co-training? Câu trả lời thực tế là cả ba.
Khi nào video người là training data?
Một video người trở thành training data khi nó đi vào objective train hoặc fine-tune, không nhất thiết phải có robot action đầy đủ. Với Phantom, thời điểm này rất rõ: sau khi hand pose được convert thành action, mỗi frame có (observation, action) và có thể train imitation policy. Với pi0.5, ranh giới mềm hơn: egocentric video được đưa vào co-finetuning như một embodiment có action là 3D hand positions. Nó không bị render thành robot, nhưng nó vẫn thay đổi gradient của model. Vì vậy nó là training data.
Checklist ngắn:
human_video_is_training_data_if:
used_in_loss_function: true
contributes_actions_or_pseudo_actions: true
influences_policy_weights: true
retained_for_retraining_or_ablation: true
shown_only_as_paper_demo: false
Nếu video chỉ được dùng để minh họa blog hoặc làm qualitative comparison, nó có thể là media evidence. Nhưng nếu video được sample trong dataloader, tạo action label, tạo embedding target, dùng cho SFT, co-finetuning, reward learning hoặc evaluation split, hãy coi nó là training/evaluation data và quản lý consent như dữ liệu thật.
Khi nào nó là derived robot data?
Video người trở thành derived robot data khi pipeline tạo ra artifact mới mô tả robot làm task, dù robot thật chưa từng làm task đó. Phantom là ví dụ sạch nhất:
| Artifact | Trạng thái dữ liệu | Vì sao |
|---|---|---|
| Raw RGBD video | Human media / human demonstration | Chứa hành vi người và có thể chứa môi trường, tay, vật thể |
| Hand pose + action labels | Pseudo-action data | Action không do robot tạo ra, nhưng được map sang robot frame |
| Inpainted image | Edited observation | Tay người bị xóa, background được suy luận |
| Rendered robot overlay | Robot-like observation | Ảnh đã mô tả target robot trong scene |
Final (I_r,t, a_r,t) |
Derived robot training data | Có thể train policy như robot demo |
| Policy checkpoint | Model artifact | Không phải dataset, nhưng hấp thụ dữ liệu phái sinh |
Điểm pháp lý/kỹ thuật: "derived robot data" không tự động xóa quyền của video gốc. Nếu một công ty thu video từ worker, chạy Phantom, rồi bán dataset robot đã edit, worker vẫn là nguồn hành vi gốc. Asset owner của robot render, người thiết kế camera setup, người viết hand-pose pipeline và người annotate task cũng đóng góp giá trị. Vì vậy dataset card nên ghi provenance.
Ví dụ manifest nội bộ:
dataset: phantom_spice_rack_robot_pairs_v1
source_media: rgbd_human_video
camera: third_person_rgbd
hand_pose: HaMeR + SAM2 + ICP
observation_editing: SAM2 mask + inpainting + rendered_robot_overlay
robot_asset: target_arm_model
human_consent: required
allowed_use:
- internal_policy_training
- aggregate_benchmark_reporting
not_allowed:
- identity_recognition
- resale_without_derived_data_review
Khi nào nó là benchmark evidence?
Video người cũng có thể chỉ là benchmark evidence: bằng chứng rằng một task/scenario tồn tại, hoặc rằng một policy được evaluate trên điều kiện do human demo chỉ ra. Với pi0.5, human videos mô tả scenarios mà robot data không phủ hết: sắp xếp dresser trong một scene cụ thể, phân loại trứng theo màu, đặt đồ đúng kệ gia vị. Policy sau co-finetuning được đánh giá trên các setting đó. Khi báo cáo "Spice 32% -> 71%" hoặc "Eggs 57% -> 78%", video người vừa là training input vừa là định nghĩa scenario. Đây là vùng dễ gây lẫn lộn.
Hãy tách ba vai trò:
| Vai trò | Câu hỏi cần hỏi | Ví dụ |
|---|---|---|
| Training input | Video có được dùng để update weights không? | pi0.5 co-finetune với human videos |
| Task specification | Video có định nghĩa rule hoặc scene test không? | Egg color sorting rule trong human demo |
| Benchmark evidence | Video/result có được dùng để chứng minh performance không? | Bảng success rate và rollout videos |
Nếu cùng một video vừa train vừa định nghĩa test scenario, phải cẩn thận với benchmark leakage. Không nhất thiết là sai: PI nói rõ họ đánh giá trên setting được minh họa trong human demonstrations. Nhưng khi bạn dùng kết quả để so sánh sản phẩm hoặc gọi là "generalization", hãy ghi rõ mức độ tiếp xúc của model với scenario.
Phantom hay pi0.5 phù hợp khi nào?
Chọn Phantom khi bạn có camera RGBD tốt, task có thể map từ pinch grasp người sang parallel gripper, và bạn muốn tạo dataset imitation learning mà không cần robot demo. Phantom hợp với nhóm chưa có nhiều robot hardware nhưng có thể quay demonstration đa dạng trong nhiều môi trường. Nó cũng hợp khi bạn cần artifact rõ ràng để audit: raw video, action extraction, edited observation, robot overlay, policy train.
Chọn pi0.5-style co-training khi bạn đã có VLA hoặc foundation policy mạnh, robot data nền đủ đa dạng, và human video chủ yếu bổ sung semantics hoặc rare scenario. Ví dụ robot biết pick/place, nhưng chưa biết rule phân loại, layout nhà mới, hay cách sắp xếp đồ theo ngữ cảnh. Lúc này video người không cần biến thành robot render; nó cần được model hiểu trong representation chung.
| Tình huống | Nên nghiêng về |
|---|---|
| Không có robot demo cho target task | Phantom |
| Có RGBD third-person và camera extrinsics tốt | Phantom |
| Task yêu cầu pinch grasp/quasi-static manipulation | Phantom |
| Đã có robot data nhiều task, nhiều embodiment | pi0.5-style co-training |
| Human video chứa rule/semantics hơn là trajectory chính xác | pi0.5-style co-training |
| Cần audit từng artifact để thương mại hóa dataset | Phantom, kèm manifest |
| Cần tận dụng representation scale của VLA | pi0.5-style co-training |
Kết luận cho sở hữu dữ liệu humanoid
Video người không còn là "dữ liệu phụ" trong robotics 2026. Với Phantom, nó có thể được chuyển thành robot observation-action pairs và train policy zero-shot mà không cần robot demo target. Với pi0.5, nó có thể trở thành nguồn knowledge mới cho VLA khi model đã có robot pretraining đủ đa dạng. Hai hướng này khác nhau, nhưng cùng dẫn tới một kết luận: quyền dữ liệu không nằm ở file cuối cùng, mà nằm trong toàn bộ chuỗi biến đổi.
Quy tắc thực dụng cho team robotics:
- Ghi rõ video là raw media, training data, derived robot data hay benchmark evidence.
- Tách quyền với hành vi người, quyền với robot asset, quyền với pipeline chỉnh sửa và quyền với checkpoint.
- Với human video, luôn lưu consent, allowed use, retention policy và khả năng xóa khỏi future training.
- Khi báo cáo benchmark, ghi rõ video người có được dùng để train, define scenario hay chỉ làm demo.
- Nếu dataset đã qua render/inpaint/action extraction, đừng gọi nó là "không có dữ liệu người"; hãy gọi đúng là dữ liệu robot phái sinh từ video người.
Phần cuối của series, Bài 6, sẽ nối các lớp này vào VLA stack: raw video, teleop, sim data, cross-embodiment data, model checkpoint và product telemetry đi qua một pipeline thương mại như thế nào.