Bài cuối: open data không đồng nghĩa với free-for-commercial
Sáu bài trước của series đã đi từ bản đồ dữ liệu humanoid, teleoperation, mining video người, synthetic pipeline, scaling law cho VLA, đến chiến lược thu data cho team nhỏ. Nếu bạn mới đọc từ đây, nên quay lại Bài 1: bức tranh cuộc chiến dữ liệu, Bài 5: VLA data scaling, và Bài 6: data strategy cho team nhỏ. Bài cuối này trả lời câu hỏi chiến lược nhất: team robotics nên đặt cược vào open dataset, closed proprietary data, hay mô hình lai?
Câu trả lời ngắn: năm 2026, "open" là lợi thế học nhanh, nhưng không phải lúc nào cũng là quyền dùng thương mại. Một dataset có thể tải công khai, có paper đẹp, có code mẫu, nhưng license lại cấm dùng cho sản phẩm kiếm tiền. Ngược lại, một dataset có license thương mại rõ ràng nhưng không public vẫn có thể là tài sản mạnh hơn rất nhiều nếu nó đến từ fleet robot thật, môi trường thật, failure thật, và có quyền khai thác sạch.
Bài này không phải tư vấn pháp lý. Nó là checklist kỹ thuật và chiến lược cho kỹ sư, founder, và team AI robotics: đọc license như thế nào, rủi ro nằm ở đâu khi train model thương mại, vì sao Tesla/Figure có data moat khép kín, hệ open như LeRobot/AgiBot mạnh ở điểm nào, và cục diện năm 2027 có thể đi về đâu.
Một bảng license đủ để tránh sai lầm lớn
Trước khi bàn moat, hãy nhìn vào ba nhóm dữ liệu lớn được nhắc nhiều trong embodied AI:
| Dataset / hệ sinh thái | Trạng thái truy cập | License chính | Ý nghĩa với model thương mại |
|---|---|---|---|
| AgiBot World / AgiBotWorld2026 | Public download, kích thước rất lớn | CC BY-NC-SA 4.0 | Không dùng cho mục đích thương mại nếu chưa có quyền riêng. ShareAlike làm tăng rủi ro khi phát hành derivative. |
| Open X-Embodiment | Bộ hợp nhất nhiều dataset từ nhiều lab | Repo Apache-2.0; từng subset cần kiểm tra metadata và license gốc | Không được suy luận rằng toàn bộ dữ liệu đều commercial-safe. Cần audit từng subset trước khi train sản phẩm. |
| Ego4D | Cần review và ký license agreement, credentials có thời hạn | Contract/license agreement riêng, không phải CC đơn giản | Cho phép train/develop model trong phạm vi "Purpose", kể cả commercial product development trong các điều khoản được nêu, nhưng không được phân phối lại database hoặc cấp quyền truy cập cho bên thứ ba. |
| LeRobot / Hugging Face datasets | Tooling mở, dataset do cộng đồng publish | Tùy dataset card: Apache-2.0, MIT, CC-BY, CC-BY-NC, custom | LeRobot là format/tooling. Quyền thương mại phụ thuộc dataset cụ thể, không phụ thuộc thư viện. |
Điểm quan trọng: license của code không tự động là license của data. Repo Open X-Embodiment có Apache-2.0 cho code, nhưng README cũng trỏ tới spreadsheet metadata cho từng dataset đóng góp. Nếu bạn dùng toàn bộ mixture để train VLA thương mại, bạn phải biết từng subset đến từ đâu, license nào, có dữ liệu người hay không, có restriction downstream hay không.
Với AgiBot World, nguồn chính thức ghi rõ data và code trong repo theo CC BY-NC-SA 4.0. Creative Commons giải thích NonCommercial là không dùng cho mục đích chủ yếu hướng tới lợi thế thương mại hoặc bù đắp tiền bạc, và ShareAlike yêu cầu phần đóng góp phái sinh được phân phối theo cùng license. Với startup, điều này rất thực tế: bạn có thể dùng AgiBot để học, benchmark, làm research nội bộ, nhưng nếu checkpoint đó đi vào sản phẩm trả phí thì cần license thương mại riêng hoặc cần loại bỏ dữ liệu NC khỏi training lineage.
Với Ego4D, cách tư duy khác hẳn. Bạn không chỉ "download public dataset"; bạn ký một agreement. Tài liệu start-here nói người dùng phải review và chấp nhận license trước khi nhận AWS credentials. Bản license draft nêu rằng người dùng giữ IP với software, algorithm, machine learning model, annotation, technique, technology phát triển từ việc dùng database và các thứ đó có thể dùng cho academic, commercial hoặc noncommercial purposes, miễn là tuân thủ agreement. Nhưng cùng agreement cũng cấm bán, cho thuê, sublicence, chuyển giao, hoặc cung cấp quyền truy cập database cho bên thứ ba. Nghĩa là quyền train model không đồng nghĩa với quyền đóng gói raw video vào sản phẩm hoặc upload lại lên hub.
Ba câu hỏi phải hỏi trước khi train commercial model
Khi đọc license, đừng dừng ở câu "open-source" hoặc "publicly available". Hãy trả lời ba câu:
| Câu hỏi | Vì sao quan trọng | Ví dụ rủi ro |
|---|---|---|
| Dataset có cho commercial use không? | Đây là chặn đầu tiên. Nếu NonCommercial, sản phẩm kiếm tiền rất rủi ro. | Dùng CC BY-NC-SA data để train policy bán cho nhà máy. |
| Model weights có bị xem là derivative/adaptation không? | Luật về model trained on data vẫn chưa ổn định giữa các jurisdiction. Contract có thể quy định rộng hơn copyright. | Không thể chứng minh checkpoint không học từ subset bị cấm. |
| Bạn có audit trail không? | Khi gọi vốn, bán enterprise, hoặc bị hỏi bởi khách hàng, bạn cần chứng minh nguồn dữ liệu. | Không biết version dataset, subset, ngày tải, license snapshot. |
Một checklist tối thiểu cho team robotics:
dataset_audit:
dataset_name: "example_robot_dataset"
source_url: "https://..."
downloaded_at: "2026-06-12"
license_name: "CC-BY-4.0 / Apache-2.0 / custom"
commercial_use_allowed: true
contains_humans_or_faces: false
contains_customer_ip: false
redistribution_allowed: false
model_training_allowed: true
attribution_required: true
sharealike_or_copyleft: false
subsets_excluded:
- "all CC-BY-NC subsets"
- "all datasets without clear robot action logs"
legal_review_required_before:
- "shipping paid product"
- "publishing checkpoint"
- "enterprise contract"
Nhiều team nhỏ bỏ qua bước này vì thấy "chỉ là research". Nhưng embodied AI có một khác biệt lớn với LLM text: dữ liệu robot thường đi kèm video nhà xưởng, nhà riêng, mặt người, giọng nói, hành động sinh hoạt, logo, layout production line, hoặc object theo NDA. License chỉ là một lớp. Privacy, consent, trade secret, export control, và contract khách hàng là các lớp khác.
Hệ quả pháp lý khi train model thương mại
Vấn đề khó nhất không phải đọc tên license. Vấn đề khó là training tạo ra thứ gì về mặt pháp lý.
Trong phần mềm truyền thống, nếu bạn copy code GPL vào product, rủi ro tương đối rõ. Trong AI, model weights không copy dataset theo cách con người nhìn thấy, nhưng có thể ghi nhớ, tái tạo, hoặc encode pattern từ dữ liệu. Với robot policy, rủi ro còn thực dụng hơn: một policy học từ data nhà máy A có thể vô tình encode layout, process, hoặc object đặc thù của nhà máy đó. Nếu data có người, model có thể học gesture, face, voice, hoặc thông tin nhận dạng.
Với commercial robotics, nên chia rủi ro thành bốn tầng:
| Tầng | Câu hỏi | Cách giảm rủi ro |
|---|---|---|
| Input data | Có quyền dùng dữ liệu này để train không? | License audit, contract với data provider, loại bỏ NC/unknown subsets. |
| Training mixture | Có trộn dữ liệu sạch và không sạch không? | Dataset manifest theo version, hash file, experiment tracking. |
| Model artifact | Có được phát hành checkpoint không? | Chỉ publish checkpoint nếu license cho phép, có attribution, không chứa data bị cấm. |
| Product behavior | Robot có lộ thông tin hoặc tái tạo nội dung nhạy cảm không? | Eval privacy, red-team, policy filters, giữ customer data riêng. |
Thực hành an toàn là tách ba loại checkpoint:
research_checkpoint:
có thể dùng dataset NC hoặc custom research license
không dùng cho khách hàng trả phí
không deploy vào product
commercial_pretrain_checkpoint:
chỉ dùng dataset commercial-safe
có audit trail đầy đủ
được phép dùng trong sản phẩm
customer_finetune_checkpoint:
train trên data của khách hàng
quyền sử dụng theo contract riêng
không trộn ngược vào model chung nếu chưa có quyền
Đây là điểm startup thường sai: dùng một checkpoint "thử nghiệm" để demo cho khách hàng, demo thành công, rồi quên rằng checkpoint đó chứa lineage từ dataset NonCommercial. Sáu tháng sau, khi cần enterprise due diligence, không ai nhớ model đã train từ đâu. Với robot, hãy quản lý data lineage nghiêm như quản lý dependency license trong SaaS.
Data moat khép kín: Tesla và Figure không chỉ xây robot
Tesla và Figure thường được nhìn như công ty hardware humanoid. Nhưng trong cuộc chiến data, hardware chỉ là cảm biến và actuator cho flywheel.
Tesla nói rõ trên trang AI & Robotics rằng họ phát triển và deploy autonomy at scale trong xe, robot và hơn nữa, với vision, planning và inference hardware. Optimus chưa có public dataset theo kiểu AgiBot, nhưng lợi thế chiến lược của Tesla là văn hóa hệ thống khép kín: tự làm phần cứng, tự làm inference chip, tự làm data engine, tự làm deployment loop. Nếu Optimus được deploy trong nhà máy Tesla, mỗi failure, mỗi pause, mỗi intervention của operator có thể trở thành tín hiệu training nội bộ. Đó là dữ liệu đối thủ không thể tải từ Hugging Face.
Figure cũng đi theo hướng closed fleet data. Bài Helix logistics của Figure mô tả model VLA nội bộ, low-level visuo-motor policy, và kết quả chỉ với 8 giờ demonstration data được curated tốt cho package manipulation. Project Go-Big còn quan trọng hơn: Figure nói họ dùng egocentric human video thu thập trong môi trường nhà thật của Brookfield để train Helix cho navigation, không cần robot demonstration cho kết quả ban đầu. Dù bạn tin mức độ generalization đến đâu, thông điệp chiến lược rất rõ: Figure muốn biến deployment, partnership real estate, và human video collection thành data engine riêng.
Closed moat mạnh vì ba lý do:
| Lợi thế | Vì sao khó copy |
|---|---|
| Fleet feedback thật | Public dataset thường là snapshot. Fleet data là dòng chảy liên tục từ robot thật. |
| Task distribution riêng | Tesla factory, Figure logistics, home partnership có distribution không giống lab public. |
| Label tự nhiên từ vận hành | Intervention, success/failure, recovery, operator correction là label có giá trị cao. |
Nhược điểm của closed moat là chi phí cực lớn. Bạn phải sản xuất robot, deploy, bảo trì, vận hành teleop/human support, xây data pipeline, xử lý privacy, và train model liên tục. Vì vậy closed data moat là trò chơi của công ty có vốn, supply chain, và khách hàng triển khai thật.
Hệ open: LeRobot, AgiBot và sức mạnh của chuẩn chung
Hệ open không thắng bằng bí mật. Hệ open thắng bằng tốc độ lan truyền tri thức.
LeRobot làm một việc rất cơ bản nhưng cực kỳ quan trọng: chuẩn hóa cách record, lưu, stream, visualize, và train robot datasets. Tài liệu LeRobotDataset v3 mô tả format thống nhất cho multimodal time-series data, sensorimotor signals, multi-camera video, metadata, và streaming trực tiếp từ Hugging Face Hub. Khi nhiều lab dùng cùng format, cộng đồng có thể viết dataloader, visualizer, evaluator, và training script tái sử dụng được.
AgiBot ở vị trí lạ hơn. Dataset public rất lớn, nhưng license CC BY-NC-SA làm nó giống "research commons" hơn là "commercial commons". Điều này vẫn cực kỳ giá trị. Nó giúp sinh viên, lab, và startup học pipeline, benchmark policy, phân tích task distribution, thử model architecture, và xây tool chuyển đổi format. Nhưng nếu mục tiêu là sản phẩm trả phí, AgiBot không thể là nền thương mại mặc định nếu chưa có thỏa thuận riêng.
Open X-Embodiment là bài học khác: một mixture lớn từ nhiều embodiment giúp nghiên cứu cross-embodiment và RT-X, nhưng chính vì là mixture, license và quality cũng là mixture. Đây là tương lai của open robotics: không phải một dataset duy nhất thống trị, mà là nhiều nguồn dữ liệu được chuẩn hóa metadata, kèm license rõ, để người train chọn subset phù hợp.
So sánh nhanh:
| Mô hình | Điểm mạnh | Điểm yếu | Ai nên dùng |
|---|---|---|---|
| Closed fleet | Dữ liệu độc quyền, sát sản phẩm, feedback liên tục | Tốn vốn, khó tuyển vận hành, rủi ro privacy cao | Tesla/Figure/1X/Unitree và công ty có deployment thật |
| Research open | Học nhanh, benchmark tốt, cộng đồng đông | License có thể cấm thương mại, data distribution không khớp sản phẩm | Lab, sinh viên, startup giai đoạn prototype |
| Commercial open | Có quyền thương mại, attribution rõ, dễ audit | Ít hơn, đắt hơn hoặc cần governance tốt | Startup muốn ship product |
| Hybrid | Dùng open để pretrain/test tooling, dùng data riêng để finetune | Quản lý lineage phức tạp | Đa số team thực dụng |
Data marketplace: điều còn thiếu của robotics năm 2026
Trong LLM, thị trường data đã quen với web crawl, licensed text, synthetic instruction, human preference, và enterprise documents. Robotics vẫn thiếu một marketplace trưởng thành vì dữ liệu không chỉ là file. Một robot dataset tốt cần:
| Thành phần | Tại sao cần |
|---|---|
| Video đa camera | Observation cho VLA, debug occlusion và context. |
| State/action đồng bộ | Không có action log thì video chỉ hữu ích cho pretraining perception. |
| Robot metadata | Embodiment, joint order, gripper, camera pose, control frequency. |
| Task và success label | Biết episode thành công hay fail, instruction là gì. |
| Consent và privacy metadata | Đặc biệt với egocentric human video, nhà riêng, nơi làm việc. |
| License machine-readable | Training pipeline tự loại subset không phù hợp. |
| Eval split chuẩn | Không chỉ train data, mà có benchmark để so policy. |
Data marketplace robotics năm 2027 có thể không giống "mua file zip". Nó sẽ giống "mua quyền dùng một distribution":
Package handling data:
robot: dual-arm mobile manipulator
environment: warehouse conveyor
episodes: 50,000
modalities: front camera, wrist camera, joint state, gripper force
labels: barcode visible, grasp success, reorientation success
license: commercial training allowed, no redistribution
privacy: no faces, no customer labels, sanitized backgrounds
eval: 2,000 held-out episodes across unseen packages
Điểm then chốt là provenance. Người mua không chỉ hỏi "bao nhiêu giờ video?" mà hỏi "ai sở hữu quyền?", "operator có consent không?", "có dữ liệu khách hàng không?", "có được train foundation model không?", "có được bán checkpoint không?", "có phải chia sẻ lại derivative không?".
Dự báo 2027: open thắng tooling, closed thắng deployment
Tôi không nghĩ 2027 sẽ có một phe thắng tuyệt đối. Cục diện hợp lý hơn là phân tầng:
| Tầng | Bên có lợi thế năm 2027 |
|---|---|
| Tooling, format, visualizer, dataloader | Open ecosystem, đặc biệt LeRobot/Hugging Face và các chuẩn tương tự. |
| Foundation model research | Open-weight và research datasets, nhưng license commercial vẫn phân mảnh. |
| Production manipulation trong domain cụ thể | Closed fleet data từ công ty deploy robot thật. |
| Human video pretraining | Các bên có partnership data lớn và consent rõ. |
| Enterprise robotics | Hybrid: open tooling, commercial-safe pretraining, customer-specific finetune. |
Năm 2027, "chúng tôi có model VLA" sẽ không còn đủ. Câu hỏi thật sẽ là:
Model này train trên data nào?
License có cho commercial deployment không?
Robot đã thấy distribution giống khách hàng chưa?
Khi fail, dữ liệu fail có quay lại training loop không?
Team có thể chứng minh lineage trước legal/procurement không?
Điều này biến data governance thành năng lực kỹ thuật cốt lõi. Một team robotics tốt không chỉ có ML engineer và controls engineer. Họ cần data engineer hiểu Parquet/video/time sync, ML ops engineer hiểu checkpoint lineage, product engineer hiểu customer workflow, và người phụ trách legal/compliance đủ sớm để không phá sản vì dùng sai dataset.
Chiến lược thực dụng cho team Việt Nam
Nếu bạn là startup hoặc lab ở Việt Nam, đừng cố copy Tesla. Bạn không có fleet Optimus. Cũng đừng chỉ tải AgiBot rồi nghĩ mình có data moat. Bạn có lợi thế khác: chọn domain hẹp, hiểu môi trường địa phương, thu dữ liệu sát bài toán, và dùng open tooling để đi nhanh.
Nếu cần bắt đầu từ stack thực hành, hãy đọc thêm hướng dẫn LeRobot Humanoid $2500 và bài GR00T N1 + G1 data collection. Hai bài đó đi gần hơn vào phần setup, còn bài này tập trung vào quyền sử dụng và chiến lược data moat.
Một chiến lược hợp lý:
| Giai đoạn | Nên dùng open gì | Nên tự thu gì | License posture |
|---|---|---|---|
| Học pipeline | LeRobot, Open X-Embodiment samples, AgiBot research | 20-50 episode toy task | Không commercialize checkpoint research. |
| Prototype sản phẩm | LeRobotDataset format, model open-weight commercial-safe | 100-500 episode task thật | Chỉ dùng dataset commercial-safe cho checkpoint demo bán hàng. |
| Pilot khách hàng | Open tooling, pretrained sạch | Data từ site khách hàng theo contract | Không trộn customer data vào model chung nếu chưa có quyền. |
| Scale | Marketplace hoặc data partnership | Fleet failure/intervention data | Data lineage và audit bắt buộc. |
Nói đơn giản:
Open để học nhanh.
Closed để tạo moat.
Commercial-safe để ship.
Hybrid để sống sót.
Tổng kết series: ai sở hữu dữ liệu robot humanoid?
Sau 7 bài, câu trả lời không phải một cái tên duy nhất.
AgiBot sở hữu một trong những research datasets lớn nhất và hữu ích nhất cho cộng đồng, nhưng license NonCommercial giới hạn đường đi sản phẩm. Open X-Embodiment sở hữu ý tưởng cross-embodiment mixture và chuẩn hợp nhất, nhưng người dùng phải audit từng subset. Ego4D cho thấy human video có thể là tài sản pretraining cực lớn, nhưng quyền truy cập đi qua license agreement chặt chẽ. LeRobot không sở hữu mọi dữ liệu, nhưng có thể sở hữu lớp chuẩn hóa khiến dữ liệu robot dễ chia sẻ hơn. Tesla, Figure và các công ty humanoid deployment sở hữu thứ khó public nhất: failure distribution từ robot thật trong môi trường thật.
Vì vậy, người thắng năm 2027 có thể không phải bên có nhiều terabyte nhất. Người thắng là bên kết hợp được bốn thứ:
| Thành phần | Vì sao quyết định |
|---|---|
| Dữ liệu đúng distribution | Robot phải học việc khách hàng thật cần. |
| Quyền sử dụng sạch | Không thể scale enterprise với dataset mù license. |
| Vòng lặp deploy-feedback | Data mới phải quay lại model nhanh. |
| Chuẩn mở đủ tốt | Tooling chung giúp giảm chi phí và thu hút cộng đồng. |
Cuộc chiến data humanoid vì thế không phải "open chống closed". Nó là cuộc chiến giữa những team hiểu data như tài sản sản phẩm và những team chỉ xem data như file training. Open giúp ngành học nhanh hơn. Closed giúp công ty tạo lợi thế. License quyết định liệu lợi thế đó có thể biến thành sản phẩm thật hay không.
Nguồn tham khảo
- AgiBot World GitHub license section
- AgiBotWorld2026 dataset card on Hugging Face
- Creative Commons CC BY-NC-SA 4.0
- Open X-Embodiment GitHub repository
- Open X-Embodiment project page
- Ego4D start-here documentation
- Ego4D license agreement draft
- LeRobotDataset v3 documentation
- Tesla AI & Robotics
- Figure Helix logistics report
- Figure Project Go-Big
- NVIDIA Isaac GR00T N1 research page