Open vs Closed: License, Data Moat Và Tương Lai 2027

Bài cuối: open data không đồng nghĩa với free-for-commercial

Sáu bài trước của series đã đi từ bản đồ dữ liệu humanoid, teleoperation, mining video người, synthetic pipeline, scaling law cho VLA, đến chiến lược thu data cho team nhỏ. Nếu bạn mới đọc từ đây, nên quay lại Bài 1: bức tranh cuộc chiến dữ liệu, Bài 5: VLA data scaling, và Bài 6: data strategy cho team nhỏ. Bài cuối này trả lời câu hỏi chiến lược nhất: team robotics nên đặt cược vào open dataset, closed proprietary data, hay mô hình lai?

Câu trả lời ngắn: năm 2026, "open" là lợi thế học nhanh, nhưng không phải lúc nào cũng là quyền dùng thương mại. Một dataset có thể tải công khai, có paper đẹp, có code mẫu, nhưng license lại cấm dùng cho sản phẩm kiếm tiền. Ngược lại, một dataset có license thương mại rõ ràng nhưng không public vẫn có thể là tài sản mạnh hơn rất nhiều nếu nó đến từ fleet robot thật, môi trường thật, failure thật, và có quyền khai thác sạch.

Bài này không phải tư vấn pháp lý. Nó là checklist kỹ thuật và chiến lược cho kỹ sư, founder, và team AI robotics: đọc license như thế nào, rủi ro nằm ở đâu khi train model thương mại, vì sao Tesla/Figure có data moat khép kín, hệ open như LeRobot/AgiBot mạnh ở điểm nào, và cục diện năm 2027 có thể đi về đâu.

Robotics lab and control systems

Một bảng license đủ để tránh sai lầm lớn

Trước khi bàn moat, hãy nhìn vào ba nhóm dữ liệu lớn được nhắc nhiều trong embodied AI:

Dataset / hệ sinh thái	Trạng thái truy cập	License chính	Ý nghĩa với model thương mại
AgiBot World / AgiBotWorld2026	Public download, kích thước rất lớn	CC BY-NC-SA 4.0	Không dùng cho mục đích thương mại nếu chưa có quyền riêng. ShareAlike làm tăng rủi ro khi phát hành derivative.
Open X-Embodiment	Bộ hợp nhất nhiều dataset từ nhiều lab	Repo Apache-2.0; từng subset cần kiểm tra metadata và license gốc	Không được suy luận rằng toàn bộ dữ liệu đều commercial-safe. Cần audit từng subset trước khi train sản phẩm.
Ego4D	Cần review và ký license agreement, credentials có thời hạn	Contract/license agreement riêng, không phải CC đơn giản	Cho phép train/develop model trong phạm vi "Purpose", kể cả commercial product development trong các điều khoản được nêu, nhưng không được phân phối lại database hoặc cấp quyền truy cập cho bên thứ ba.
LeRobot / Hugging Face datasets	Tooling mở, dataset do cộng đồng publish	Tùy dataset card: Apache-2.0, MIT, CC-BY, CC-BY-NC, custom	LeRobot là format/tooling. Quyền thương mại phụ thuộc dataset cụ thể, không phụ thuộc thư viện.

Điểm quan trọng: license của code không tự động là license của data. Repo Open X-Embodiment có Apache-2.0 cho code, nhưng README cũng trỏ tới spreadsheet metadata cho từng dataset đóng góp. Nếu bạn dùng toàn bộ mixture để train VLA thương mại, bạn phải biết từng subset đến từ đâu, license nào, có dữ liệu người hay không, có restriction downstream hay không.

Với AgiBot World, nguồn chính thức ghi rõ data và code trong repo theo CC BY-NC-SA 4.0. Creative Commons giải thích NonCommercial là không dùng cho mục đích chủ yếu hướng tới lợi thế thương mại hoặc bù đắp tiền bạc, và ShareAlike yêu cầu phần đóng góp phái sinh được phân phối theo cùng license. Với startup, điều này rất thực tế: bạn có thể dùng AgiBot để học, benchmark, làm research nội bộ, nhưng nếu checkpoint đó đi vào sản phẩm trả phí thì cần license thương mại riêng hoặc cần loại bỏ dữ liệu NC khỏi training lineage.

Với Ego4D, cách tư duy khác hẳn. Bạn không chỉ "download public dataset"; bạn ký một agreement. Tài liệu start-here nói người dùng phải review và chấp nhận license trước khi nhận AWS credentials. Bản license draft nêu rằng người dùng giữ IP với software, algorithm, machine learning model, annotation, technique, technology phát triển từ việc dùng database và các thứ đó có thể dùng cho academic, commercial hoặc noncommercial purposes, miễn là tuân thủ agreement. Nhưng cùng agreement cũng cấm bán, cho thuê, sublicence, chuyển giao, hoặc cung cấp quyền truy cập database cho bên thứ ba. Nghĩa là quyền train model không đồng nghĩa với quyền đóng gói raw video vào sản phẩm hoặc upload lại lên hub.

Ba câu hỏi phải hỏi trước khi train commercial model

Khi đọc license, đừng dừng ở câu "open-source" hoặc "publicly available". Hãy trả lời ba câu:

Câu hỏi	Vì sao quan trọng	Ví dụ rủi ro
Dataset có cho commercial use không?	Đây là chặn đầu tiên. Nếu NonCommercial, sản phẩm kiếm tiền rất rủi ro.	Dùng CC BY-NC-SA data để train policy bán cho nhà máy.
Model weights có bị xem là derivative/adaptation không?	Luật về model trained on data vẫn chưa ổn định giữa các jurisdiction. Contract có thể quy định rộng hơn copyright.	Không thể chứng minh checkpoint không học từ subset bị cấm.
Bạn có audit trail không?	Khi gọi vốn, bán enterprise, hoặc bị hỏi bởi khách hàng, bạn cần chứng minh nguồn dữ liệu.	Không biết version dataset, subset, ngày tải, license snapshot.

Một checklist tối thiểu cho team robotics:

dataset_audit:
  dataset_name: "example_robot_dataset"
  source_url: "https://..."
  downloaded_at: "2026-06-12"
  license_name: "CC-BY-4.0 / Apache-2.0 / custom"
  commercial_use_allowed: true
  contains_humans_or_faces: false
  contains_customer_ip: false
  redistribution_allowed: false
  model_training_allowed: true
  attribution_required: true
  sharealike_or_copyleft: false
  subsets_excluded:
    - "all CC-BY-NC subsets"
    - "all datasets without clear robot action logs"
  legal_review_required_before:
    - "shipping paid product"
    - "publishing checkpoint"
    - "enterprise contract"

Nhiều team nhỏ bỏ qua bước này vì thấy "chỉ là research". Nhưng embodied AI có một khác biệt lớn với LLM text: dữ liệu robot thường đi kèm video nhà xưởng, nhà riêng, mặt người, giọng nói, hành động sinh hoạt, logo, layout production line, hoặc object theo NDA. License chỉ là một lớp. Privacy, consent, trade secret, export control, và contract khách hàng là các lớp khác.

Hệ quả pháp lý khi train model thương mại

Vấn đề khó nhất không phải đọc tên license. Vấn đề khó là training tạo ra thứ gì về mặt pháp lý.

Trong phần mềm truyền thống, nếu bạn copy code GPL vào product, rủi ro tương đối rõ. Trong AI, model weights không copy dataset theo cách con người nhìn thấy, nhưng có thể ghi nhớ, tái tạo, hoặc encode pattern từ dữ liệu. Với robot policy, rủi ro còn thực dụng hơn: một policy học từ data nhà máy A có thể vô tình encode layout, process, hoặc object đặc thù của nhà máy đó. Nếu data có người, model có thể học gesture, face, voice, hoặc thông tin nhận dạng.

Với commercial robotics, nên chia rủi ro thành bốn tầng:

Tầng	Câu hỏi	Cách giảm rủi ro
Input data	Có quyền dùng dữ liệu này để train không?	License audit, contract với data provider, loại bỏ NC/unknown subsets.
Training mixture	Có trộn dữ liệu sạch và không sạch không?	Dataset manifest theo version, hash file, experiment tracking.
Model artifact	Có được phát hành checkpoint không?	Chỉ publish checkpoint nếu license cho phép, có attribution, không chứa data bị cấm.
Product behavior	Robot có lộ thông tin hoặc tái tạo nội dung nhạy cảm không?	Eval privacy, red-team, policy filters, giữ customer data riêng.

Thực hành an toàn là tách ba loại checkpoint:

research_checkpoint:
  có thể dùng dataset NC hoặc custom research license
  không dùng cho khách hàng trả phí
  không deploy vào product

commercial_pretrain_checkpoint:
  chỉ dùng dataset commercial-safe
  có audit trail đầy đủ
  được phép dùng trong sản phẩm

customer_finetune_checkpoint:
  train trên data của khách hàng
  quyền sử dụng theo contract riêng
  không trộn ngược vào model chung nếu chưa có quyền

Đây là điểm startup thường sai: dùng một checkpoint "thử nghiệm" để demo cho khách hàng, demo thành công, rồi quên rằng checkpoint đó chứa lineage từ dataset NonCommercial. Sáu tháng sau, khi cần enterprise due diligence, không ai nhớ model đã train từ đâu. Với robot, hãy quản lý data lineage nghiêm như quản lý dependency license trong SaaS.

Data moat khép kín: Tesla và Figure không chỉ xây robot

Tesla và Figure thường được nhìn như công ty hardware humanoid. Nhưng trong cuộc chiến data, hardware chỉ là cảm biến và actuator cho flywheel.

Tesla nói rõ trên trang AI & Robotics rằng họ phát triển và deploy autonomy at scale trong xe, robot và hơn nữa, với vision, planning và inference hardware. Optimus chưa có public dataset theo kiểu AgiBot, nhưng lợi thế chiến lược của Tesla là văn hóa hệ thống khép kín: tự làm phần cứng, tự làm inference chip, tự làm data engine, tự làm deployment loop. Nếu Optimus được deploy trong nhà máy Tesla, mỗi failure, mỗi pause, mỗi intervention của operator có thể trở thành tín hiệu training nội bộ. Đó là dữ liệu đối thủ không thể tải từ Hugging Face.

Figure cũng đi theo hướng closed fleet data. Bài Helix logistics của Figure mô tả model VLA nội bộ, low-level visuo-motor policy, và kết quả chỉ với 8 giờ demonstration data được curated tốt cho package manipulation. Project Go-Big còn quan trọng hơn: Figure nói họ dùng egocentric human video thu thập trong môi trường nhà thật của Brookfield để train Helix cho navigation, không cần robot demonstration cho kết quả ban đầu. Dù bạn tin mức độ generalization đến đâu, thông điệp chiến lược rất rõ: Figure muốn biến deployment, partnership real estate, và human video collection thành data engine riêng.

Closed moat mạnh vì ba lý do:

Lợi thế	Vì sao khó copy
Fleet feedback thật	Public dataset thường là snapshot. Fleet data là dòng chảy liên tục từ robot thật.
Task distribution riêng	Tesla factory, Figure logistics, home partnership có distribution không giống lab public.
Label tự nhiên từ vận hành	Intervention, success/failure, recovery, operator correction là label có giá trị cao.

Nhược điểm của closed moat là chi phí cực lớn. Bạn phải sản xuất robot, deploy, bảo trì, vận hành teleop/human support, xây data pipeline, xử lý privacy, và train model liên tục. Vì vậy closed data moat là trò chơi của công ty có vốn, supply chain, và khách hàng triển khai thật.

Hệ open: LeRobot, AgiBot và sức mạnh của chuẩn chung

Hệ open không thắng bằng bí mật. Hệ open thắng bằng tốc độ lan truyền tri thức.

LeRobot làm một việc rất cơ bản nhưng cực kỳ quan trọng: chuẩn hóa cách record, lưu, stream, visualize, và train robot datasets. Tài liệu LeRobotDataset v3 mô tả format thống nhất cho multimodal time-series data, sensorimotor signals, multi-camera video, metadata, và streaming trực tiếp từ Hugging Face Hub. Khi nhiều lab dùng cùng format, cộng đồng có thể viết dataloader, visualizer, evaluator, và training script tái sử dụng được.

AgiBot ở vị trí lạ hơn. Dataset public rất lớn, nhưng license CC BY-NC-SA làm nó giống "research commons" hơn là "commercial commons". Điều này vẫn cực kỳ giá trị. Nó giúp sinh viên, lab, và startup học pipeline, benchmark policy, phân tích task distribution, thử model architecture, và xây tool chuyển đổi format. Nhưng nếu mục tiêu là sản phẩm trả phí, AgiBot không thể là nền thương mại mặc định nếu chưa có thỏa thuận riêng.

Open X-Embodiment là bài học khác: một mixture lớn từ nhiều embodiment giúp nghiên cứu cross-embodiment và RT-X, nhưng chính vì là mixture, license và quality cũng là mixture. Đây là tương lai của open robotics: không phải một dataset duy nhất thống trị, mà là nhiều nguồn dữ liệu được chuẩn hóa metadata, kèm license rõ, để người train chọn subset phù hợp.

So sánh nhanh:

Mô hình	Điểm mạnh	Điểm yếu	Ai nên dùng
Closed fleet	Dữ liệu độc quyền, sát sản phẩm, feedback liên tục	Tốn vốn, khó tuyển vận hành, rủi ro privacy cao	Tesla/Figure/1X/Unitree và công ty có deployment thật
Research open	Học nhanh, benchmark tốt, cộng đồng đông	License có thể cấm thương mại, data distribution không khớp sản phẩm	Lab, sinh viên, startup giai đoạn prototype
Commercial open	Có quyền thương mại, attribution rõ, dễ audit	Ít hơn, đắt hơn hoặc cần governance tốt	Startup muốn ship product
Hybrid	Dùng open để pretrain/test tooling, dùng data riêng để finetune	Quản lý lineage phức tạp	Đa số team thực dụng

Data marketplace: điều còn thiếu của robotics năm 2026

Trong LLM, thị trường data đã quen với web crawl, licensed text, synthetic instruction, human preference, và enterprise documents. Robotics vẫn thiếu một marketplace trưởng thành vì dữ liệu không chỉ là file. Một robot dataset tốt cần:

Thành phần	Tại sao cần
Video đa camera	Observation cho VLA, debug occlusion và context.
State/action đồng bộ	Không có action log thì video chỉ hữu ích cho pretraining perception.
Robot metadata	Embodiment, joint order, gripper, camera pose, control frequency.
Task và success label	Biết episode thành công hay fail, instruction là gì.
Consent và privacy metadata	Đặc biệt với egocentric human video, nhà riêng, nơi làm việc.
License machine-readable	Training pipeline tự loại subset không phù hợp.
Eval split chuẩn	Không chỉ train data, mà có benchmark để so policy.

Data marketplace robotics năm 2027 có thể không giống "mua file zip". Nó sẽ giống "mua quyền dùng một distribution":

Package handling data:
  robot: dual-arm mobile manipulator
  environment: warehouse conveyor
  episodes: 50,000
  modalities: front camera, wrist camera, joint state, gripper force
  labels: barcode visible, grasp success, reorientation success
  license: commercial training allowed, no redistribution
  privacy: no faces, no customer labels, sanitized backgrounds
  eval: 2,000 held-out episodes across unseen packages

Điểm then chốt là provenance. Người mua không chỉ hỏi "bao nhiêu giờ video?" mà hỏi "ai sở hữu quyền?", "operator có consent không?", "có dữ liệu khách hàng không?", "có được train foundation model không?", "có được bán checkpoint không?", "có phải chia sẻ lại derivative không?".

Dự báo 2027: open thắng tooling, closed thắng deployment

Tôi không nghĩ 2027 sẽ có một phe thắng tuyệt đối. Cục diện hợp lý hơn là phân tầng:

Tầng	Bên có lợi thế năm 2027
Tooling, format, visualizer, dataloader	Open ecosystem, đặc biệt LeRobot/Hugging Face và các chuẩn tương tự.
Foundation model research	Open-weight và research datasets, nhưng license commercial vẫn phân mảnh.
Production manipulation trong domain cụ thể	Closed fleet data từ công ty deploy robot thật.
Human video pretraining	Các bên có partnership data lớn và consent rõ.
Enterprise robotics	Hybrid: open tooling, commercial-safe pretraining, customer-specific finetune.

Năm 2027, "chúng tôi có model VLA" sẽ không còn đủ. Câu hỏi thật sẽ là:

Model này train trên data nào?
License có cho commercial deployment không?
Robot đã thấy distribution giống khách hàng chưa?
Khi fail, dữ liệu fail có quay lại training loop không?
Team có thể chứng minh lineage trước legal/procurement không?

Điều này biến data governance thành năng lực kỹ thuật cốt lõi. Một team robotics tốt không chỉ có ML engineer và controls engineer. Họ cần data engineer hiểu Parquet/video/time sync, ML ops engineer hiểu checkpoint lineage, product engineer hiểu customer workflow, và người phụ trách legal/compliance đủ sớm để không phá sản vì dùng sai dataset.

Chiến lược thực dụng cho team Việt Nam

Nếu bạn là startup hoặc lab ở Việt Nam, đừng cố copy Tesla. Bạn không có fleet Optimus. Cũng đừng chỉ tải AgiBot rồi nghĩ mình có data moat. Bạn có lợi thế khác: chọn domain hẹp, hiểu môi trường địa phương, thu dữ liệu sát bài toán, và dùng open tooling để đi nhanh.

Nếu cần bắt đầu từ stack thực hành, hãy đọc thêm hướng dẫn LeRobot Humanoid $2500 và bài GR00T N1 + G1 data collection. Hai bài đó đi gần hơn vào phần setup, còn bài này tập trung vào quyền sử dụng và chiến lược data moat.

Một chiến lược hợp lý:

Giai đoạn	Nên dùng open gì	Nên tự thu gì	License posture
Học pipeline	LeRobot, Open X-Embodiment samples, AgiBot research	20-50 episode toy task	Không commercialize checkpoint research.
Prototype sản phẩm	LeRobotDataset format, model open-weight commercial-safe	100-500 episode task thật	Chỉ dùng dataset commercial-safe cho checkpoint demo bán hàng.
Pilot khách hàng	Open tooling, pretrained sạch	Data từ site khách hàng theo contract	Không trộn customer data vào model chung nếu chưa có quyền.
Scale	Marketplace hoặc data partnership	Fleet failure/intervention data	Data lineage và audit bắt buộc.

Nói đơn giản:

Open để học nhanh.
Closed để tạo moat.
Commercial-safe để ship.
Hybrid để sống sót.

Tổng kết series: ai sở hữu dữ liệu robot humanoid?

Sau 7 bài, câu trả lời không phải một cái tên duy nhất.

AgiBot sở hữu một trong những research datasets lớn nhất và hữu ích nhất cho cộng đồng, nhưng license NonCommercial giới hạn đường đi sản phẩm. Open X-Embodiment sở hữu ý tưởng cross-embodiment mixture và chuẩn hợp nhất, nhưng người dùng phải audit từng subset. Ego4D cho thấy human video có thể là tài sản pretraining cực lớn, nhưng quyền truy cập đi qua license agreement chặt chẽ. LeRobot không sở hữu mọi dữ liệu, nhưng có thể sở hữu lớp chuẩn hóa khiến dữ liệu robot dễ chia sẻ hơn. Tesla, Figure và các công ty humanoid deployment sở hữu thứ khó public nhất: failure distribution từ robot thật trong môi trường thật.

Vì vậy, người thắng năm 2027 có thể không phải bên có nhiều terabyte nhất. Người thắng là bên kết hợp được bốn thứ:

Thành phần	Vì sao quyết định
Dữ liệu đúng distribution	Robot phải học việc khách hàng thật cần.
Quyền sử dụng sạch	Không thể scale enterprise với dataset mù license.
Vòng lặp deploy-feedback	Data mới phải quay lại model nhanh.
Chuẩn mở đủ tốt	Tooling chung giúp giảm chi phí và thu hút cộng đồng.

Cuộc chiến data humanoid vì thế không phải "open chống closed". Nó là cuộc chiến giữa những team hiểu data như tài sản sản phẩm và những team chỉ xem data như file training. Open giúp ngành học nhanh hơn. Closed giúp công ty tạo lợi thế. License quyết định liệu lợi thế đó có thể biến thành sản phẩm thật hay không.

Nguồn tham khảo

Bài cuối: open data không đồng nghĩa với free-for-commercial

Robotics lab and control systems

Một bảng license đủ để tránh sai lầm lớn

Trước khi bàn moat, hãy nhìn vào ba nhóm dữ liệu lớn được nhắc nhiều trong embodied AI:

Dataset / hệ sinh thái	Trạng thái truy cập	License chính	Ý nghĩa với model thương mại
AgiBot World / AgiBotWorld2026	Public download, kích thước rất lớn	CC BY-NC-SA 4.0	Không dùng cho mục đích thương mại nếu chưa có quyền riêng. ShareAlike làm tăng rủi ro khi phát hành derivative.
Open X-Embodiment	Bộ hợp nhất nhiều dataset từ nhiều lab	Repo Apache-2.0; từng subset cần kiểm tra metadata và license gốc	Không được suy luận rằng toàn bộ dữ liệu đều commercial-safe. Cần audit từng subset trước khi train sản phẩm.
Ego4D	Cần review và ký license agreement, credentials có thời hạn	Contract/license agreement riêng, không phải CC đơn giản	Cho phép train/develop model trong phạm vi "Purpose", kể cả commercial product development trong các điều khoản được nêu, nhưng không được phân phối lại database hoặc cấp quyền truy cập cho bên thứ ba.
LeRobot / Hugging Face datasets	Tooling mở, dataset do cộng đồng publish	Tùy dataset card: Apache-2.0, MIT, CC-BY, CC-BY-NC, custom	LeRobot là format/tooling. Quyền thương mại phụ thuộc dataset cụ thể, không phụ thuộc thư viện.

Ba câu hỏi phải hỏi trước khi train commercial model

Khi đọc license, đừng dừng ở câu "open-source" hoặc "publicly available". Hãy trả lời ba câu:

Câu hỏi	Vì sao quan trọng	Ví dụ rủi ro
Dataset có cho commercial use không?	Đây là chặn đầu tiên. Nếu NonCommercial, sản phẩm kiếm tiền rất rủi ro.	Dùng CC BY-NC-SA data để train policy bán cho nhà máy.
Model weights có bị xem là derivative/adaptation không?	Luật về model trained on data vẫn chưa ổn định giữa các jurisdiction. Contract có thể quy định rộng hơn copyright.	Không thể chứng minh checkpoint không học từ subset bị cấm.
Bạn có audit trail không?	Khi gọi vốn, bán enterprise, hoặc bị hỏi bởi khách hàng, bạn cần chứng minh nguồn dữ liệu.	Không biết version dataset, subset, ngày tải, license snapshot.

Một checklist tối thiểu cho team robotics:

dataset_audit:
  dataset_name: "example_robot_dataset"
  source_url: "https://..."
  downloaded_at: "2026-06-12"
  license_name: "CC-BY-4.0 / Apache-2.0 / custom"
  commercial_use_allowed: true
  contains_humans_or_faces: false
  contains_customer_ip: false
  redistribution_allowed: false
  model_training_allowed: true
  attribution_required: true
  sharealike_or_copyleft: false
  subsets_excluded:
    - "all CC-BY-NC subsets"
    - "all datasets without clear robot action logs"
  legal_review_required_before:
    - "shipping paid product"
    - "publishing checkpoint"
    - "enterprise contract"

Hệ quả pháp lý khi train model thương mại

Vấn đề khó nhất không phải đọc tên license. Vấn đề khó là training tạo ra thứ gì về mặt pháp lý.

Với commercial robotics, nên chia rủi ro thành bốn tầng:

Tầng	Câu hỏi	Cách giảm rủi ro
Input data	Có quyền dùng dữ liệu này để train không?	License audit, contract với data provider, loại bỏ NC/unknown subsets.
Training mixture	Có trộn dữ liệu sạch và không sạch không?	Dataset manifest theo version, hash file, experiment tracking.
Model artifact	Có được phát hành checkpoint không?	Chỉ publish checkpoint nếu license cho phép, có attribution, không chứa data bị cấm.
Product behavior	Robot có lộ thông tin hoặc tái tạo nội dung nhạy cảm không?	Eval privacy, red-team, policy filters, giữ customer data riêng.

Thực hành an toàn là tách ba loại checkpoint:

research_checkpoint:
  có thể dùng dataset NC hoặc custom research license
  không dùng cho khách hàng trả phí
  không deploy vào product

commercial_pretrain_checkpoint:
  chỉ dùng dataset commercial-safe
  có audit trail đầy đủ
  được phép dùng trong sản phẩm

customer_finetune_checkpoint:
  train trên data của khách hàng
  quyền sử dụng theo contract riêng
  không trộn ngược vào model chung nếu chưa có quyền

Data moat khép kín: Tesla và Figure không chỉ xây robot

Tesla và Figure thường được nhìn như công ty hardware humanoid. Nhưng trong cuộc chiến data, hardware chỉ là cảm biến và actuator cho flywheel.

Closed moat mạnh vì ba lý do:

Lợi thế	Vì sao khó copy
Fleet feedback thật	Public dataset thường là snapshot. Fleet data là dòng chảy liên tục từ robot thật.
Task distribution riêng	Tesla factory, Figure logistics, home partnership có distribution không giống lab public.
Label tự nhiên từ vận hành	Intervention, success/failure, recovery, operator correction là label có giá trị cao.

Hệ open: LeRobot, AgiBot và sức mạnh của chuẩn chung

Hệ open không thắng bằng bí mật. Hệ open thắng bằng tốc độ lan truyền tri thức.

So sánh nhanh:

Mô hình	Điểm mạnh	Điểm yếu	Ai nên dùng
Closed fleet	Dữ liệu độc quyền, sát sản phẩm, feedback liên tục	Tốn vốn, khó tuyển vận hành, rủi ro privacy cao	Tesla/Figure/1X/Unitree và công ty có deployment thật
Research open	Học nhanh, benchmark tốt, cộng đồng đông	License có thể cấm thương mại, data distribution không khớp sản phẩm	Lab, sinh viên, startup giai đoạn prototype
Commercial open	Có quyền thương mại, attribution rõ, dễ audit	Ít hơn, đắt hơn hoặc cần governance tốt	Startup muốn ship product
Hybrid	Dùng open để pretrain/test tooling, dùng data riêng để finetune	Quản lý lineage phức tạp	Đa số team thực dụng

Data marketplace: điều còn thiếu của robotics năm 2026

Thành phần	Tại sao cần
Video đa camera	Observation cho VLA, debug occlusion và context.
State/action đồng bộ	Không có action log thì video chỉ hữu ích cho pretraining perception.
Robot metadata	Embodiment, joint order, gripper, camera pose, control frequency.
Task và success label	Biết episode thành công hay fail, instruction là gì.
Consent và privacy metadata	Đặc biệt với egocentric human video, nhà riêng, nơi làm việc.
License machine-readable	Training pipeline tự loại subset không phù hợp.
Eval split chuẩn	Không chỉ train data, mà có benchmark để so policy.

Data marketplace robotics năm 2027 có thể không giống "mua file zip". Nó sẽ giống "mua quyền dùng một distribution":

Package handling data:
  robot: dual-arm mobile manipulator
  environment: warehouse conveyor
  episodes: 50,000
  modalities: front camera, wrist camera, joint state, gripper force
  labels: barcode visible, grasp success, reorientation success
  license: commercial training allowed, no redistribution
  privacy: no faces, no customer labels, sanitized backgrounds
  eval: 2,000 held-out episodes across unseen packages

Dự báo 2027: open thắng tooling, closed thắng deployment

Tôi không nghĩ 2027 sẽ có một phe thắng tuyệt đối. Cục diện hợp lý hơn là phân tầng:

Tầng	Bên có lợi thế năm 2027
Tooling, format, visualizer, dataloader	Open ecosystem, đặc biệt LeRobot/Hugging Face và các chuẩn tương tự.
Foundation model research	Open-weight và research datasets, nhưng license commercial vẫn phân mảnh.
Production manipulation trong domain cụ thể	Closed fleet data từ công ty deploy robot thật.
Human video pretraining	Các bên có partnership data lớn và consent rõ.
Enterprise robotics	Hybrid: open tooling, commercial-safe pretraining, customer-specific finetune.

Năm 2027, "chúng tôi có model VLA" sẽ không còn đủ. Câu hỏi thật sẽ là:

Model này train trên data nào?
License có cho commercial deployment không?
Robot đã thấy distribution giống khách hàng chưa?
Khi fail, dữ liệu fail có quay lại training loop không?
Team có thể chứng minh lineage trước legal/procurement không?

Chiến lược thực dụng cho team Việt Nam

Một chiến lược hợp lý:

Giai đoạn	Nên dùng open gì	Nên tự thu gì	License posture
Học pipeline	LeRobot, Open X-Embodiment samples, AgiBot research	20-50 episode toy task	Không commercialize checkpoint research.
Prototype sản phẩm	LeRobotDataset format, model open-weight commercial-safe	100-500 episode task thật	Chỉ dùng dataset commercial-safe cho checkpoint demo bán hàng.
Pilot khách hàng	Open tooling, pretrained sạch	Data từ site khách hàng theo contract	Không trộn customer data vào model chung nếu chưa có quyền.
Scale	Marketplace hoặc data partnership	Fleet failure/intervention data	Data lineage và audit bắt buộc.

Nói đơn giản:

Open để học nhanh.
Closed để tạo moat.
Commercial-safe để ship.
Hybrid để sống sót.

Tổng kết series: ai sở hữu dữ liệu robot humanoid?

Sau 7 bài, câu trả lời không phải một cái tên duy nhất.

Vì vậy, người thắng năm 2027 có thể không phải bên có nhiều terabyte nhất. Người thắng là bên kết hợp được bốn thứ:

Thành phần	Vì sao quyết định
Dữ liệu đúng distribution	Robot phải học việc khách hàng thật cần.
Quyền sử dụng sạch	Không thể scale enterprise với dataset mù license.
Vòng lặp deploy-feedback	Data mới phải quay lại model nhanh.
Chuẩn mở đủ tốt	Tooling chung giúp giảm chi phí và thu hút cộng đồng.

Open vs Closed: License, Data Moat Và Tương Lai 2027

Bài cuối: open data không đồng nghĩa với free-for-commercial

Một bảng license đủ để tránh sai lầm lớn

Ba câu hỏi phải hỏi trước khi train commercial model

Hệ quả pháp lý khi train model thương mại

Data moat khép kín: Tesla và Figure không chỉ xây robot

Hệ open: LeRobot, AgiBot và sức mạnh của chuẩn chung

Data marketplace: điều còn thiếu của robotics năm 2026

Dự báo 2027: open thắng tooling, closed thắng deployment

Chiến lược thực dụng cho team Việt Nam

Tổng kết series: ai sở hữu dữ liệu robot humanoid?

Nguồn tham khảo

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

Teleoperation: Thu Thập Dữ Liệu Robot Thực Tế

Data Strategy: Team Nhỏ Nên Thu Thập Dữ Liệu Gì?

Human Video Mining: Khai Thác Video Người Cho Robot

Open vs Closed: License, Data Moat Và Tương Lai 2027

Bài cuối: open data không đồng nghĩa với free-for-commercial

Một bảng license đủ để tránh sai lầm lớn

Ba câu hỏi phải hỏi trước khi train commercial model

Hệ quả pháp lý khi train model thương mại

Data moat khép kín: Tesla và Figure không chỉ xây robot

Hệ open: LeRobot, AgiBot và sức mạnh của chuẩn chung

Data marketplace: điều còn thiếu của robotics năm 2026

Dự báo 2027: open thắng tooling, closed thắng deployment

Chiến lược thực dụng cho team Việt Nam

Tổng kết series: ai sở hữu dữ liệu robot humanoid?

Nguồn tham khảo

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

Teleoperation: Thu Thập Dữ Liệu Robot Thực Tế

Data Strategy: Team Nhỏ Nên Thu Thập Dữ Liệu Gì?

Human Video Mining: Khai Thác Video Người Cho Robot