VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam
VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
  1. Trang chủ
  2. Blog
  3. Dexora: VLA Mã Nguồn Mở cho Robot Hai Tay Khéo Léo
manipulationvlabimanualdexterous-manipulationdiffusion-policyrobot-learningopen-sourceicra-2026mujoco

Dexora: VLA Mã Nguồn Mở cho Robot Hai Tay Khéo Léo

Khám phá Dexora — VLA mã nguồn mở đầu tiên chuyên biệt cho robot thao tác hai tay 36 bậc tự do, kết hợp exoskeleton và Apple Vision Pro để đạt 66.7% thành công trên tác vụ khéo léo.

Nguyễn Anh Tuấn15 tháng 6, 202612 phút đọc
Dexora: VLA Mã Nguồn Mở cho Robot Hai Tay Khéo Léo

Robot thao tác hai tay khéo léo — hai cánh tay phối hợp nhịp nhàng, mười ngón tay điều khiển độc lập từng khớp — vẫn là một trong những bài toán khó nhất của robotics hiện đại. Trong khi các hệ thống VLA (Vision-Language-Action) thế hệ mới như π0 hay GR00T N1 đã chứng minh tiềm năng lớn, chúng chủ yếu tập trung vào gripper đơn giản hoặc tác vụ không đòi hỏi kỹ năng tay tinh tế.

Dexora — công bố tại ICRA 2026 — lần đầu tiên mang kiến trúc VLA hiện đại đến thế giới của bimanual dexterous manipulation: hai tay robot với 36 bậc tự do, có thể dùng bút viết, xé chuối, mở nắp chai, hay cán bột mì. Quan trọng hơn, toàn bộ hệ thống — mã nguồn, dataset, model weights — được phát hành hoàn toàn mã nguồn mở.

Khuyến nghị công cụ

Stack train/deploy cho VLA

Train trên cloud/workstation, deploy bản tối ưu xuống Jetson hoặc robot computer.

Cloud GPU for VLA / policy training Dùng cho imitation learning, diffusion policy, RL và fine-tuning model robotics. Xem cloud GPU → NVIDIA Jetson Orin NX / Orin Nano Máy deploy edge cho perception, logging và inference đã tối ưu. Xem Jetson → Hugging Face / robotics dataset hosting Lưu dataset, checkpoint và model card để workflow LeRobot/VLA dễ chia sẻ hơn. Xem platform →

Tại sao Bimanual High-DoF lại khó?

Hãy so sánh hai nhiệm vụ: nhặt một hộp và đặt vào rổ (gripper đơn giản), với việc dùng ngón tay vặn nắp chai trong khi tay kia giữ cố định thân chai. Sự khác biệt không chỉ về phần cứng mà về toàn bộ chuỗi thách thức:

1. Không gian hành động cực kỳ cao chiều: Một robot hai tay có dexterous hand cần điều khiển đồng thời 36 khớp — 6 khớp mỗi cánh tay × 2 + 12 khớp mỗi bàn tay × 2. So với gripper 2-DoF thông thường, không gian hành động này lớn hơn 9 lần.

2. Phối hợp hai tay là tổ hợp cực phức tạp: Hai tay không hoạt động độc lập. Khi tay trái giữ đối tượng, tay phải phải điều chỉnh lực tinh tế theo trạng thái thực tế của tay trái — quan hệ phụ thuộc này khó mô hình hóa.

3. Thu thập dữ liệu là cơn ác mộng: Teleoperation cho gripper thì có thể dùng joystick hay SpaceMouse. Nhưng để dạy robot cách dùng ngón tay cái xoay nắp chai, bạn cần thiết bị ghi lại chuyển động ngón tay người với độ chính xác millimet.

Dexora giải quyết cả ba vấn đề này theo cách thực sự sáng tạo.

Kiến trúc Hệ Thống

Kiến trúc Dexora — policy network, teleoperation pipeline và MuJoCo digital twin — nguồn: dexoravla.github.io
Kiến trúc Dexora — policy network, teleoperation pipeline và MuJoCo digital twin — nguồn: dexoravla.github.io

Trái tim của Dexora là một Diffusion Transformer với quy mô đáng kể:

  • 28 transformer layers
  • Hidden size 1024, 16 attention heads
  • Tổng tham số: ~300M (ước tính tương đương GR00T N1 scale nhỏ)

Observation Space — Robot thấy gì?

Mỗi bước inference, model nhận vào:

  • 4 camera RGB (đa góc nhìn): stereo head camera, left wrist camera, right wrist camera — mỗi camera encode qua SigLIP (vision encoder của Google)
  • 36-D proprioception: góc khớp hiện tại của toàn bộ dual-arm + dual-hand, log ở 20 Hz
  • Language instruction: mô tả tác vụ ("pick up the pen and write the letter A") encode qua T5

SigLIP được chọn vì nó được pretrain trên dữ liệu image-text scale lớn với contrastive loss, cho visual features mạnh hơn ViT-B/16 thông thường trong các bài toán thao tác.

Action Space — Robot làm gì?

Output là vector 36 chiều liên tục:

  • Dual 6-DoF arms: 6 góc khớp × 2 cánh tay
  • Dual XHAND 12-DoF hands: 12 khớp ngón tay × 2 bàn tay — bao gồm các khớp lateral ab/adduction của ngón cái và ngón trỏ, không giống các dexterous hand đơn giản hơn

Model không output một action duy nhất mà output action chunk (chuỗi nhiều timestep) theo phong cách ACT/Diffusion Policy, sau đó dùng DPMSolver++ để denoising nhanh hơn DDPM tiêu chuẩn.

Hệ Thống Thu Thập Dữ Liệu: Exoskeleton + Vision Pro

Đây là phần sáng tạo nhất của Dexora. Thay vì một thiết bị teleoperation duy nhất, nhóm tác giả thiết kế hệ thống hybrid tách biệt hai phần:

Phần 1: Exoskeleton Backpack cho Cánh Tay

Người vận hành đeo một bộ exoskeleton backpack tùy chế trên lưng và vai. Exoskeleton này capture chuyển động của vai, khuỷu tay, và cổ tay với mapping trực tiếp sang joint-space của robot — không qua inverse kinematics, nên latency thấp và không có vấn đề singularity.

Ưu điểm so sách với SpaceMouse hay 6-DoF haptic device: exoskeleton cho chuyển động tự nhiên hơn vì người vận hành thực sự dùng cơ thể của mình, không phải học cách điều khiển gián tiếp.

Phần 2: Apple Vision Pro cho Bàn Tay

Trong khi exoskeleton lo phần cánh tay, Apple Vision Pro lo phần ngón tay. Vision Pro có khả năng track markerless 3D skeleton của bàn tay với độ chính xác cao — mà không cần đeo găng tay cảm biến hay dán marker.

Dexora retarget chuyển động bàn tay từ hand skeleton của người sang không gian khớp 12-DoF của XHAND, với joint limit enforcement để đảm bảo robot không vặn ngón tay quá giới hạn.

MuJoCo Digital Twin

Toàn bộ teleoperation session đồng thời drive cả robot thật và MuJoCo simulation y hệt nhau. Điều này cho phép thu thập synthetic data với chi phí cực thấp — sau khi thiết kế task trong sim, có thể tạo 100K episodes mà không cần người vận hành.

Dataset: Quy Mô và Đa Dạng

Real-world dataset của Dexora — 347 đối tượng, 200 tác vụ, 40.5 giờ dữ liệu — nguồn: dexoravla.github.io
Real-world dataset của Dexora — 347 đối tượng, 200 tác vụ, 40.5 giờ dữ liệu — nguồn: dexoravla.github.io

Dexora phát hành hai tập dữ liệu trên Hugging Face:

Synthetic Dataset (Coming Soon)

  • 100,000 episodes trong MuJoCo
  • 6.5 triệu frames, 361 giờ
  • 200 tác vụ, 297 đối tượng từ Objaverse-XL (auto-processed)
  • Tập trung: basic manipulation families — pick-place, assemble/disassemble, articulated objects

Real-World Dataset (Đã Phát Hành)

  • 12,200 episodes teleoperation
  • 2.92 triệu frames, 40.5 giờ
  • 200 tác vụ đa dạng
  • 347 đối tượng thuộc 17 semantic categories (từ bút viết, chai nước, đến đồ ăn như chuối và bột mì)
  • 20% tác vụ yêu cầu kỹ năng dexterous thực sự (sử dụng ngón tay tinh tế)

Phân phối tác vụ: Pick-and-place 55%, Dexterous manipulation 20%, Assembly 15%, Articulated objects 10%.

Dataset follow LIBERO-2.1 standard format với multi-view RGB observations, proprioception, action commands, và 5 variants ngôn ngữ per task.

Training Pipeline: Ba Giai Đoạn

Đây là điểm kỹ thuật quan trọng nhất — Dexora không chỉ fine-tune trên dữ liệu thô mà có một data-quality-aware training recipe gồm 3 giai đoạn:

Giai Đoạn 1: Pretraining trên Synthetic Data

Train Diffusion Transformer từ đầu trên 100K synthetic trajectories (6.5M frames) trong 100,000 steps, dùng 8×A100 GPUs. Giai đoạn này giúp model học được basic manipulation behaviors — cách tiếp cận đối tượng, cách grip, spatial reasoning cơ bản — mà không cần dữ liệu thật.

Giai Đoạn 2: Training Offline Quality Discriminator

Vấn đề lớn với dữ liệu teleoperation: không phải episode nào cũng tốt. Người vận hành mệt mỏi, thao tác sai, hoặc đơn giản là episode thất bại. Nếu train trên tất cả dữ liệu thô → model học cả "cách làm sai".

Dexora train một offline discriminator để score chất lượng từng episode:

# Tiêu chí pre-screening
# 1. Kinematic smoothness: RMS acceleration và jerk trên 36 chiều
Aep = rms(acceleration(joints))  # qua tất cả timestep
Jep = rms(jerk(joints))

# 2. Giữ lại episodes xấu nhất (thực ra là tốt nhất — low acc/jerk)
S_pre = {τ: τ ∈ Low-20%(Aep) AND τ ∈ Low-20%(Jep)}
# ~18% episodes pass filter ban đầu

# 3. Validate qua open-loop replay
# Positive set: S_pre episodes được replay thành công
# Unlabeled set: phần còn lại

Discriminator dùng positive-unlabeled (PU) binary cross-entropy với η=0.5, nhận state + observations + language + action chunks + log-π (từ pretrained policy) để output quality score.

Giai Đoạn 3: Post-Training với Quality Weighting

Fine-tune policy pretrained trên 10K real episodes, nhưng mỗi episode được weight theo discriminator score:

ℒπ = Σᵢ wᵢ · ||εθ(oᵢ, aᵢ, t) − ε||²₂

Episodes chất lượng cao → weight cao → model học nhiều hơn từ chúng. Episodes kém chất lượng → weight thấp → ít ảnh hưởng. Kết quả: trajectory mượt mà hơn đáng kể (jerk giảm từ 0.043 xuống 0.032), ít oscillation ở khớp.

Kết Quả: Robot Học Được Gì?

Demo Dexora: robot dùng bàn tay dexterous để viết — nguồn: dexoravla.github.io
Demo Dexora: robot dùng bàn tay dexterous để viết — nguồn: dexoravla.github.io

Basic Task Suite (12 tác vụ)

Model Avg Success
Dexora 89.6%
GR00T N1 82.1%
π0 50.4%
Diffusion Policy 34.2%

Dexora đạt ≥90% trên 7/12 tác vụ cơ bản, vượt GR00T N1 ~7.5 điểm phần trăm — đáng kể khi GR00T N1 là baseline mạnh nhất hiện tại cho manipulation.

Dexterous Manipulation Suite (6 tác vụ)

Đây là benchmark thực sự thử thách: dùng bút (Use Pen), lấy sách (Fetch Book), thái hành (Cut Leek), xếp đĩa (Place Plates), cán bột (Rough Dough), mở nắp chai (Twist Cap).

Demo Dexora: robot mở nắp chai bằng 12-DoF dexterous hand — nguồn: dexoravla.github.io
Demo Dexora: robot mở nắp chai bằng 12-DoF dexterous hand — nguồn: dexoravla.github.io

Model Avg Success
Dexora 66.7%
GR00T N1 51.7%
π0 26.7%
Diffusion Policy 6.7%

Khoảng cách với GR00T N1 trên dexterous tasks (+15 điểm) lớn hơn nhiều so với basic tasks (+7.5 điểm) — chứng minh rằng training recipe của Dexora đặc biệt hiệu quả cho các tác vụ đòi hỏi finger dexterity.

Ablation: Data Quality Discriminator có Thật Sự Cần Thiết?

Cấu hình Success Rate Jerk RMS
Không có discriminator 85% 0.043
Có discriminator 95% 0.032

+10 điểm thành công và trajectory mượt mà hơn hẳn — chứng minh discriminator không chỉ là "nice to have" mà là thành phần cốt lõi.

Cross-Embodiment Generalization

Một trong những ưu điểm lớn nhất của Dexora là khả năng transfer sang các embodiment khác bằng simple action dimension projection — không cần retrain từ đầu:

  • Franka Panda (single-arm gripper): Project 36D action xuống 7D arm joints
  • ALOHA (dual-arm gripper): Project sang 2 × 6D arm
  • Unitree G1 + Inspire Hand (single-arm dexterous): Project sang 6D arm + 12D hand

Trên 3 embodiment này, Dexora duy trì >85% performance so với khi train native — đây là kết quả ấn tượng so với các VLA thế hệ trước vốn rất cứng nhắc về embodiment.

Nếu bạn quan tâm cross-embodiment transfer cho bimanual setup, hãy đọc thêm RDT2 và khả năng zero-shot cross-embodiment bimanual.

Cài Đặt và Sử Dụng Dexora

Yêu Cầu Phần Cứng

  • Minimum: 1× GPU A100 40GB (hoặc 2× A6000 48GB) cho inference
  • Training: 8× A100 80GB (pretraining stage)
  • Robot: Dual-arm platform với XHAND (hoặc embodiment tương thích)

Cài Đặt

# Clone repo
git clone https://github.com/ZZongzheng0918/Dexora.git
cd Dexora

# Cài đặt dependencies
conda create -n dexora python=3.10
conda activate dexora
pip install -r requirements.txt

# Download pretrained model weights
# (Xem hướng dẫn chi tiết trên dexoravla.github.io)

Download Dataset

Dataset thật (12.2K episodes) đã phát hành trên Hugging Face:

pip install huggingface_hub
python -c "
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id='Dexora/real-world-dataset',
    repo_type='dataset',
    local_dir='./data/real'
)
"

Dataset follow LIBERO-2.1 format, mỗi episode chứa:

  • Multi-view RGB frames (4 cameras, H5 format)
  • Proprioception logs (36-D joint angles, 20Hz)
  • Language annotation (5 variants)
  • Action sequences

Inference Demo

from dexora import DexoraPolicy

# Load model
policy = DexoraPolicy.from_pretrained("Dexora/dexora-base")
policy.eval()

# Inference loop
obs = {
    "images": camera_frames,      # dict of 4 camera views
    "proprioception": joint_angles,  # (36,) float32
    "language": "pick up the pen and write the letter A"
}

with torch.no_grad():
    actions = policy.predict(obs)  # (T, 36) action chunk

Xem thêm cách thiết lập training pipeline VLA từ đầu trong hướng dẫn FineVLA cho dual-arm robot.

So Sánh với Các VLA Bimanual Khác

Nếu bạn đang xây dựng hệ thống bimanual dexterous, đây là bức tranh tổng quan:

Hệ thống DoF Open Source Dataset Dexterous Score
Dexora 36 ✅ Full 12.2K real + 100K sim 66.7%
GR00T N1 Variable ⚠️ Weights only Proprietary 51.7%
π0 Up to 52 ✅ ~5K 26.7%
Diffusion Policy Varies ✅ Task-specific 6.7%
RDT-2 Varies ✅ Diverse bimanual N/A

Dexora nổi bật ở sự kết hợp: cao DoF + mã nguồn mở hoàn toàn + dataset quy mô lớn + kết quả SOTA.

Đọc thêm về series thao tác hai tay trong Bimanual Manipulation: Từ Kinh Điển Đến VLA và so sánh chi tiết các dexterous hand trong hướng dẫn RUKA V2.

Tổng Kết

Dexora đánh dấu một bước ngoặt quan trọng: lần đầu tiên cộng đồng robotics có một VLA mã nguồn mở, có dataset thật quy mô lớn, và kết quả benchmark đáng tin cậy cho bài toán bimanual dexterous manipulation. Ba đóng góp chính đáng nhớ:

  1. Hybrid teleoperation (exoskeleton + Vision Pro): Giải pháp thực tế nhất hiện tại để thu thập dữ liệu dexterous chất lượng cao
  2. Quality discriminator: Không phải mọi data đều bằng nhau — lọc và weight dữ liệu theo chất lượng là chìa khóa
  3. Cross-embodiment projection: Một model, nhiều robot — giá trị thực tế cao

Với dataset, weights, và code đã phát hành, Dexora là điểm khởi đầu lý tưởng cho bất kỳ ai muốn nghiên cứu hoặc deploy bimanual dexterous manipulation trong năm 2026.

Paper: Dexora: Open-source VLA for High-DoF Bimanual Dexterity — ICRA 2026 GitHub: github.com/ZZongzheng0918/Dexora Project: dexoravla.github.io Dataset: huggingface.co/Dexora


Bài Viết Liên Quan

  • Bimanual Manipulation Series: Từ Kinh Điển Đến VLA
  • RUKA V2: Bàn Tay Robot Mã Nguồn Mở Cho Dexterous Manipulation
  • VLA Models: Tổng Quan Về Vision-Language-Action
NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Khám phá VnRobo

Fleet MonitoringROS 2 IntegrationAMR Solutions

Bài viết liên quan

Tutorial
Build RUKA-v2: bàn tay robot 16-DOF
ruka-v2dexterous-manipulationrobot-hand
manipulation

Build RUKA-v2: bàn tay robot 16-DOF

Hướng dẫn build RUKA-v2, bàn tay robot open-source tendon-driven cho teleoperation, dexterous manipulation và policy learning.

6/6/202615 phút đọc
NT
Tutorial
Chạy FineVLA cho robot dual-arm
vlafinevladual-arm
manipulation

Chạy FineVLA cho robot dual-arm

Hướng dẫn FineVLA: ý tưởng paper, kiến trúc, cài đặt, training, inference và kết quả cho VLA dual-arm.

5/6/202613 phút đọc
NT
Tutorial
Lên hai tay: UMI bimanual pipeline với scripts chính thức
umibimanualtwo-armPhần 5
manipulation

Lên hai tay: UMI bimanual pipeline với scripts chính thức

Scale UMI lên bimanual: in 2 unit, thu demo với cả hai tay, dùng demo_real_bimanual_robots.py và eval_real_bimanual_umi.py chính thức, train với config umi_bimanual. Cụ thể, step-by-step, không guesswork.

5/6/20267 phút đọc
NT
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam