Dexora: VLA Mã Nguồn Mở cho Robot Hai Tay Khéo Léo

Robot thao tác hai tay khéo léo — hai cánh tay phối hợp nhịp nhàng, mười ngón tay điều khiển độc lập từng khớp — vẫn là một trong những bài toán khó nhất của robotics hiện đại. Trong khi các hệ thống VLA (Vision-Language-Action) thế hệ mới như π0 hay GR00T N1 đã chứng minh tiềm năng lớn, chúng chủ yếu tập trung vào gripper đơn giản hoặc tác vụ không đòi hỏi kỹ năng tay tinh tế.

Dexora — công bố tại ICRA 2026 — lần đầu tiên mang kiến trúc VLA hiện đại đến thế giới của bimanual dexterous manipulation: hai tay robot với 36 bậc tự do, có thể dùng bút viết, xé chuối, mở nắp chai, hay cán bột mì. Quan trọng hơn, toàn bộ hệ thống — mã nguồn, dataset, model weights — được phát hành hoàn toàn mã nguồn mở.

Tại sao Bimanual High-DoF lại khó?

Hãy so sánh hai nhiệm vụ: nhặt một hộp và đặt vào rổ (gripper đơn giản), với việc dùng ngón tay vặn nắp chai trong khi tay kia giữ cố định thân chai. Sự khác biệt không chỉ về phần cứng mà về toàn bộ chuỗi thách thức:

1. Không gian hành động cực kỳ cao chiều: Một robot hai tay có dexterous hand cần điều khiển đồng thời 36 khớp — 6 khớp mỗi cánh tay × 2 + 12 khớp mỗi bàn tay × 2. So với gripper 2-DoF thông thường, không gian hành động này lớn hơn 9 lần.

2. Phối hợp hai tay là tổ hợp cực phức tạp: Hai tay không hoạt động độc lập. Khi tay trái giữ đối tượng, tay phải phải điều chỉnh lực tinh tế theo trạng thái thực tế của tay trái — quan hệ phụ thuộc này khó mô hình hóa.

3. Thu thập dữ liệu là cơn ác mộng: Teleoperation cho gripper thì có thể dùng joystick hay SpaceMouse. Nhưng để dạy robot cách dùng ngón tay cái xoay nắp chai, bạn cần thiết bị ghi lại chuyển động ngón tay người với độ chính xác millimet.

Dexora giải quyết cả ba vấn đề này theo cách thực sự sáng tạo.

Kiến trúc Hệ Thống

Kiến trúc Dexora — policy network, teleoperation pipeline và MuJoCo digital twin — nguồn: dexoravla.github.io

Trái tim của Dexora là một Diffusion Transformer với quy mô đáng kể:

28 transformer layers
Hidden size 1024, 16 attention heads
Tổng tham số: ~300M (ước tính tương đương GR00T N1 scale nhỏ)

Observation Space — Robot thấy gì?

Mỗi bước inference, model nhận vào:

4 camera RGB (đa góc nhìn): stereo head camera, left wrist camera, right wrist camera — mỗi camera encode qua SigLIP (vision encoder của Google)
36-D proprioception: góc khớp hiện tại của toàn bộ dual-arm + dual-hand, log ở 20 Hz
Language instruction: mô tả tác vụ ("pick up the pen and write the letter A") encode qua T5

SigLIP được chọn vì nó được pretrain trên dữ liệu image-text scale lớn với contrastive loss, cho visual features mạnh hơn ViT-B/16 thông thường trong các bài toán thao tác.

Action Space — Robot làm gì?

Output là vector 36 chiều liên tục:

Dual 6-DoF arms: 6 góc khớp × 2 cánh tay
Dual XHAND 12-DoF hands: 12 khớp ngón tay × 2 bàn tay — bao gồm các khớp lateral ab/adduction của ngón cái và ngón trỏ, không giống các dexterous hand đơn giản hơn

Model không output một action duy nhất mà output action chunk (chuỗi nhiều timestep) theo phong cách ACT/Diffusion Policy, sau đó dùng DPMSolver++ để denoising nhanh hơn DDPM tiêu chuẩn.

Hệ Thống Thu Thập Dữ Liệu: Exoskeleton + Vision Pro

Đây là phần sáng tạo nhất của Dexora. Thay vì một thiết bị teleoperation duy nhất, nhóm tác giả thiết kế hệ thống hybrid tách biệt hai phần:

Phần 1: Exoskeleton Backpack cho Cánh Tay

Người vận hành đeo một bộ exoskeleton backpack tùy chế trên lưng và vai. Exoskeleton này capture chuyển động của vai, khuỷu tay, và cổ tay với mapping trực tiếp sang joint-space của robot — không qua inverse kinematics, nên latency thấp và không có vấn đề singularity.

Ưu điểm so sách với SpaceMouse hay 6-DoF haptic device: exoskeleton cho chuyển động tự nhiên hơn vì người vận hành thực sự dùng cơ thể của mình, không phải học cách điều khiển gián tiếp.

Phần 2: Apple Vision Pro cho Bàn Tay

Trong khi exoskeleton lo phần cánh tay, Apple Vision Pro lo phần ngón tay. Vision Pro có khả năng track markerless 3D skeleton của bàn tay với độ chính xác cao — mà không cần đeo găng tay cảm biến hay dán marker.

Dexora retarget chuyển động bàn tay từ hand skeleton của người sang không gian khớp 12-DoF của XHAND, với joint limit enforcement để đảm bảo robot không vặn ngón tay quá giới hạn.

MuJoCo Digital Twin

Toàn bộ teleoperation session đồng thời drive cả robot thật và MuJoCo simulation y hệt nhau. Điều này cho phép thu thập synthetic data với chi phí cực thấp — sau khi thiết kế task trong sim, có thể tạo 100K episodes mà không cần người vận hành.

Dataset: Quy Mô và Đa Dạng

Real-world dataset của Dexora — 347 đối tượng, 200 tác vụ, 40.5 giờ dữ liệu — nguồn: dexoravla.github.io

Dexora phát hành hai tập dữ liệu trên Hugging Face:

Synthetic Dataset (Coming Soon)

100,000 episodes trong MuJoCo
6.5 triệu frames, 361 giờ
200 tác vụ, 297 đối tượng từ Objaverse-XL (auto-processed)
Tập trung: basic manipulation families — pick-place, assemble/disassemble, articulated objects

Real-World Dataset (Đã Phát Hành)

12,200 episodes teleoperation
2.92 triệu frames, 40.5 giờ
200 tác vụ đa dạng
347 đối tượng thuộc 17 semantic categories (từ bút viết, chai nước, đến đồ ăn như chuối và bột mì)
20% tác vụ yêu cầu kỹ năng dexterous thực sự (sử dụng ngón tay tinh tế)

Phân phối tác vụ: Pick-and-place 55%, Dexterous manipulation 20%, Assembly 15%, Articulated objects 10%.

Dataset follow LIBERO-2.1 standard format với multi-view RGB observations, proprioception, action commands, và 5 variants ngôn ngữ per task.

Training Pipeline: Ba Giai Đoạn

Đây là điểm kỹ thuật quan trọng nhất — Dexora không chỉ fine-tune trên dữ liệu thô mà có một data-quality-aware training recipe gồm 3 giai đoạn:

Giai Đoạn 1: Pretraining trên Synthetic Data

Train Diffusion Transformer từ đầu trên 100K synthetic trajectories (6.5M frames) trong 100,000 steps, dùng 8×A100 GPUs. Giai đoạn này giúp model học được basic manipulation behaviors — cách tiếp cận đối tượng, cách grip, spatial reasoning cơ bản — mà không cần dữ liệu thật.

Giai Đoạn 2: Training Offline Quality Discriminator

Vấn đề lớn với dữ liệu teleoperation: không phải episode nào cũng tốt. Người vận hành mệt mỏi, thao tác sai, hoặc đơn giản là episode thất bại. Nếu train trên tất cả dữ liệu thô → model học cả "cách làm sai".

Dexora train một offline discriminator để score chất lượng từng episode:

# Tiêu chí pre-screening
# 1. Kinematic smoothness: RMS acceleration và jerk trên 36 chiều
Aep = rms(acceleration(joints))  # qua tất cả timestep
Jep = rms(jerk(joints))

# 2. Giữ lại episodes xấu nhất (thực ra là tốt nhất — low acc/jerk)
S_pre = {τ: τ ∈ Low-20%(Aep) AND τ ∈ Low-20%(Jep)}
# ~18% episodes pass filter ban đầu

# 3. Validate qua open-loop replay
# Positive set: S_pre episodes được replay thành công
# Unlabeled set: phần còn lại

Discriminator dùng positive-unlabeled (PU) binary cross-entropy với η=0.5, nhận state + observations + language + action chunks + log-π (từ pretrained policy) để output quality score.

Giai Đoạn 3: Post-Training với Quality Weighting

Fine-tune policy pretrained trên 10K real episodes, nhưng mỗi episode được weight theo discriminator score:

ℒπ = Σᵢ wᵢ · ||εθ(oᵢ, aᵢ, t) − ε||²₂

Episodes chất lượng cao → weight cao → model học nhiều hơn từ chúng. Episodes kém chất lượng → weight thấp → ít ảnh hưởng. Kết quả: trajectory mượt mà hơn đáng kể (jerk giảm từ 0.043 xuống 0.032), ít oscillation ở khớp.

Kết Quả: Robot Học Được Gì?

Demo Dexora: robot dùng bàn tay dexterous để viết — nguồn: dexoravla.github.io

Basic Task Suite (12 tác vụ)

Model	Avg Success
Dexora	89.6%
GR00T N1	82.1%
π0	50.4%
Diffusion Policy	34.2%

Dexora đạt ≥90% trên 7/12 tác vụ cơ bản, vượt GR00T N1 ~7.5 điểm phần trăm — đáng kể khi GR00T N1 là baseline mạnh nhất hiện tại cho manipulation.

Dexterous Manipulation Suite (6 tác vụ)

Đây là benchmark thực sự thử thách: dùng bút (Use Pen), lấy sách (Fetch Book), thái hành (Cut Leek), xếp đĩa (Place Plates), cán bột (Rough Dough), mở nắp chai (Twist Cap).

Demo Dexora: robot mở nắp chai bằng 12-DoF dexterous hand — nguồn: dexoravla.github.io

Model	Avg Success
Dexora	66.7%
GR00T N1	51.7%
π0	26.7%
Diffusion Policy	6.7%

Khoảng cách với GR00T N1 trên dexterous tasks (+15 điểm) lớn hơn nhiều so với basic tasks (+7.5 điểm) — chứng minh rằng training recipe của Dexora đặc biệt hiệu quả cho các tác vụ đòi hỏi finger dexterity.

Ablation: Data Quality Discriminator có Thật Sự Cần Thiết?

Cấu hình	Success Rate	Jerk RMS
Không có discriminator	85%	0.043
Có discriminator	95%	0.032

+10 điểm thành công và trajectory mượt mà hơn hẳn — chứng minh discriminator không chỉ là "nice to have" mà là thành phần cốt lõi.

Cross-Embodiment Generalization

Một trong những ưu điểm lớn nhất của Dexora là khả năng transfer sang các embodiment khác bằng simple action dimension projection — không cần retrain từ đầu:

Franka Panda (single-arm gripper): Project 36D action xuống 7D arm joints
ALOHA (dual-arm gripper): Project sang 2 × 6D arm
Unitree G1 + Inspire Hand (single-arm dexterous): Project sang 6D arm + 12D hand

Trên 3 embodiment này, Dexora duy trì >85% performance so với khi train native — đây là kết quả ấn tượng so với các VLA thế hệ trước vốn rất cứng nhắc về embodiment.

Nếu bạn quan tâm cross-embodiment transfer cho bimanual setup, hãy đọc thêm RDT2 và khả năng zero-shot cross-embodiment bimanual.

Cài Đặt và Sử Dụng Dexora

Yêu Cầu Phần Cứng

Minimum: 1× GPU A100 40GB (hoặc 2× A6000 48GB) cho inference
Training: 8× A100 80GB (pretraining stage)
Robot: Dual-arm platform với XHAND (hoặc embodiment tương thích)

Cài Đặt

# Clone repo
git clone https://github.com/ZZongzheng0918/Dexora.git
cd Dexora

# Cài đặt dependencies
conda create -n dexora python=3.10
conda activate dexora
pip install -r requirements.txt

# Download pretrained model weights
# (Xem hướng dẫn chi tiết trên dexoravla.github.io)

Download Dataset

Dataset thật (12.2K episodes) đã phát hành trên Hugging Face:

pip install huggingface_hub
python -c "
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id='Dexora/real-world-dataset',
    repo_type='dataset',
    local_dir='./data/real'
)
"

Dataset follow LIBERO-2.1 format, mỗi episode chứa:

Multi-view RGB frames (4 cameras, H5 format)
Proprioception logs (36-D joint angles, 20Hz)
Language annotation (5 variants)
Action sequences

Inference Demo

from dexora import DexoraPolicy

# Load model
policy = DexoraPolicy.from_pretrained("Dexora/dexora-base")
policy.eval()

# Inference loop
obs = {
    "images": camera_frames,      # dict of 4 camera views
    "proprioception": joint_angles,  # (36,) float32
    "language": "pick up the pen and write the letter A"
}

with torch.no_grad():
    actions = policy.predict(obs)  # (T, 36) action chunk

Xem thêm cách thiết lập training pipeline VLA từ đầu trong hướng dẫn FineVLA cho dual-arm robot.

So Sánh với Các VLA Bimanual Khác

Nếu bạn đang xây dựng hệ thống bimanual dexterous, đây là bức tranh tổng quan:

Hệ thống	DoF	Open Source	Dataset	Dexterous Score
Dexora	36	✅ Full	12.2K real + 100K sim	66.7%
GR00T N1	Variable	⚠️ Weights only	Proprietary	51.7%
π0	Up to 52	✅	~5K	26.7%
Diffusion Policy	Varies	✅	Task-specific	6.7%
RDT-2	Varies	✅	Diverse bimanual	N/A

Dexora nổi bật ở sự kết hợp: cao DoF + mã nguồn mở hoàn toàn + dataset quy mô lớn + kết quả SOTA.

Đọc thêm về series thao tác hai tay trong Bimanual Manipulation: Từ Kinh Điển Đến VLA và so sánh chi tiết các dexterous hand trong hướng dẫn RUKA V2.

Tổng Kết

Dexora đánh dấu một bước ngoặt quan trọng: lần đầu tiên cộng đồng robotics có một VLA mã nguồn mở, có dataset thật quy mô lớn, và kết quả benchmark đáng tin cậy cho bài toán bimanual dexterous manipulation. Ba đóng góp chính đáng nhớ:

Hybrid teleoperation (exoskeleton + Vision Pro): Giải pháp thực tế nhất hiện tại để thu thập dữ liệu dexterous chất lượng cao
Quality discriminator: Không phải mọi data đều bằng nhau — lọc và weight dữ liệu theo chất lượng là chìa khóa
Cross-embodiment projection: Một model, nhiều robot — giá trị thực tế cao

Với dataset, weights, và code đã phát hành, Dexora là điểm khởi đầu lý tưởng cho bất kỳ ai muốn nghiên cứu hoặc deploy bimanual dexterous manipulation trong năm 2026.

Paper: Dexora: Open-source VLA for High-DoF Bimanual Dexterity — ICRA 2026 GitHub: github.com/ZZongzheng0918/Dexora Project: dexoravla.github.io Dataset: huggingface.co/Dexora

Tại sao Bimanual High-DoF lại khó?

Dexora giải quyết cả ba vấn đề này theo cách thực sự sáng tạo.

Kiến trúc Hệ Thống

Kiến trúc Dexora — policy network, teleoperation pipeline và MuJoCo digital twin — nguồn: dexoravla.github.io

Trái tim của Dexora là một Diffusion Transformer với quy mô đáng kể:

28 transformer layers
Hidden size 1024, 16 attention heads
Tổng tham số: ~300M (ước tính tương đương GR00T N1 scale nhỏ)

Observation Space — Robot thấy gì?

Mỗi bước inference, model nhận vào:

4 camera RGB (đa góc nhìn): stereo head camera, left wrist camera, right wrist camera — mỗi camera encode qua SigLIP (vision encoder của Google)
36-D proprioception: góc khớp hiện tại của toàn bộ dual-arm + dual-hand, log ở 20 Hz
Language instruction: mô tả tác vụ ("pick up the pen and write the letter A") encode qua T5

Action Space — Robot làm gì?

Output là vector 36 chiều liên tục:

Dual 6-DoF arms: 6 góc khớp × 2 cánh tay
Dual XHAND 12-DoF hands: 12 khớp ngón tay × 2 bàn tay — bao gồm các khớp lateral ab/adduction của ngón cái và ngón trỏ, không giống các dexterous hand đơn giản hơn

Hệ Thống Thu Thập Dữ Liệu: Exoskeleton + Vision Pro

Đây là phần sáng tạo nhất của Dexora. Thay vì một thiết bị teleoperation duy nhất, nhóm tác giả thiết kế hệ thống hybrid tách biệt hai phần:

Phần 1: Exoskeleton Backpack cho Cánh Tay

Phần 2: Apple Vision Pro cho Bàn Tay

MuJoCo Digital Twin

Dataset: Quy Mô và Đa Dạng

Real-world dataset của Dexora — 347 đối tượng, 200 tác vụ, 40.5 giờ dữ liệu — nguồn: dexoravla.github.io

Dexora phát hành hai tập dữ liệu trên Hugging Face:

Synthetic Dataset (Coming Soon)

100,000 episodes trong MuJoCo
6.5 triệu frames, 361 giờ
200 tác vụ, 297 đối tượng từ Objaverse-XL (auto-processed)
Tập trung: basic manipulation families — pick-place, assemble/disassemble, articulated objects

Real-World Dataset (Đã Phát Hành)

12,200 episodes teleoperation
2.92 triệu frames, 40.5 giờ
200 tác vụ đa dạng
347 đối tượng thuộc 17 semantic categories (từ bút viết, chai nước, đến đồ ăn như chuối và bột mì)
20% tác vụ yêu cầu kỹ năng dexterous thực sự (sử dụng ngón tay tinh tế)

Phân phối tác vụ: Pick-and-place 55%, Dexterous manipulation 20%, Assembly 15%, Articulated objects 10%.

Dataset follow LIBERO-2.1 standard format với multi-view RGB observations, proprioception, action commands, và 5 variants ngôn ngữ per task.

Training Pipeline: Ba Giai Đoạn

Đây là điểm kỹ thuật quan trọng nhất — Dexora không chỉ fine-tune trên dữ liệu thô mà có một data-quality-aware training recipe gồm 3 giai đoạn:

Giai Đoạn 1: Pretraining trên Synthetic Data

Giai Đoạn 2: Training Offline Quality Discriminator

Dexora train một offline discriminator để score chất lượng từng episode:

# Tiêu chí pre-screening
# 1. Kinematic smoothness: RMS acceleration và jerk trên 36 chiều
Aep = rms(acceleration(joints))  # qua tất cả timestep
Jep = rms(jerk(joints))

# 2. Giữ lại episodes xấu nhất (thực ra là tốt nhất — low acc/jerk)
S_pre = {τ: τ ∈ Low-20%(Aep) AND τ ∈ Low-20%(Jep)}
# ~18% episodes pass filter ban đầu

# 3. Validate qua open-loop replay
# Positive set: S_pre episodes được replay thành công
# Unlabeled set: phần còn lại

Discriminator dùng positive-unlabeled (PU) binary cross-entropy với η=0.5, nhận state + observations + language + action chunks + log-π (từ pretrained policy) để output quality score.

Giai Đoạn 3: Post-Training với Quality Weighting

Fine-tune policy pretrained trên 10K real episodes, nhưng mỗi episode được weight theo discriminator score:

ℒπ = Σᵢ wᵢ · ||εθ(oᵢ, aᵢ, t) − ε||²₂

Kết Quả: Robot Học Được Gì?

Demo Dexora: robot dùng bàn tay dexterous để viết — nguồn: dexoravla.github.io

Basic Task Suite (12 tác vụ)

Model	Avg Success
Dexora	89.6%
GR00T N1	82.1%
π0	50.4%
Diffusion Policy	34.2%

Dexora đạt ≥90% trên 7/12 tác vụ cơ bản, vượt GR00T N1 ~7.5 điểm phần trăm — đáng kể khi GR00T N1 là baseline mạnh nhất hiện tại cho manipulation.

Dexterous Manipulation Suite (6 tác vụ)

Demo Dexora: robot mở nắp chai bằng 12-DoF dexterous hand — nguồn: dexoravla.github.io

Model	Avg Success
Dexora	66.7%
GR00T N1	51.7%
π0	26.7%
Diffusion Policy	6.7%

Ablation: Data Quality Discriminator có Thật Sự Cần Thiết?

Cấu hình	Success Rate	Jerk RMS
Không có discriminator	85%	0.043
Có discriminator	95%	0.032

+10 điểm thành công và trajectory mượt mà hơn hẳn — chứng minh discriminator không chỉ là "nice to have" mà là thành phần cốt lõi.

Cross-Embodiment Generalization

Một trong những ưu điểm lớn nhất của Dexora là khả năng transfer sang các embodiment khác bằng simple action dimension projection — không cần retrain từ đầu:

Franka Panda (single-arm gripper): Project 36D action xuống 7D arm joints
ALOHA (dual-arm gripper): Project sang 2 × 6D arm
Unitree G1 + Inspire Hand (single-arm dexterous): Project sang 6D arm + 12D hand

Nếu bạn quan tâm cross-embodiment transfer cho bimanual setup, hãy đọc thêm RDT2 và khả năng zero-shot cross-embodiment bimanual.

Cài Đặt và Sử Dụng Dexora

Yêu Cầu Phần Cứng

Minimum: 1× GPU A100 40GB (hoặc 2× A6000 48GB) cho inference
Training: 8× A100 80GB (pretraining stage)
Robot: Dual-arm platform với XHAND (hoặc embodiment tương thích)

Cài Đặt

# Clone repo
git clone https://github.com/ZZongzheng0918/Dexora.git
cd Dexora

# Cài đặt dependencies
conda create -n dexora python=3.10
conda activate dexora
pip install -r requirements.txt

# Download pretrained model weights
# (Xem hướng dẫn chi tiết trên dexoravla.github.io)

Download Dataset

Dataset thật (12.2K episodes) đã phát hành trên Hugging Face:

pip install huggingface_hub
python -c "
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id='Dexora/real-world-dataset',
    repo_type='dataset',
    local_dir='./data/real'
)
"

Dataset follow LIBERO-2.1 format, mỗi episode chứa:

Multi-view RGB frames (4 cameras, H5 format)
Proprioception logs (36-D joint angles, 20Hz)
Language annotation (5 variants)
Action sequences

Inference Demo

from dexora import DexoraPolicy

# Load model
policy = DexoraPolicy.from_pretrained("Dexora/dexora-base")
policy.eval()

# Inference loop
obs = {
    "images": camera_frames,      # dict of 4 camera views
    "proprioception": joint_angles,  # (36,) float32
    "language": "pick up the pen and write the letter A"
}

with torch.no_grad():
    actions = policy.predict(obs)  # (T, 36) action chunk

Xem thêm cách thiết lập training pipeline VLA từ đầu trong hướng dẫn FineVLA cho dual-arm robot.

So Sánh với Các VLA Bimanual Khác

Nếu bạn đang xây dựng hệ thống bimanual dexterous, đây là bức tranh tổng quan:

Hệ thống	DoF	Open Source	Dataset	Dexterous Score
Dexora	36	✅ Full	12.2K real + 100K sim	66.7%
GR00T N1	Variable	⚠️ Weights only	Proprietary	51.7%
π0	Up to 52	✅	~5K	26.7%
Diffusion Policy	Varies	✅	Task-specific	6.7%
RDT-2	Varies	✅	Diverse bimanual	N/A

Dexora nổi bật ở sự kết hợp: cao DoF + mã nguồn mở hoàn toàn + dataset quy mô lớn + kết quả SOTA.

Đọc thêm về series thao tác hai tay trong Bimanual Manipulation: Từ Kinh Điển Đến VLA và so sánh chi tiết các dexterous hand trong hướng dẫn RUKA V2.

Tổng Kết

Hybrid teleoperation (exoskeleton + Vision Pro): Giải pháp thực tế nhất hiện tại để thu thập dữ liệu dexterous chất lượng cao
Quality discriminator: Không phải mọi data đều bằng nhau — lọc và weight dữ liệu theo chất lượng là chìa khóa
Cross-embodiment projection: Một model, nhiều robot — giá trị thực tế cao

Với dataset, weights, và code đã phát hành, Dexora là điểm khởi đầu lý tưởng cho bất kỳ ai muốn nghiên cứu hoặc deploy bimanual dexterous manipulation trong năm 2026.

Paper: Dexora: Open-source VLA for High-DoF Bimanual Dexterity — ICRA 2026 GitHub: github.com/ZZongzheng0918/Dexora Project: dexoravla.github.io Dataset: huggingface.co/Dexora

Tại sao Bimanual High-DoF lại khó?

Kiến trúc Hệ Thống

Observation Space — Robot thấy gì?

Action Space — Robot làm gì?

Hệ Thống Thu Thập Dữ Liệu: Exoskeleton + Vision Pro

Phần 1: Exoskeleton Backpack cho Cánh Tay

Phần 2: Apple Vision Pro cho Bàn Tay

MuJoCo Digital Twin

Dataset: Quy Mô và Đa Dạng

Synthetic Dataset (Coming Soon)

Real-World Dataset (Đã Phát Hành)

Training Pipeline: Ba Giai Đoạn

Giai Đoạn 1: Pretraining trên Synthetic Data

Giai Đoạn 2: Training Offline Quality Discriminator

Giai Đoạn 3: Post-Training với Quality Weighting

Kết Quả: Robot Học Được Gì?

Basic Task Suite (12 tác vụ)

Dexterous Manipulation Suite (6 tác vụ)

Ablation: Data Quality Discriminator có Thật Sự Cần Thiết?

Cross-Embodiment Generalization

Cài Đặt và Sử Dụng Dexora

Yêu Cầu Phần Cứng

Cài Đặt

Download Dataset

Inference Demo

So Sánh với Các VLA Bimanual Khác

Tổng Kết

Bài Viết Liên Quan

Nguyễn Anh Tuấn

Bài viết liên quan

Build RUKA-v2: bàn tay robot 16-DOF

Lên hai tay: UMI bimanual pipeline với scripts chính thức

Chạy FineVLA cho robot dual-arm

Tại sao Bimanual High-DoF lại khó?

Kiến trúc Hệ Thống

Observation Space — Robot thấy gì?

Action Space — Robot làm gì?

Hệ Thống Thu Thập Dữ Liệu: Exoskeleton + Vision Pro

Phần 1: Exoskeleton Backpack cho Cánh Tay

Phần 2: Apple Vision Pro cho Bàn Tay

MuJoCo Digital Twin

Dataset: Quy Mô và Đa Dạng

Synthetic Dataset (Coming Soon)

Real-World Dataset (Đã Phát Hành)

Training Pipeline: Ba Giai Đoạn

Giai Đoạn 1: Pretraining trên Synthetic Data

Giai Đoạn 2: Training Offline Quality Discriminator

Giai Đoạn 3: Post-Training với Quality Weighting

Kết Quả: Robot Học Được Gì?

Basic Task Suite (12 tác vụ)

Dexterous Manipulation Suite (6 tác vụ)

Ablation: Data Quality Discriminator có Thật Sự Cần Thiết?

Cross-Embodiment Generalization

Cài Đặt và Sử Dụng Dexora

Yêu Cầu Phần Cứng

Cài Đặt

Download Dataset

Inference Demo

So Sánh với Các VLA Bimanual Khác

Tổng Kết

Bài Viết Liên Quan

Nguyễn Anh Tuấn

Bài viết liên quan

Build RUKA-v2: bàn tay robot 16-DOF

Lên hai tay: UMI bimanual pipeline với scripts chính thức

Chạy FineVLA cho robot dual-arm