Qwen-VLA: Mô hình VLA generalist của Alibaba

Hãy tưởng tượng bạn là kỹ sư robotics, phụ trách ba hệ thống robot hoàn toàn khác nhau: cánh tay robot ALOHA dual-arm cho assembly, robot di động WidowX cho warehouse picking, và humanoid đi bộ qua hành lang. Với các VLA hiện tại, bạn cần ba model riêng biệt, ba pipeline training riêng, ba codebase riêng. Mỗi lần thêm robot mới là thêm một núi công việc.

Qwen-VLA của Alibaba muốn giải quyết chính vấn đề này: một bộ weights, nhiều robot, nhiều task.

Paper Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments (arXiv 2605.30280, submitted tháng 5/2026) đề xuất một khung thống nhất cho phép cùng một model thực hiện cả manipulation, navigation và trajectory prediction — chỉ cần thay một text prompt để chuyển đổi giữa các robot.

Vấn đề mà Qwen-VLA giải quyết

Robotics năm 2026 đang có nghịch lý: chúng ta có ngày càng nhiều VLA model mạnh — OpenVLA, π₀ (pi-zero), RDT-1B — nhưng mỗi model lại được thiết kế cho một task cụ thể hoặc một loại robot cụ thể. Muốn fine-tune cho robot mới? Train lại từ đầu. Muốn chuyển từ manipulation sang navigation? Dùng model khác.

Vấn đề ở chỗ:

Hardware fragmentation: Mỗi robot có action space khác nhau — 7-DOF arm, differential drive, biped locomotion — nên output của model cần thay đổi theo hardware
Task fragmentation: Manipulation (pick-and-place), navigation (waypoint following), trajectory prediction (motion planning) đều có cấu trúc output hoàn toàn khác nhau
Data fragmentation: Dataset manipulation không thể dùng trực tiếp để train navigation và ngược lại

Qwen-VLA giải quyết bằng cách thiết kế một unified action-and-trajectory prediction framework — biểu diễn tất cả output (action, waypoint, trajectory) trong cùng một không gian, và dùng embodiment-aware prompt conditioning để model biết nó đang điều khiển loại robot nào.

Kiến trúc kỹ thuật

Qwen-VLA gồm hai thành phần chính ghép với nhau:

1. Vision-Language Backbone: Qwen3.5-4B

Phần "hiểu thế giới" của model dựa trên Qwen3.5-4B — mô hình ngôn ngữ-thị giác của Alibaba. Backbone này xử lý:

Hình ảnh từ camera (RGB, depth, hoặc multi-view tùy cấu hình robot)
Text instruction từ người dùng ("pick up the red cup and place it on the tray")
Embodiment prompt — một đoạn text mô tả robot đang dùng, action space của nó, và convention điều khiển

Backbone Qwen3.5-4B đã được pretrain trên lượng lớn dữ liệu ngôn ngữ và thị giác, mang lại khả năng visual grounding (xác định vật thể trong không gian) và spatial reasoning (hiểu quan hệ không gian) cần thiết cho cả manipulation lẫn navigation.

2. Action Decoder: 1.15B DiT Flow-Matching

Đây là điểm đặc biệt nhất của Qwen-VLA. Thay vì dùng autoregressive decoding (predict token từng bước như LLM thông thường), họ dùng Diffusion Transformer (DiT) với flow-matching.

Flow-matching là một phương pháp generative học cách "chảy" từ noise distribution về action distribution trong ít bước hơn DDPM truyền thống. DiT action decoder có 1.15 tỷ tham số — lớn hơn nhiều so với action heads thông thường — cho phép model học các action distribution phức tạp.

Input (vision tokens + text tokens từ Qwen3.5-4B)
        │
        ▼
DiT Action Decoder (1.15B params, flow-matching)
        │
        ▼
Continuous action vector (7-DOF joint positions, base velocity, etc.)

Điểm mấu chốt: action decoder KHÔNG thay đổi giữa các robot. Thay vào đó, robot được phân biệt qua embodiment-aware prompt.

3. Embodiment-Aware Prompt Conditioning

Đây là cơ chế cho phép một model serve nhiều robot. Trước mỗi task, người dùng cung cấp một đoạn text mô tả robot hiện tại:

"You are controlling a 7-DOF ALOHA dual-arm robot. 
The action space is [left_joint_0...6, right_joint_0...6, left_gripper, right_gripper].
Actions are in joint position space, range [-1, 1]."

Với robot navigation thì prompt khác:

"You are controlling a WidowX mobile manipulator.
The action space is [base_vx, base_vy, base_wz, arm_joint_0...5, gripper].
Navigate to the target location while avoiding obstacles."

Model học cách đọc prompt này và điều chỉnh output tương ứng. Không cần per-platform output head riêng biệt — chỉ cần thay text.

┌─────────────────────────────────────────────────────┐
│                   QWEN-VLA MODEL                    │
│                                                     │
│  [Camera RGB]  [Depth]  [Embodiment Prompt]         │
│       │              │            │                 │
│       └──────────────┴────────────┘                 │
│                       │                             │
│            ┌──────────▼──────────┐                  │
│            │  Qwen3.5-4B VLM     │  ← Vision tokens │
│            │  Visual Grounding   │    + Text tokens  │
│            │  Spatial Reasoning  │                  │
│            └──────────┬──────────┘                  │
│                       │ Feature embedding            │
│            ┌──────────▼──────────┐                  │
│            │ DiT Action Decoder  │  1.15B params     │
│            │ Flow-matching       │  ← Noise input    │
│            └──────────┬──────────┘                  │
│                       │                             │
│            ┌──────────▼──────────┐                  │
│            │   Action Vector     │                  │
│            │  (continuous, N-D)  │                  │
│            └─────────────────────┘                  │
└─────────────────────────────────────────────────────┘

Training Pipeline

Qwen-VLA được train theo joint pretraining — tất cả loại dữ liệu cùng được dùng để train một model duy nhất. Dữ liệu bao gồm:

Nguồn dữ liệu	Loại	Mục đích
Robot manipulation trajectories	Demos từ Open X-Embodiment, BridgeV2, RoboTwin	Học manipulation
Human egocentric videos	Video từ Ego4D, EPIC-Kitchens	Học hand-object interaction
Synthetic simulation data	Isaac Sim, MuJoCo rollouts	Augmentation, rare scenarios
Vision-language navigation data	R2R, RxR, NavInstruct	Học navigation
Trajectory-centric supervision	Keypoint tracks, optical flow	Học trajectory prediction
Auxiliary VLM data	VQA, captioning	Duy trì visual grounding

Chiến lược train gồm hai giai đoạn:

Pretraining: Train trên toàn bộ dữ liệu trên với mixed-task batching. Model học các skill cơ bản: nhận diện vật thể, follow instruction, sinh action.
Instruction tuning (Instruct variant): Fine-tune trên high-quality task-specific data để cải thiện instruction following và generalization.

Kết quả: Qwen-VLA-Base (sau giai đoạn 1) và Qwen-VLA-Instruct (sau giai đoạn 2). Có thêm Qwen-VLA-aloha — biến thể pretrain thêm trên dữ liệu ALOHA real-robot.

Cài đặt và Sử dụng

Yêu cầu hệ thống

# Python 3.10+, CUDA 12.1+, GPU >= 24GB VRAM (cho Instruct)
# hoặc >= 16GB với quantization

# Clone repo
git clone https://github.com/QwenLM/Qwen-VLA.git
cd Qwen-VLA

# Tạo môi trường conda
conda create -n qwen-vla python=3.10
conda activate qwen-vla

# Cài dependencies
pip install -r requirements.txt

Load Model

from transformers import AutoProcessor, AutoModelForCausalLM
import torch

# Load Qwen-VLA-Instruct
model_name = "Qwen/Qwen-VLA-Instruct"

processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

Inference với Embodiment Prompt

from PIL import Image
import torch

# Embodiment prompt cho ALOHA robot
embodiment_prompt = """You are controlling a 7-DOF ALOHA dual-arm robot.
Action space: [left_joint_0..6, right_joint_0..6, left_gripper, right_gripper].
Actions are normalized joint positions in range [-1, 1]."""

# Task instruction
task = "Pick up the yellow cup and place it on the white plate."

# Chuẩn bị input
image = Image.open("camera_frame.jpg")
messages = [
    {
        "role": "system",
        "content": embodiment_prompt
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": task}
        ]
    }
]

# Tokenize
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
inputs = processor(
    text=[text],
    images=[image],
    return_tensors="pt"
).to("cuda")

# Generate action (flow-matching inference)
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=64,
        do_sample=False
    )

# Decode thành action vector
action = processor.decode_action(outputs[0])
print(f"Action: {action}")
# Output: tensor([0.12, -0.03, 0.45, ...]) — 14-dim ALOHA action

# Chỉ cần thay embodiment prompt — model weights KHÔNG đổi
embodiment_prompt = """You are controlling a WidowX mobile robot.
Action space: [base_x_vel, base_y_vel, base_theta_vel, arm_joint_0..5, gripper].
Navigate to target location while avoiding obstacles."""

task = "Navigate to the kitchen counter and pick up the bottle."

# Inference hoàn toàn giống trên — chỉ prompt thay đổi

Xem thêm về fine-tuning model VLA cho task cụ thể trong bài hướng dẫn fine-tune Embodied-R1.5 trên LIBERO.

Kết quả Benchmark

Qwen-VLA-Instruct đạt kết quả ấn tượng trên cả ba loại task:

Manipulation Benchmarks

Benchmark	Qwen-VLA-Instruct	Baseline tốt nhất	Cải thiện
LIBERO	97.9%	95.2% (π₀.5)	+2.7%
Simpler-WidowX	73.7%	71.6% (π₀.5)	+2.1%
RoboTwin-Easy	86.1%	81.0%	+5.1%
RoboTwin-Hard	87.2%	79.3%	+7.9%
DOMINO (zero-shot)	26.6%	18.2%	+8.4%

DOMINO là benchmark đặc biệt thú vị — dynamic manipulation với vật thể chuyển động, test zero-shot. Cải thiện 8.4% điểm phần trăm so với baseline cho thấy Qwen-VLA generalize tốt hơn đáng kể.

Benchmark	Qwen-VLA-Instruct	Mô tả
R2R (OSR)	69.0%	Vision-Language Navigation trong môi trường 3D
RxR (SR)	59.6%	Multilingual navigation benchmark

Điều đáng chú ý là đây là cùng một model thực hiện cả manipulation lẫn navigation — không phải hai model riêng biệt được fine-tune riêng.

Real-World ALOHA

Điều kiện	Success Rate
In-distribution (in-domain)	83.6%
Out-of-distribution (OOD)	76.9%

Qwen-VLA-aloha (với pretraining ALOHA) đạt 76.9% OOD success — tức là robot vẫn hoạt động tốt khi bàn được xê dịch, thay đổi màu vật thể, hay đổi vị trí camera. Điều này rất quan trọng cho deployment thực tế.

Demo Qwen-VLA real-world: manipulation và navigation từ một bộ weights — nguồn: QwenLM

Qwen-RobotSuite: Bước tiến tiếp theo (tháng 6/2026)

Sau khi ra mắt Qwen-VLA, đội ngũ Qwen tiếp tục với Qwen-RobotSuite (tháng 6/2026) — bộ ba model chuyên biệt hơn:

Qwen-RobotManip

VLA cho manipulation, cải tiến từ Qwen-VLA:

80-dimensional canonical action space với per-dimension binary masking — một trick hay: action space được chuẩn hóa thành 80 chiều cố định, nhưng dimension nào không dùng sẽ bị mask. ALOHA dùng 14 chiều (7+7 joints), WidowX dùng 8 chiều — cùng model, khác mask.
In-context policy adaptation: Cho model xem 1-3 demo ngắn của task mới để adapt mà không cần fine-tune
Camera-frame delta pose parameterization: Action được tính theo góc nhìn camera thay vì base frame — giảm variance khi camera dịch chuyển

Kết quả: #1 trên RoboChallenge Table30-v1 (benchmark tổng hợp của cộng đồng); 91.4% trên LIBERO-Plus (so với 84.4% SOTA cũ); 69.4% trên RoboTwin-C2R Hard (so với 47.9%).

Qwen-RobotNav

Navigation model với Qwen3-VL backbone (2B/4B/8B):

Dự đoán 8 waypoints cùng lúc thay vì từng bước một
Cải thiện HM-EQA (Embodied QA) +10.8%, EXPRESS-Bench +15.4%
Giảm 77% số bước navigation cần thiết

Qwen-RobotWorld

Video world model (20B tham số) — predict video tương lai từ action. Đây là thành phần thứ ba trong hệ sinh thái, cho phép robot "tưởng tượng" kết quả của action trước khi thực thi.

So sánh với các VLA Model khác

Model	Backbone	Action Decoder	Cross-embodiment	Multi-task
OpenVLA	Prismatic-7B	MLP (discrete)	❌ Không	❌ Không
π₀ (pi-zero)	PaliGemma-3B	Flow-matching	❌ Limited	✅ Có
RDT-1B	T5-Large	DiT	❌ Không	✅ Có
HEX-VLA	Qwen3-VL	VQ-VAE	✅ Có	✅ Có
Qwen-VLA	Qwen3.5-4B	DiT Flow-matching	✅ Có	✅ Có

Qwen-VLA nổi bật ở chỗ kết hợp được cả cross-embodiment lẫn multi-task trong một model. Đây là điều mà phần lớn VLA model trước đây không làm được đồng thời.

Về cross-embodiment, hãy so sánh với bài viết về HEX-VLA cross-embodiment humanoid — một hướng tiếp cận khác cũng đang được nghiên cứu mạnh trong cộng đồng.

Nhận xét và Hướng phát triển

Điểm mạnh:

Một bộ weights thực sự phục vụ nhiều robot và nhiều task
Embodiment-aware prompt đơn giản nhưng hiệu quả — không cần thay đổi kiến trúc khi thêm robot mới
DiT action decoder cho phép action distribution phức tạp hơn so với MLP head

Điểm cần chú ý:

Model lớn (Qwen3.5-4B backbone + 1.15B DiT = ~5.15B tham số) — cần GPU đủ VRAM
Embodiment prompt phải được viết cẩn thận — nếu prompt mô tả sai action space, robot sẽ hành động sai
DOMINO zero-shot 26.6% vẫn còn thấp — dynamic manipulation vẫn là thách thức lớn

Hướng phát triển tiếp theo:

Tích hợp với Qwen-RobotWorld để có world model-based planning
Quantization để deploy trên edge device (Jetson Orin) với model nhỏ hơn
Thêm haptic feedback và proprioception vào input stream

Nếu bạn muốn hiểu thêm về cách các VLA model hiện đại được thiết kế, bài LabVLA với Qwen3-VL cung cấp một góc nhìn khác về việc dùng Qwen3 làm backbone cho robot.

Kết luận

Qwen-VLA đánh dấu một bước tiến quan trọng trong hướng "generalist robot brain" — thay vì mỗi robot có VLA riêng, một model duy nhất có thể phục vụ nhiều platform chỉ qua thay đổi text prompt. Kết quả benchmark ấn tượng (97.9% LIBERO, 76.9% ALOHA OOD) và mã nguồn mở hoàn toàn làm Qwen-VLA trở thành baseline quan trọng để tham khảo cho bất kỳ dự án VLA nào năm 2026.

GitHub: QwenLM/Qwen-VLA — Paper: arXiv 2605.30280

Bài viết liên quan

Qwen-VLA của Alibaba muốn giải quyết chính vấn đề này: một bộ weights, nhiều robot, nhiều task.

Vấn đề mà Qwen-VLA giải quyết

Vấn đề ở chỗ:

Hardware fragmentation: Mỗi robot có action space khác nhau — 7-DOF arm, differential drive, biped locomotion — nên output của model cần thay đổi theo hardware
Task fragmentation: Manipulation (pick-and-place), navigation (waypoint following), trajectory prediction (motion planning) đều có cấu trúc output hoàn toàn khác nhau
Data fragmentation: Dataset manipulation không thể dùng trực tiếp để train navigation và ngược lại

Kiến trúc kỹ thuật

Qwen-VLA gồm hai thành phần chính ghép với nhau:

1. Vision-Language Backbone: Qwen3.5-4B

Phần "hiểu thế giới" của model dựa trên Qwen3.5-4B — mô hình ngôn ngữ-thị giác của Alibaba. Backbone này xử lý:

Hình ảnh từ camera (RGB, depth, hoặc multi-view tùy cấu hình robot)
Text instruction từ người dùng ("pick up the red cup and place it on the tray")
Embodiment prompt — một đoạn text mô tả robot đang dùng, action space của nó, và convention điều khiển

2. Action Decoder: 1.15B DiT Flow-Matching

Input (vision tokens + text tokens từ Qwen3.5-4B)
        │
        ▼
DiT Action Decoder (1.15B params, flow-matching)
        │
        ▼
Continuous action vector (7-DOF joint positions, base velocity, etc.)

Điểm mấu chốt: action decoder KHÔNG thay đổi giữa các robot. Thay vào đó, robot được phân biệt qua embodiment-aware prompt.

3. Embodiment-Aware Prompt Conditioning

Đây là cơ chế cho phép một model serve nhiều robot. Trước mỗi task, người dùng cung cấp một đoạn text mô tả robot hiện tại:

"You are controlling a 7-DOF ALOHA dual-arm robot. 
The action space is [left_joint_0...6, right_joint_0...6, left_gripper, right_gripper].
Actions are in joint position space, range [-1, 1]."

Với robot navigation thì prompt khác:

"You are controlling a WidowX mobile manipulator.
The action space is [base_vx, base_vy, base_wz, arm_joint_0...5, gripper].
Navigate to the target location while avoiding obstacles."

Model học cách đọc prompt này và điều chỉnh output tương ứng. Không cần per-platform output head riêng biệt — chỉ cần thay text.

┌─────────────────────────────────────────────────────┐
│                   QWEN-VLA MODEL                    │
│                                                     │
│  [Camera RGB]  [Depth]  [Embodiment Prompt]         │
│       │              │            │                 │
│       └──────────────┴────────────┘                 │
│                       │                             │
│            ┌──────────▼──────────┐                  │
│            │  Qwen3.5-4B VLM     │  ← Vision tokens │
│            │  Visual Grounding   │    + Text tokens  │
│            │  Spatial Reasoning  │                  │
│            └──────────┬──────────┘                  │
│                       │ Feature embedding            │
│            ┌──────────▼──────────┐                  │
│            │ DiT Action Decoder  │  1.15B params     │
│            │ Flow-matching       │  ← Noise input    │
│            └──────────┬──────────┘                  │
│                       │                             │
│            ┌──────────▼──────────┐                  │
│            │   Action Vector     │                  │
│            │  (continuous, N-D)  │                  │
│            └─────────────────────┘                  │
└─────────────────────────────────────────────────────┘

Training Pipeline

Qwen-VLA được train theo joint pretraining — tất cả loại dữ liệu cùng được dùng để train một model duy nhất. Dữ liệu bao gồm:

Nguồn dữ liệu	Loại	Mục đích
Robot manipulation trajectories	Demos từ Open X-Embodiment, BridgeV2, RoboTwin	Học manipulation
Human egocentric videos	Video từ Ego4D, EPIC-Kitchens	Học hand-object interaction
Synthetic simulation data	Isaac Sim, MuJoCo rollouts	Augmentation, rare scenarios
Vision-language navigation data	R2R, RxR, NavInstruct	Học navigation
Trajectory-centric supervision	Keypoint tracks, optical flow	Học trajectory prediction
Auxiliary VLM data	VQA, captioning	Duy trì visual grounding

Chiến lược train gồm hai giai đoạn:

Pretraining: Train trên toàn bộ dữ liệu trên với mixed-task batching. Model học các skill cơ bản: nhận diện vật thể, follow instruction, sinh action.
Instruction tuning (Instruct variant): Fine-tune trên high-quality task-specific data để cải thiện instruction following và generalization.

Kết quả: Qwen-VLA-Base (sau giai đoạn 1) và Qwen-VLA-Instruct (sau giai đoạn 2). Có thêm Qwen-VLA-aloha — biến thể pretrain thêm trên dữ liệu ALOHA real-robot.

Cài đặt và Sử dụng

Yêu cầu hệ thống

# Python 3.10+, CUDA 12.1+, GPU >= 24GB VRAM (cho Instruct)
# hoặc >= 16GB với quantization

# Clone repo
git clone https://github.com/QwenLM/Qwen-VLA.git
cd Qwen-VLA

# Tạo môi trường conda
conda create -n qwen-vla python=3.10
conda activate qwen-vla

# Cài dependencies
pip install -r requirements.txt

Load Model

from transformers import AutoProcessor, AutoModelForCausalLM
import torch

# Load Qwen-VLA-Instruct
model_name = "Qwen/Qwen-VLA-Instruct"

processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

Inference với Embodiment Prompt

from PIL import Image
import torch

# Embodiment prompt cho ALOHA robot
embodiment_prompt = """You are controlling a 7-DOF ALOHA dual-arm robot.
Action space: [left_joint_0..6, right_joint_0..6, left_gripper, right_gripper].
Actions are normalized joint positions in range [-1, 1]."""

# Task instruction
task = "Pick up the yellow cup and place it on the white plate."

# Chuẩn bị input
image = Image.open("camera_frame.jpg")
messages = [
    {
        "role": "system",
        "content": embodiment_prompt
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": task}
        ]
    }
]

# Tokenize
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
inputs = processor(
    text=[text],
    images=[image],
    return_tensors="pt"
).to("cuda")

# Generate action (flow-matching inference)
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=64,
        do_sample=False
    )

# Decode thành action vector
action = processor.decode_action(outputs[0])
print(f"Action: {action}")
# Output: tensor([0.12, -0.03, 0.45, ...]) — 14-dim ALOHA action

# Chỉ cần thay embodiment prompt — model weights KHÔNG đổi
embodiment_prompt = """You are controlling a WidowX mobile robot.
Action space: [base_x_vel, base_y_vel, base_theta_vel, arm_joint_0..5, gripper].
Navigate to target location while avoiding obstacles."""

task = "Navigate to the kitchen counter and pick up the bottle."

# Inference hoàn toàn giống trên — chỉ prompt thay đổi

Xem thêm về fine-tuning model VLA cho task cụ thể trong bài hướng dẫn fine-tune Embodied-R1.5 trên LIBERO.

Kết quả Benchmark

Qwen-VLA-Instruct đạt kết quả ấn tượng trên cả ba loại task:

Manipulation Benchmarks

Benchmark	Qwen-VLA-Instruct	Baseline tốt nhất	Cải thiện
LIBERO	97.9%	95.2% (π₀.5)	+2.7%
Simpler-WidowX	73.7%	71.6% (π₀.5)	+2.1%
RoboTwin-Easy	86.1%	81.0%	+5.1%
RoboTwin-Hard	87.2%	79.3%	+7.9%
DOMINO (zero-shot)	26.6%	18.2%	+8.4%

Benchmark	Qwen-VLA-Instruct	Mô tả
R2R (OSR)	69.0%	Vision-Language Navigation trong môi trường 3D
RxR (SR)	59.6%	Multilingual navigation benchmark

Điều đáng chú ý là đây là cùng một model thực hiện cả manipulation lẫn navigation — không phải hai model riêng biệt được fine-tune riêng.

Real-World ALOHA

Điều kiện	Success Rate
In-distribution (in-domain)	83.6%
Out-of-distribution (OOD)	76.9%

Demo Qwen-VLA real-world: manipulation và navigation từ một bộ weights — nguồn: QwenLM

Qwen-RobotSuite: Bước tiến tiếp theo (tháng 6/2026)

Sau khi ra mắt Qwen-VLA, đội ngũ Qwen tiếp tục với Qwen-RobotSuite (tháng 6/2026) — bộ ba model chuyên biệt hơn:

Qwen-RobotManip

VLA cho manipulation, cải tiến từ Qwen-VLA:

80-dimensional canonical action space với per-dimension binary masking — một trick hay: action space được chuẩn hóa thành 80 chiều cố định, nhưng dimension nào không dùng sẽ bị mask. ALOHA dùng 14 chiều (7+7 joints), WidowX dùng 8 chiều — cùng model, khác mask.
In-context policy adaptation: Cho model xem 1-3 demo ngắn của task mới để adapt mà không cần fine-tune
Camera-frame delta pose parameterization: Action được tính theo góc nhìn camera thay vì base frame — giảm variance khi camera dịch chuyển

Kết quả: #1 trên RoboChallenge Table30-v1 (benchmark tổng hợp của cộng đồng); 91.4% trên LIBERO-Plus (so với 84.4% SOTA cũ); 69.4% trên RoboTwin-C2R Hard (so với 47.9%).

Qwen-RobotNav

Navigation model với Qwen3-VL backbone (2B/4B/8B):

Dự đoán 8 waypoints cùng lúc thay vì từng bước một
Cải thiện HM-EQA (Embodied QA) +10.8%, EXPRESS-Bench +15.4%
Giảm 77% số bước navigation cần thiết

Qwen-RobotWorld

So sánh với các VLA Model khác

Model	Backbone	Action Decoder	Cross-embodiment	Multi-task
OpenVLA	Prismatic-7B	MLP (discrete)	❌ Không	❌ Không
π₀ (pi-zero)	PaliGemma-3B	Flow-matching	❌ Limited	✅ Có
RDT-1B	T5-Large	DiT	❌ Không	✅ Có
HEX-VLA	Qwen3-VL	VQ-VAE	✅ Có	✅ Có
Qwen-VLA	Qwen3.5-4B	DiT Flow-matching	✅ Có	✅ Có

Về cross-embodiment, hãy so sánh với bài viết về HEX-VLA cross-embodiment humanoid — một hướng tiếp cận khác cũng đang được nghiên cứu mạnh trong cộng đồng.

Nhận xét và Hướng phát triển

Điểm mạnh:

Một bộ weights thực sự phục vụ nhiều robot và nhiều task
Embodiment-aware prompt đơn giản nhưng hiệu quả — không cần thay đổi kiến trúc khi thêm robot mới
DiT action decoder cho phép action distribution phức tạp hơn so với MLP head

Điểm cần chú ý:

Model lớn (Qwen3.5-4B backbone + 1.15B DiT = ~5.15B tham số) — cần GPU đủ VRAM
Embodiment prompt phải được viết cẩn thận — nếu prompt mô tả sai action space, robot sẽ hành động sai
DOMINO zero-shot 26.6% vẫn còn thấp — dynamic manipulation vẫn là thách thức lớn

Hướng phát triển tiếp theo:

Tích hợp với Qwen-RobotWorld để có world model-based planning
Quantization để deploy trên edge device (Jetson Orin) với model nhỏ hơn
Thêm haptic feedback và proprioception vào input stream

Kết luận

GitHub: QwenLM/Qwen-VLA — Paper: arXiv 2605.30280

Vấn đề mà Qwen-VLA giải quyết

Kiến trúc kỹ thuật

1. Vision-Language Backbone: Qwen3.5-4B

2. Action Decoder: 1.15B DiT Flow-Matching

3. Embodiment-Aware Prompt Conditioning

Training Pipeline

Cài đặt và Sử dụng

Yêu cầu hệ thống

Load Model

Inference với Embodiment Prompt

Chuyển sang Navigation Robot

Kết quả Benchmark

Manipulation Benchmarks

Navigation Benchmarks

Real-World ALOHA

Qwen-RobotSuite: Bước tiến tiếp theo (tháng 6/2026)

Qwen-RobotManip

Qwen-RobotNav

Qwen-RobotWorld

So sánh với các VLA Model khác

Nhận xét và Hướng phát triển

Kết luận

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

HEX: VLA Toàn Thân Đa Embodiment cho Humanoid

ABot-M0: VLA Foundation Model với Action Manifold

Hướng dẫn VLA-JEPA: VLA với Latent World Model V-JEPA2

Vấn đề mà Qwen-VLA giải quyết

Kiến trúc kỹ thuật

1. Vision-Language Backbone: Qwen3.5-4B

2. Action Decoder: 1.15B DiT Flow-Matching

3. Embodiment-Aware Prompt Conditioning

Training Pipeline

Cài đặt và Sử dụng

Yêu cầu hệ thống

Load Model

Inference với Embodiment Prompt

Chuyển sang Navigation Robot

Kết quả Benchmark

Manipulation Benchmarks

Navigation Benchmarks

Real-World ALOHA

Qwen-RobotSuite: Bước tiến tiếp theo (tháng 6/2026)

Qwen-RobotManip

Qwen-RobotNav

Qwen-RobotWorld

So sánh với các VLA Model khác

Nhận xét và Hướng phát triển

Kết luận

Bài viết liên quan

Nguyễn Anh Tuấn

Bài viết liên quan

HEX: VLA Toàn Thân Đa Embodiment cho Humanoid

ABot-M0: VLA Foundation Model với Action Manifold

Hướng dẫn VLA-JEPA: VLA với Latent World Model V-JEPA2