VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam
VnRobo
Về chúng tôiBảng giáBlogLiên hệ
🇺🇸ENĐăng nhậpDùng thử miễn phí
🇺🇸EN
  1. Trang chủ
  2. Blog
  3. Qwen-VLA: Mô hình VLA generalist của Alibaba
wholebody-vlavlaalibabaqwenmanipulationnavigationcross-embodimentdiffusion-transformergeneralist-robot

Qwen-VLA: Mô hình VLA generalist của Alibaba

Khám phá Qwen-VLA — VLA generalist Alibaba dùng Qwen3.5-4B + DiT decoder, một bộ weight cho manipulation, navigation và đa robot dị cấu hình.

Nguyễn Anh Tuấn29 tháng 6, 202612 phút đọc
Qwen-VLA: Mô hình VLA generalist của Alibaba

Hãy tưởng tượng bạn là kỹ sư robotics, phụ trách ba hệ thống robot hoàn toàn khác nhau: cánh tay robot ALOHA dual-arm cho assembly, robot di động WidowX cho warehouse picking, và humanoid đi bộ qua hành lang. Với các VLA hiện tại, bạn cần ba model riêng biệt, ba pipeline training riêng, ba codebase riêng. Mỗi lần thêm robot mới là thêm một núi công việc.

Qwen-VLA của Alibaba muốn giải quyết chính vấn đề này: một bộ weights, nhiều robot, nhiều task.

Paper Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments (arXiv 2605.30280, submitted tháng 5/2026) đề xuất một khung thống nhất cho phép cùng một model thực hiện cả manipulation, navigation và trajectory prediction — chỉ cần thay một text prompt để chuyển đổi giữa các robot.

Vấn đề mà Qwen-VLA giải quyết

Robotics năm 2026 đang có nghịch lý: chúng ta có ngày càng nhiều VLA model mạnh — OpenVLA, π₀ (pi-zero), RDT-1B — nhưng mỗi model lại được thiết kế cho một task cụ thể hoặc một loại robot cụ thể. Muốn fine-tune cho robot mới? Train lại từ đầu. Muốn chuyển từ manipulation sang navigation? Dùng model khác.

Vấn đề ở chỗ:

  • Hardware fragmentation: Mỗi robot có action space khác nhau — 7-DOF arm, differential drive, biped locomotion — nên output của model cần thay đổi theo hardware
  • Task fragmentation: Manipulation (pick-and-place), navigation (waypoint following), trajectory prediction (motion planning) đều có cấu trúc output hoàn toàn khác nhau
  • Data fragmentation: Dataset manipulation không thể dùng trực tiếp để train navigation và ngược lại

Qwen-VLA giải quyết bằng cách thiết kế một unified action-and-trajectory prediction framework — biểu diễn tất cả output (action, waypoint, trajectory) trong cùng một không gian, và dùng embodiment-aware prompt conditioning để model biết nó đang điều khiển loại robot nào.

Khuyến nghị công cụ

Stack train/deploy cho VLA

Train trên cloud/workstation, deploy bản tối ưu xuống Jetson hoặc robot computer.

Cloud GPU for VLA / policy training Dùng cho imitation learning, diffusion policy, RL và fine-tuning model robotics. Xem cloud GPU → NVIDIA Jetson Orin NX / Orin Nano Máy deploy edge cho perception, logging và inference đã tối ưu. Xem Jetson → Hugging Face / robotics dataset hosting Lưu dataset, checkpoint và model card để workflow LeRobot/VLA dễ chia sẻ hơn. Xem platform →

Kiến trúc kỹ thuật

Qwen-VLA gồm hai thành phần chính ghép với nhau:

1. Vision-Language Backbone: Qwen3.5-4B

Phần "hiểu thế giới" của model dựa trên Qwen3.5-4B — mô hình ngôn ngữ-thị giác của Alibaba. Backbone này xử lý:

  • Hình ảnh từ camera (RGB, depth, hoặc multi-view tùy cấu hình robot)
  • Text instruction từ người dùng ("pick up the red cup and place it on the tray")
  • Embodiment prompt — một đoạn text mô tả robot đang dùng, action space của nó, và convention điều khiển

Backbone Qwen3.5-4B đã được pretrain trên lượng lớn dữ liệu ngôn ngữ và thị giác, mang lại khả năng visual grounding (xác định vật thể trong không gian) và spatial reasoning (hiểu quan hệ không gian) cần thiết cho cả manipulation lẫn navigation.

2. Action Decoder: 1.15B DiT Flow-Matching

Đây là điểm đặc biệt nhất của Qwen-VLA. Thay vì dùng autoregressive decoding (predict token từng bước như LLM thông thường), họ dùng Diffusion Transformer (DiT) với flow-matching.

Flow-matching là một phương pháp generative học cách "chảy" từ noise distribution về action distribution trong ít bước hơn DDPM truyền thống. DiT action decoder có 1.15 tỷ tham số — lớn hơn nhiều so với action heads thông thường — cho phép model học các action distribution phức tạp.

Input (vision tokens + text tokens từ Qwen3.5-4B)
        │
        ▼
DiT Action Decoder (1.15B params, flow-matching)
        │
        ▼
Continuous action vector (7-DOF joint positions, base velocity, etc.)

Điểm mấu chốt: action decoder KHÔNG thay đổi giữa các robot. Thay vào đó, robot được phân biệt qua embodiment-aware prompt.

3. Embodiment-Aware Prompt Conditioning

Đây là cơ chế cho phép một model serve nhiều robot. Trước mỗi task, người dùng cung cấp một đoạn text mô tả robot hiện tại:

"You are controlling a 7-DOF ALOHA dual-arm robot. 
The action space is [left_joint_0...6, right_joint_0...6, left_gripper, right_gripper].
Actions are in joint position space, range [-1, 1]."

Với robot navigation thì prompt khác:

"You are controlling a WidowX mobile manipulator.
The action space is [base_vx, base_vy, base_wz, arm_joint_0...5, gripper].
Navigate to the target location while avoiding obstacles."

Model học cách đọc prompt này và điều chỉnh output tương ứng. Không cần per-platform output head riêng biệt — chỉ cần thay text.

┌─────────────────────────────────────────────────────┐
│                   QWEN-VLA MODEL                    │
│                                                     │
│  [Camera RGB]  [Depth]  [Embodiment Prompt]         │
│       │              │            │                 │
│       └──────────────┴────────────┘                 │
│                       │                             │
│            ┌──────────▼──────────┐                  │
│            │  Qwen3.5-4B VLM     │  ← Vision tokens │
│            │  Visual Grounding   │    + Text tokens  │
│            │  Spatial Reasoning  │                  │
│            └──────────┬──────────┘                  │
│                       │ Feature embedding            │
│            ┌──────────▼──────────┐                  │
│            │ DiT Action Decoder  │  1.15B params     │
│            │ Flow-matching       │  ← Noise input    │
│            └──────────┬──────────┘                  │
│                       │                             │
│            ┌──────────▼──────────┐                  │
│            │   Action Vector     │                  │
│            │  (continuous, N-D)  │                  │
│            └─────────────────────┘                  │
└─────────────────────────────────────────────────────┘

Training Pipeline

Qwen-VLA được train theo joint pretraining — tất cả loại dữ liệu cùng được dùng để train một model duy nhất. Dữ liệu bao gồm:

Nguồn dữ liệu Loại Mục đích
Robot manipulation trajectories Demos từ Open X-Embodiment, BridgeV2, RoboTwin Học manipulation
Human egocentric videos Video từ Ego4D, EPIC-Kitchens Học hand-object interaction
Synthetic simulation data Isaac Sim, MuJoCo rollouts Augmentation, rare scenarios
Vision-language navigation data R2R, RxR, NavInstruct Học navigation
Trajectory-centric supervision Keypoint tracks, optical flow Học trajectory prediction
Auxiliary VLM data VQA, captioning Duy trì visual grounding

Chiến lược train gồm hai giai đoạn:

  1. Pretraining: Train trên toàn bộ dữ liệu trên với mixed-task batching. Model học các skill cơ bản: nhận diện vật thể, follow instruction, sinh action.

  2. Instruction tuning (Instruct variant): Fine-tune trên high-quality task-specific data để cải thiện instruction following và generalization.

Kết quả: Qwen-VLA-Base (sau giai đoạn 1) và Qwen-VLA-Instruct (sau giai đoạn 2). Có thêm Qwen-VLA-aloha — biến thể pretrain thêm trên dữ liệu ALOHA real-robot.

Cài đặt và Sử dụng

Yêu cầu hệ thống

# Python 3.10+, CUDA 12.1+, GPU >= 24GB VRAM (cho Instruct)
# hoặc >= 16GB với quantization

# Clone repo
git clone https://github.com/QwenLM/Qwen-VLA.git
cd Qwen-VLA

# Tạo môi trường conda
conda create -n qwen-vla python=3.10
conda activate qwen-vla

# Cài dependencies
pip install -r requirements.txt

Load Model

from transformers import AutoProcessor, AutoModelForCausalLM
import torch

# Load Qwen-VLA-Instruct
model_name = "Qwen/Qwen-VLA-Instruct"

processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

Inference với Embodiment Prompt

from PIL import Image
import torch

# Embodiment prompt cho ALOHA robot
embodiment_prompt = """You are controlling a 7-DOF ALOHA dual-arm robot.
Action space: [left_joint_0..6, right_joint_0..6, left_gripper, right_gripper].
Actions are normalized joint positions in range [-1, 1]."""

# Task instruction
task = "Pick up the yellow cup and place it on the white plate."

# Chuẩn bị input
image = Image.open("camera_frame.jpg")
messages = [
    {
        "role": "system",
        "content": embodiment_prompt
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": task}
        ]
    }
]

# Tokenize
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
inputs = processor(
    text=[text],
    images=[image],
    return_tensors="pt"
).to("cuda")

# Generate action (flow-matching inference)
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=64,
        do_sample=False
    )

# Decode thành action vector
action = processor.decode_action(outputs[0])
print(f"Action: {action}")
# Output: tensor([0.12, -0.03, 0.45, ...]) — 14-dim ALOHA action

Chuyển sang Navigation Robot

# Chỉ cần thay embodiment prompt — model weights KHÔNG đổi
embodiment_prompt = """You are controlling a WidowX mobile robot.
Action space: [base_x_vel, base_y_vel, base_theta_vel, arm_joint_0..5, gripper].
Navigate to target location while avoiding obstacles."""

task = "Navigate to the kitchen counter and pick up the bottle."

# Inference hoàn toàn giống trên — chỉ prompt thay đổi

Xem thêm về fine-tuning model VLA cho task cụ thể trong bài hướng dẫn fine-tune Embodied-R1.5 trên LIBERO.

Kết quả Benchmark

Qwen-VLA-Instruct đạt kết quả ấn tượng trên cả ba loại task:

Manipulation Benchmarks

Benchmark Qwen-VLA-Instruct Baseline tốt nhất Cải thiện
LIBERO 97.9% 95.2% (π₀.5) +2.7%
Simpler-WidowX 73.7% 71.6% (π₀.5) +2.1%
RoboTwin-Easy 86.1% 81.0% +5.1%
RoboTwin-Hard 87.2% 79.3% +7.9%
DOMINO (zero-shot) 26.6% 18.2% +8.4%

DOMINO là benchmark đặc biệt thú vị — dynamic manipulation với vật thể chuyển động, test zero-shot. Cải thiện 8.4% điểm phần trăm so với baseline cho thấy Qwen-VLA generalize tốt hơn đáng kể.

Navigation Benchmarks

Benchmark Qwen-VLA-Instruct Mô tả
R2R (OSR) 69.0% Vision-Language Navigation trong môi trường 3D
RxR (SR) 59.6% Multilingual navigation benchmark

Điều đáng chú ý là đây là cùng một model thực hiện cả manipulation lẫn navigation — không phải hai model riêng biệt được fine-tune riêng.

Real-World ALOHA

Điều kiện Success Rate
In-distribution (in-domain) 83.6%
Out-of-distribution (OOD) 76.9%

Qwen-VLA-aloha (với pretraining ALOHA) đạt 76.9% OOD success — tức là robot vẫn hoạt động tốt khi bàn được xê dịch, thay đổi màu vật thể, hay đổi vị trí camera. Điều này rất quan trọng cho deployment thực tế.

Demo Qwen-VLA real-world: manipulation và navigation từ một bộ weights — nguồn: QwenLM

Qwen-RobotSuite: Bước tiến tiếp theo (tháng 6/2026)

Sau khi ra mắt Qwen-VLA, đội ngũ Qwen tiếp tục với Qwen-RobotSuite (tháng 6/2026) — bộ ba model chuyên biệt hơn:

Qwen-RobotManip

VLA cho manipulation, cải tiến từ Qwen-VLA:

  • 80-dimensional canonical action space với per-dimension binary masking — một trick hay: action space được chuẩn hóa thành 80 chiều cố định, nhưng dimension nào không dùng sẽ bị mask. ALOHA dùng 14 chiều (7+7 joints), WidowX dùng 8 chiều — cùng model, khác mask.
  • In-context policy adaptation: Cho model xem 1-3 demo ngắn của task mới để adapt mà không cần fine-tune
  • Camera-frame delta pose parameterization: Action được tính theo góc nhìn camera thay vì base frame — giảm variance khi camera dịch chuyển

Kết quả: #1 trên RoboChallenge Table30-v1 (benchmark tổng hợp của cộng đồng); 91.4% trên LIBERO-Plus (so với 84.4% SOTA cũ); 69.4% trên RoboTwin-C2R Hard (so với 47.9%).

Qwen-RobotNav

Navigation model với Qwen3-VL backbone (2B/4B/8B):

  • Dự đoán 8 waypoints cùng lúc thay vì từng bước một
  • Cải thiện HM-EQA (Embodied QA) +10.8%, EXPRESS-Bench +15.4%
  • Giảm 77% số bước navigation cần thiết

Qwen-RobotWorld

Video world model (20B tham số) — predict video tương lai từ action. Đây là thành phần thứ ba trong hệ sinh thái, cho phép robot "tưởng tượng" kết quả của action trước khi thực thi.

So sánh với các VLA Model khác

Model Backbone Action Decoder Cross-embodiment Multi-task
OpenVLA Prismatic-7B MLP (discrete) ❌ Không ❌ Không
π₀ (pi-zero) PaliGemma-3B Flow-matching ❌ Limited ✅ Có
RDT-1B T5-Large DiT ❌ Không ✅ Có
HEX-VLA Qwen3-VL VQ-VAE ✅ Có ✅ Có
Qwen-VLA Qwen3.5-4B DiT Flow-matching ✅ Có ✅ Có

Qwen-VLA nổi bật ở chỗ kết hợp được cả cross-embodiment lẫn multi-task trong một model. Đây là điều mà phần lớn VLA model trước đây không làm được đồng thời.

Về cross-embodiment, hãy so sánh với bài viết về HEX-VLA cross-embodiment humanoid — một hướng tiếp cận khác cũng đang được nghiên cứu mạnh trong cộng đồng.

Nhận xét và Hướng phát triển

Điểm mạnh:

  • Một bộ weights thực sự phục vụ nhiều robot và nhiều task
  • Embodiment-aware prompt đơn giản nhưng hiệu quả — không cần thay đổi kiến trúc khi thêm robot mới
  • DiT action decoder cho phép action distribution phức tạp hơn so với MLP head

Điểm cần chú ý:

  • Model lớn (Qwen3.5-4B backbone + 1.15B DiT = ~5.15B tham số) — cần GPU đủ VRAM
  • Embodiment prompt phải được viết cẩn thận — nếu prompt mô tả sai action space, robot sẽ hành động sai
  • DOMINO zero-shot 26.6% vẫn còn thấp — dynamic manipulation vẫn là thách thức lớn

Hướng phát triển tiếp theo:

  • Tích hợp với Qwen-RobotWorld để có world model-based planning
  • Quantization để deploy trên edge device (Jetson Orin) với model nhỏ hơn
  • Thêm haptic feedback và proprioception vào input stream

Nếu bạn muốn hiểu thêm về cách các VLA model hiện đại được thiết kế, bài LabVLA với Qwen3-VL cung cấp một góc nhìn khác về việc dùng Qwen3 làm backbone cho robot.

Kết luận

Qwen-VLA đánh dấu một bước tiến quan trọng trong hướng "generalist robot brain" — thay vì mỗi robot có VLA riêng, một model duy nhất có thể phục vụ nhiều platform chỉ qua thay đổi text prompt. Kết quả benchmark ấn tượng (97.9% LIBERO, 76.9% ALOHA OOD) và mã nguồn mở hoàn toàn làm Qwen-VLA trở thành baseline quan trọng để tham khảo cho bất kỳ dự án VLA nào năm 2026.

GitHub: QwenLM/Qwen-VLA — Paper: arXiv 2605.30280


Bài viết liên quan

  • OpenVLA: Deep Dive vào VLA Model đầu tiên thực sự open-source
  • HEX-VLA: Cross-embodiment VLA cho humanoid whole-body control
  • Embodied-R1.5: Fine-tune VLA trên LIBERO bằng LeRobot
NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Khám phá VnRobo

Fleet MonitoringROS 2 IntegrationAMR Solutions

Bài viết liên quan

Tutorial
HEX: VLA Toàn Thân Đa Embodiment cho Humanoid
vlawhole-bodyhumanoid
wholebody-vla

HEX: VLA Toàn Thân Đa Embodiment cho Humanoid

Hướng dẫn chi tiết HEX — VLA whole-body manipulation đầu tiên cho humanoid full-size, hỗ trợ 7 embodiment, open-source với Qwen3-VL + MoE + DiT flow-matching.

10/6/202610 phút đọc
NT
Nghiên cứu
ABot-M0: VLA Foundation Model với Action Manifold
vlafoundation-modelaction-manifold
wholebody-vla

ABot-M0: VLA Foundation Model với Action Manifold

Hướng dẫn ABot-M0 từ AMAP CVLab Alibaba: VLA train trên 6M+ trajectories, predict clean actions thay vì noise, code + weights open-source.

15/5/202610 phút đọc
NT
NEWTutorial
Hướng dẫn VLA-JEPA: VLA với Latent World Model V-JEPA2
vlajepaworld-model
wholebody-vla

Hướng dẫn VLA-JEPA: VLA với Latent World Model V-JEPA2

VLA-JEPA kết hợp Qwen3-VL với V-JEPA2 latent world model, chạy 10Hz trên RTX 3080, fine-tune chỉ cần 13 demo. Hướng dẫn cài đặt và training trên LeRobot.

22/6/202612 phút đọc
NT
VnRobo logo

Hạ tầng AI cho robot công nghiệp thế hệ mới.

Sản phẩm

  • Tính năng
  • Bảng giá
  • Kiến thức
  • Dịch vụ

Công ty

  • Về chúng tôi
  • Blog
  • Liên hệ

Pháp lý

  • Chính sách bảo mật
  • Điều khoản sử dụng

© 2026 VnRobo. Bảo lưu mọi quyền.

Được tạo với♥tại Việt Nam