researchai-perceptionresearchrobotics

Embodied AI 2026: Toàn cảnh và xu hướng

Tổng quan embodied AI -- từ foundation models, sim-to-real đến robot learning tại scale với open-source tools.

Nguyen Anh Tuan25 tháng 3, 202612 phút đọc
Embodied AI 2026: Toàn cảnh và xu hướng

Embodied AI là gì?

Embodied AI (trí tuệ nhân tạo hữu hình) là lĩnh vực nghiên cứu và ứng dụng AI trong thế giới vật lý -- nơi AI không chỉ xử lý text và image trên server, mà còn hành động thông qua robot, drone, hoặc autonomous vehicle.

Khác với chatbot hay image generator, embodied AI cần:

  • Perceive: Nhìn, nghe, cảm nhận môi trường qua sensors
  • Reason: Hiểu ngôn ngữ, lập kế hoạch, ra quyết định
  • Act: Thực hiện hành động vật lý -- gắp đồ vật, di chuyển, thao tác

Năm 2026, embodied AI đang trải qua bước nhảy lớn nhờ sự hội tụ của 3 xu hướng: foundation models mạnh hơn (VLA), dữ liệu đa dạng hơn (Open X-Embodiment), và compute rẻ hơn (GPU cloud). Bài viết này phân tích toàn cảnh và xu hướng quan trọng nhất.

Embodied AI 2026 -- AI hành động trong thế giới thực

Xu hướng 1: VLA Models -- "Brain" của robot

VLA là gì?

Vision-Language-Action (VLA) models là foundation models kết hợp:

  • Vision: Nhìn và hiểu môi trường qua camera
  • Language: Hiểu lệnh bằng ngôn ngữ tự nhiên ("pick up the red cup")
  • Action: Xuất ra hành động cụ thể cho robot (joint positions, velocities)

VLA là bước tiến hóa từ Vision-Language Models (VLM như GPT-4V, Gemini) -- thêm khả năng hành động thay vì chỉ trả lời câu hỏi.

Các VLA model quan trọng 2026

Model Team Params Đặc điểm Open-source?
Pi0 Physical Intelligence 3B Fast inference, general manipulation Weights có sẵn
Pi0-FAST Physical Intelligence 3B Autoregressive, nhanh hơn Pi0
OpenVLA Stanford/Berkeley 7B Vượt RT-2-X (55B) 16.5% với chỉ 7B params Có (Apache 2.0)
GR00T N1.5 NVIDIA 2.2B Optimized cho Jetson, cross-embodiment Weights + framework
Helix Figure AI 7B backbone Dùng trong Figure 02 humanoid Không
SmolVLA Hugging Face ~1B Nhẹ nhất, chạy được trên edge
XVLA Community - Cross-embodiment transfer

Điểm đáng chú ý: Trong khi language models đang chạy đua lên hundreds of billions parameters, các VLA model hiệu quả nhất chỉ cần 2-7B parameters. OpenVLA (7B) đã vượt RT-2-X (55B, Google) 16.5% về absolute success rate. Điều này cho thấy architecture và data quan trọng hơn raw scale cho robot tasks.

Physical Intelligence -- Startup dẫn đầu

Physical Intelligence (Pi) là startup được chú ý nhất trong embodied AI:

  • Tổng vốn huy động: $1.1 tỷ USD (bao gồm vòng $600M gần nhất)
  • Định giá: $5.6 tỷ USD
  • Sản phẩm: Pi0 và Pi0-FAST -- VLA models cho general-purpose manipulation
  • Team: Co-founders từ Google Brain, UC Berkeley, Stanford

Pi0 đặc biệt ở chỗ nó là generalist model -- một model có thể thực hiện nhiều tasks khác nhau (folding laundry, assembling, cooking) mà không cần fine-tune riêng cho từng task.

OpenVLA -- Open-source champion

OpenVLA (Stanford + Berkeley) chứng minh rằng open-source có thể vượt mặt proprietary models:

  • 7B parameters -- nhỏ đủ để chạy trên consumer GPU
  • Train trên Open X-Embodiment dataset (970K+ robot episodes)
  • Fine-tune cho task mới chỉ cần vài trăm episodes
  • Apache 2.0 license -- tự do sử dụng và modify
# Sử dụng OpenVLA
from transformers import AutoModelForVision2Seq, AutoProcessor

model = AutoModelForVision2Seq.from_pretrained("openvla/openvla-7b")
processor = AutoProcessor.from_pretrained("openvla/openvla-7b")

# Predict action từ image + language instruction
inputs = processor(images=camera_image, text="pick up the red cup")
action = model.generate(**inputs)

Xu hướng 2: Open X-Embodiment và cross-embodiment transfer

Vấn đề: Data silo

Trước 2023, mỗi lab tự thu thập data riêng, trên robot riêng, cho task riêng. Kết quả: mỗi dataset chỉ có vài nghìn episodes, không đủ để train foundation model.

Giải pháp: Open X-Embodiment

Open X-Embodiment (Google DeepMind + 33 research institutions) là dataset chung lớn nhất cho robot learning:

  • 970K+ robot episodes từ 22 loại robot khác nhau
  • 527 skills khác nhau (grasping, placing, pushing, pouring...)
  • Chuẩn hóa format để các lab đóng góp và sử dụng

Cross-embodiment transfer

Ý tưởng then chốt: model train trên data từ nhiều loại robot có thể generalize sang robot mới -- tương tự như GPT train trên nhiều loại text có thể xử lý text mới.

Kết quả thực tế:

  • RT-2-X train trên Open X-Embodiment tăng 50% success rate so với train trên 1 robot
  • OpenVLA (7B) fine-tune cho robot mới chỉ cần 200-500 episodes (thay vì hàng nghìn)
  • GR00T N1.5 của NVIDIA được thiết kế từ đầu cho cross-embodiment

Ý nghĩa: Bạn không cần hàng triệu episodes để train robot mới -- leverage data từ community là đủ.

Xu hướng 3: Sim-to-Real tại scale

Tại sao sim-to-real quan trọng?

Thu thập data trên robot thật chậm và đắt: mỗi episode mất vài phút, robot có thể hỏng, cần người giám sát. Trong simulation, bạn chạy hàng nghìn robots song song, mỗi robot thực hiện hàng trăm episodes mỗi giờ, miễn phí.

Các breakthrough 2025-2026

NVIDIA Isaac Lab 2.2 (2025):

  • 10,000+ parallel environments trên single GPU
  • Tiled rendering: tăng tốc 1.2x cho visual tasks
  • Newton Physics Engine: co-developed với Google DeepMind và Disney Research
  • Isaac Lab Arena: scalable policy evaluation framework

MuJoCo 3.x + MJX-Warp (2025-2026):

  • MJX trên NVIDIA GPU đạt throughput tương đương Isaac Lab
  • Deformable objects (flex) cho soft manipulation
  • SDF collision cho complex geometries

LeRobot + Isaac Lab integration (2026):

  • Train policies trong Isaac Lab, deploy qua LeRobot
  • Pipeline liên mạch từ sim đến real

Domain randomization tại scale

Domain randomization -- thay đổi lighting, texture, physics parameters -- là chìa khóa để policy train trong sim hoạt động trên robot thật. Với GPU parallelism, bạn có thể:

4,096 environments x 100 randomization configs = 409,600 diverse experiences/batch

Đây là lý do các policy sim-to-real 2026 hoạt động tốt hơn 2023 rất nhiều -- đơn giản là nhiều data đa dạng hơn.

Sim-to-real pipeline 2026 -- từ simulation đến robot thật

Xu hướng 4: Đầu tư kỷ lục

Số liệu đầu tư

Thị trường embodied AI và robotics đang nhận lượng vốn kỷ lục:

  • $22.2 tỷ USD đầu tư vào robotics startups năm 2025 (tăng 69% YoY)
  • Dự kiến gấp đôi trong 2026
  • Thị trường embodied AI đạt $4.44 tỷ USD năm 2025, tăng trưởng 39%/năm, dự kiến $23 tỷ USD vào 2030

Các vòng gọi vốn lớn nhất

Công ty Vòng Số tiền Định giá Lĩnh vực
Physical Intelligence Series B $600M $5.6B VLA foundation models
Figure AI Series B $675M $2.6B Humanoid + AI
Apptronik Series A $350M - Humanoid (Apollo)
1X Technologies Series B $100M - Humanoid (NEO)
X Square Robot Series A $140M - AI foundation models cho robot
Dyna Robotics Series A $120M - Embodied AI

TAM (Total Addressable Market)

Morgan Stanley ước tính TAM cho humanoid robot$5 nghìn tỷ USD vào 2050 -- lớn hơn cả thị trường smartphone hiện tại. Đây là lý do VC đang "đổ tiền" vào lĩnh vực này dù hầu hết công ty chưa có lợi nhuận.

Xu hướng 5: Conference và research

ICLR 2026 -- VLA bùng nổ

Tại ICLR 2026, số lượng papers về VLA tăng đột biến: hàng trăm submissions liên quan đến vision-language-action models, embodied reasoning, và robot learning. Các themes chính:

  1. Scaling VLA: Tăng kích thước model và data có cải thiện performance?
  2. Generalist vs Specialist: Một model cho tất cả hay nhiều model chuyên biệt?
  3. Real-world evaluation: Benchmarks nào phản ánh đúng khả năng của robot?
  4. Safety: Làm sao đảm bảo robot AI an toàn trong môi trường thực?

Các conference quan trọng 2026

Conference Thời gian Địa điểm Focus
ICRA 2026 May Atlanta, USA Robotics + Automation
RSS 2026 July Los Angeles, USA Robotics research
IROS 2026 October Abu Dhabi Intelligent Robots
CoRL 2026 November TBD Robot Learning (core)
NeurIPS 2026 December TBD ML + Embodied AI track

Các công ty dẫn đầu embodied AI

Google DeepMind

  • RT-2, RT-X: Pioneer trong VLA research
  • Open X-Embodiment: Dẫn đầu effort thu thập data chung
  • Gemini Robotics: Tích hợp Gemini vào robot control (2026)
  • Thế mạnh: Data, compute, research team

Physical Intelligence

  • Pi0, Pi0-FAST: State-of-the-art VLA cho manipulation
  • Approach: Generalist model, train trên diverse data
  • Thế mạnh: Focus, funding ($1.1B), top talent

NVIDIA

  • GR00T N1.5: VLA optimized cho edge (Jetson)
  • Isaac Lab: Simulation platform
  • Thế mạnh: Hardware (GPU, Jetson) + software ecosystem

Figure AI

  • Helix: VLA model (7B) cho Figure 02 humanoid
  • Approach: Full-stack (hardware + software)
  • Partnership: BMW cho factory deployment
  • Thế mạnh: End-to-end integration

Hugging Face

  • LeRobot: Open-source framework
  • SmolVLA: Lightweight VLA model
  • Thế mạnh: Community, open-source ecosystem, Hub infrastructure

Covariant

  • RFM-1: Large-scale foundation model cho industrial robots
  • Focus: Warehouse picking, logistics
  • Thế mạnh: Real-world deployment data từ customers

Ý nghĩa cho kỹ sư

1. Skills mới cần học

Embodied AI thay đổi skills profile của kỹ sư robotics:

Trước 2024: PLC, kinematics, classical control 2026+: VLA fine-tuning, dataset curation, sim-to-real pipeline, ROS 2 + ML integration

Không có nghĩa là classical skills không còn giá trị -- nhưng kỹ sư kết hợp được cả hai sẽ có lợi thế lớn.

2. Open-source là lợi thế

Với OpenVLA, LeRobot, MuJoCo, Isaac Lab -- tất cả đều miễn phí và open-source. Barrier to entry chưa bao giờ thấp như bây giờ. Một sinh viên với laptop và $100 (SO-100 arm) có thể train VLA model cho robot.

3. Data là "new oil" cho robotics

Các công ty có data thực tế từ robot deployment (Covariant, Figure, Unitree) có lợi thế lớn -- vì VLA models cần diverse, real-world data để improve. Đây là lý do các công ty rush to deploy -- không chỉ để bán robot, mà để thu thập data.

4. Career opportunities

Vai trò Mô tả Demand
Robot Learning Engineer Train và deploy VLA/RL policies Rất cao
Simulation Engineer Xây dựng sim environments, domain randomization Cao
Data Engineer (Robotics) Thu thập, clean, format robot data Tăng mạnh
MLOps for Robots Deploy, monitor ML models trên robot fleet Mới nhưng cần thiết
Safety Engineer Đảm bảo robot AI an toàn Quan trọng và thiếu người

Embodied AI ecosystem 2026 -- từ research đến deployment

Dự đoán 2026-2028

1. VLA >100B parameters

Dự đoán: trước cuối 2026, ít nhất một VLA model với >100B parameters sẽ được publish và cho state-of-the-art trên robotics benchmarks. Scale vẫn chưa chạm trần cho VLA.

2. Humanoid triển khai tại nhà máy

2027 sẽ là năm humanoid robot thực sự hoạt động trong nhà máy -- không chỉ demo. Unitree, Figure, và Tesla đều nhắm vào milestone này.

3. Home robot prototype

Ít nhất một công ty sẽ demo home assistant robot có thể làm việc nhà cơ bản (dọn dẹp, rửa bát, gấp quần áo) -- dùng VLA model. Chưa bán thương mại nhưng sẽ tạo buzz lớn.

4. Regulation bắt đầu

EU và Trung Quốc sẽ ban hành quy định đầu tiên về robot AI trong môi trường có người -- tương tự như AI Act nhưng cho physical AI.

5. Open-source gặp proprietary

Với OpenVLA, LeRobot và community effort, open-source VLA sẽ đạt >80% performance của proprietary models (Pi0, Helix) -- tương tự như Llama vs GPT trong LLM.

Bắt đầu từ đâu?

Nếu bạn muốn tham gia embodied AI:

Người mới bắt đầu

  1. Học Python + PyTorch cơ bản
  2. Đọc paper "RT-2: Vision-Language-Action Models" (Google DeepMind)
  3. Cài đặt LeRobot và chạy pretrained model trên simulation
  4. Làm 1 project nhỏ: train ACT trên ALOHA sim

Kỹ sư có kinh nghiệm

  1. Fine-tune OpenVLA cho task của bạn
  2. Xây dựng sim-to-real pipeline với Isaac Lab + LeRobot
  3. Thử nghiệm cross-embodiment transfer từ sim data
  4. Contribute vào Open X-Embodiment dataset

Researcher

  1. Đọc survey: "A Survey on Vision-Language-Action Models for Embodied AI"
  2. Theo dõi papers từ ICRA, CoRL, RSS 2026
  3. Thử nghiệm VLA scaling -- model size vs data size vs performance
  4. Explore safety và alignment cho embodied AI

Kết luận

Embodied AI 2026 đang ở inflection point -- tương tự như LLMs năm 2022. Foundation models (VLA), diverse data (Open X-Embodiment), simulation tại scale (Isaac Lab), và vốn đầu tư kỷ lục ($22B+) đang tạo nên perfect storm cho sự phát triển bùng nổ.

Câu hỏi không phải là "embodied AI có thành công không?" mà là "ai sẽ dẫn đầu?" Hiện tại, cuộc đua đang giữa Physical Intelligence (VLA), NVIDIA (platform), Google DeepMind (research), và các công ty Trung Quốc (hardware + deployment). Và với open-source ngày càng mạnh, bất kỳ ai cũng có thể tham gia.


Bài viết liên quan

NT

Nguyễn Anh Tuấn

Robotics & AI Engineer. Building VnRobo — sharing knowledge about robot learning, VLA models, and automation.

Bài viết liên quan

NEWTutorial
Hướng dẫn GigaBrain-0: VLA + World Model + RL
vlaworld-modelreinforcement-learninggigabrainroboticsmanipulation

Hướng dẫn GigaBrain-0: VLA + World Model + RL

Hướng dẫn chi tiết huấn luyện VLA bằng World Model và Reinforcement Learning với framework RAMP từ GigaBrain — open-source, 3.5B params.

12/4/202611 phút đọc
NEWDeep Dive
Gemma 4 cho Robotics: AI mã nguồn mở chạy trên Edge
ai-perceptionedge-computinggemmagoogleopen-source

Gemma 4 cho Robotics: AI mã nguồn mở chạy trên Edge

Phân tích Gemma 4 của Google — mô hình AI mã nguồn mở hỗ trợ multimodal, agentic, chạy trên Jetson và Raspberry Pi cho robotics.

12/4/202612 phút đọc
NEWNghiên cứu
Gemma 4 và Ứng Dụng Trong Robotics
ai-perceptiongemmaedge-aifoundation-modelsrobotics

Gemma 4 và Ứng Dụng Trong Robotics

Phân tích kiến trúc Gemma 4 của Google — từ on-device AI đến ứng dụng thực tế trong điều khiển robot, perception và agentic workflows.

12/4/202612 phút đọc