← Quay lại Blog
researchai-perceptionresearchrobotics

Embodied AI 2026: Toàn cảnh và xu hướng

Tổng quan embodied AI -- từ foundation models, sim-to-real đến robot learning tại scale với open-source tools.

Nguyen Anh Tuan25 tháng 3, 202612 phút đọc
Embodied AI 2026: Toàn cảnh và xu hướng

Embodied AI là gì?

Embodied AI (trí tuệ nhân tạo hữu hình) là lĩnh vực nghiên cứu và ứng dụng AI trong thế giới vật lý -- nơi AI không chỉ xử lý text và image trên server, mà còn hành động thông qua robot, drone, hoặc autonomous vehicle.

Khác với chatbot hay image generator, embodied AI cần:

Năm 2026, embodied AI đang trải qua bước nhảy lớn nhờ sự hội tụ của 3 xu hướng: foundation models mạnh hơn (VLA), dữ liệu đa dạng hơn (Open X-Embodiment), và compute rẻ hơn (GPU cloud). Bài viết này phân tích toàn cảnh và xu hướng quan trọng nhất.

Embodied AI 2026 -- AI hành động trong thế giới thực

Xu hướng 1: VLA Models -- "Brain" của robot

VLA là gì?

Vision-Language-Action (VLA) models là foundation models kết hợp:

VLA là bước tiến hóa từ Vision-Language Models (VLM như GPT-4V, Gemini) -- thêm khả năng hành động thay vì chỉ trả lời câu hỏi.

Các VLA model quan trọng 2026

Model Team Params Đặc điểm Open-source?
Pi0 Physical Intelligence 3B Fast inference, general manipulation Weights có sẵn
Pi0-FAST Physical Intelligence 3B Autoregressive, nhanh hơn Pi0
OpenVLA Stanford/Berkeley 7B Vượt RT-2-X (55B) 16.5% với chỉ 7B params Có (Apache 2.0)
GR00T N1.5 NVIDIA 2.2B Optimized cho Jetson, cross-embodiment Weights + framework
Helix Figure AI 7B backbone Dùng trong Figure 02 humanoid Không
SmolVLA Hugging Face ~1B Nhẹ nhất, chạy được trên edge
XVLA Community - Cross-embodiment transfer

Điểm đáng chú ý: Trong khi language models đang chạy đua lên hundreds of billions parameters, các VLA model hiệu quả nhất chỉ cần 2-7B parameters. OpenVLA (7B) đã vượt RT-2-X (55B, Google) 16.5% về absolute success rate. Điều này cho thấy architecture và data quan trọng hơn raw scale cho robot tasks.

Physical Intelligence -- Startup dẫn đầu

Physical Intelligence (Pi) là startup được chú ý nhất trong embodied AI:

Pi0 đặc biệt ở chỗ nó là generalist model -- một model có thể thực hiện nhiều tasks khác nhau (folding laundry, assembling, cooking) mà không cần fine-tune riêng cho từng task.

OpenVLA -- Open-source champion

OpenVLA (Stanford + Berkeley) chứng minh rằng open-source có thể vượt mặt proprietary models:

# Sử dụng OpenVLA
from transformers import AutoModelForVision2Seq, AutoProcessor

model = AutoModelForVision2Seq.from_pretrained("openvla/openvla-7b")
processor = AutoProcessor.from_pretrained("openvla/openvla-7b")

# Predict action từ image + language instruction
inputs = processor(images=camera_image, text="pick up the red cup")
action = model.generate(**inputs)

Xu hướng 2: Open X-Embodiment và cross-embodiment transfer

Vấn đề: Data silo

Trước 2023, mỗi lab tự thu thập data riêng, trên robot riêng, cho task riêng. Kết quả: mỗi dataset chỉ có vài nghìn episodes, không đủ để train foundation model.

Giải pháp: Open X-Embodiment

Open X-Embodiment (Google DeepMind + 33 research institutions) là dataset chung lớn nhất cho robot learning:

Cross-embodiment transfer

Ý tưởng then chốt: model train trên data từ nhiều loại robot có thể generalize sang robot mới -- tương tự như GPT train trên nhiều loại text có thể xử lý text mới.

Kết quả thực tế:

Ý nghĩa: Bạn không cần hàng triệu episodes để train robot mới -- leverage data từ community là đủ.

Xu hướng 3: Sim-to-Real tại scale

Tại sao sim-to-real quan trọng?

Thu thập data trên robot thật chậm và đắt: mỗi episode mất vài phút, robot có thể hỏng, cần người giám sát. Trong simulation, bạn chạy hàng nghìn robots song song, mỗi robot thực hiện hàng trăm episodes mỗi giờ, miễn phí.

Các breakthrough 2025-2026

NVIDIA Isaac Lab 2.2 (2025):

MuJoCo 3.x + MJX-Warp (2025-2026):

LeRobot + Isaac Lab integration (2026):

Domain randomization tại scale

Domain randomization -- thay đổi lighting, texture, physics parameters -- là chìa khóa để policy train trong sim hoạt động trên robot thật. Với GPU parallelism, bạn có thể:

4,096 environments x 100 randomization configs = 409,600 diverse experiences/batch

Đây là lý do các policy sim-to-real 2026 hoạt động tốt hơn 2023 rất nhiều -- đơn giản là nhiều data đa dạng hơn.

Sim-to-real pipeline 2026 -- từ simulation đến robot thật

Xu hướng 4: Đầu tư kỷ lục

Số liệu đầu tư

Thị trường embodied AI và robotics đang nhận lượng vốn kỷ lục:

Các vòng gọi vốn lớn nhất

Công ty Vòng Số tiền Định giá Lĩnh vực
Physical Intelligence Series B $600M $5.6B VLA foundation models
Figure AI Series B $675M $2.6B Humanoid + AI
Apptronik Series A $350M - Humanoid (Apollo)
1X Technologies Series B $100M - Humanoid (NEO)
X Square Robot Series A $140M - AI foundation models cho robot
Dyna Robotics Series A $120M - Embodied AI

TAM (Total Addressable Market)

Morgan Stanley ước tính TAM cho humanoid robot$5 nghìn tỷ USD vào 2050 -- lớn hơn cả thị trường smartphone hiện tại. Đây là lý do VC đang "đổ tiền" vào lĩnh vực này dù hầu hết công ty chưa có lợi nhuận.

Xu hướng 5: Conference và research

ICLR 2026 -- VLA bùng nổ

Tại ICLR 2026, số lượng papers về VLA tăng đột biến: hàng trăm submissions liên quan đến vision-language-action models, embodied reasoning, và robot learning. Các themes chính:

  1. Scaling VLA: Tăng kích thước model và data có cải thiện performance?
  2. Generalist vs Specialist: Một model cho tất cả hay nhiều model chuyên biệt?
  3. Real-world evaluation: Benchmarks nào phản ánh đúng khả năng của robot?
  4. Safety: Làm sao đảm bảo robot AI an toàn trong môi trường thực?

Các conference quan trọng 2026

Conference Thời gian Địa điểm Focus
ICRA 2026 May Atlanta, USA Robotics + Automation
RSS 2026 July Los Angeles, USA Robotics research
IROS 2026 October Abu Dhabi Intelligent Robots
CoRL 2026 November TBD Robot Learning (core)
NeurIPS 2026 December TBD ML + Embodied AI track

Các công ty dẫn đầu embodied AI

Google DeepMind

Physical Intelligence

NVIDIA

Figure AI

Hugging Face

Covariant

Ý nghĩa cho kỹ sư

1. Skills mới cần học

Embodied AI thay đổi skills profile của kỹ sư robotics:

Trước 2024: PLC, kinematics, classical control 2026+: VLA fine-tuning, dataset curation, sim-to-real pipeline, ROS 2 + ML integration

Không có nghĩa là classical skills không còn giá trị -- nhưng kỹ sư kết hợp được cả hai sẽ có lợi thế lớn.

2. Open-source là lợi thế

Với OpenVLA, LeRobot, MuJoCo, Isaac Lab -- tất cả đều miễn phí và open-source. Barrier to entry chưa bao giờ thấp như bây giờ. Một sinh viên với laptop và $100 (SO-100 arm) có thể train VLA model cho robot.

3. Data là "new oil" cho robotics

Các công ty có data thực tế từ robot deployment (Covariant, Figure, Unitree) có lợi thế lớn -- vì VLA models cần diverse, real-world data để improve. Đây là lý do các công ty rush to deploy -- không chỉ để bán robot, mà để thu thập data.

4. Career opportunities

Vai trò Mô tả Demand
Robot Learning Engineer Train và deploy VLA/RL policies Rất cao
Simulation Engineer Xây dựng sim environments, domain randomization Cao
Data Engineer (Robotics) Thu thập, clean, format robot data Tăng mạnh
MLOps for Robots Deploy, monitor ML models trên robot fleet Mới nhưng cần thiết
Safety Engineer Đảm bảo robot AI an toàn Quan trọng và thiếu người

Embodied AI ecosystem 2026 -- từ research đến deployment

Dự đoán 2026-2028

1. VLA >100B parameters

Dự đoán: trước cuối 2026, ít nhất một VLA model với >100B parameters sẽ được publish và cho state-of-the-art trên robotics benchmarks. Scale vẫn chưa chạm trần cho VLA.

2. Humanoid triển khai tại nhà máy

2027 sẽ là năm humanoid robot thực sự hoạt động trong nhà máy -- không chỉ demo. Unitree, Figure, và Tesla đều nhắm vào milestone này.

3. Home robot prototype

Ít nhất một công ty sẽ demo home assistant robot có thể làm việc nhà cơ bản (dọn dẹp, rửa bát, gấp quần áo) -- dùng VLA model. Chưa bán thương mại nhưng sẽ tạo buzz lớn.

4. Regulation bắt đầu

EU và Trung Quốc sẽ ban hành quy định đầu tiên về robot AI trong môi trường có người -- tương tự như AI Act nhưng cho physical AI.

5. Open-source gặp proprietary

Với OpenVLA, LeRobot và community effort, open-source VLA sẽ đạt >80% performance của proprietary models (Pi0, Helix) -- tương tự như Llama vs GPT trong LLM.

Bắt đầu từ đâu?

Nếu bạn muốn tham gia embodied AI:

Người mới bắt đầu

  1. Học Python + PyTorch cơ bản
  2. Đọc paper "RT-2: Vision-Language-Action Models" (Google DeepMind)
  3. Cài đặt LeRobot và chạy pretrained model trên simulation
  4. Làm 1 project nhỏ: train ACT trên ALOHA sim

Kỹ sư có kinh nghiệm

  1. Fine-tune OpenVLA cho task của bạn
  2. Xây dựng sim-to-real pipeline với Isaac Lab + LeRobot
  3. Thử nghiệm cross-embodiment transfer từ sim data
  4. Contribute vào Open X-Embodiment dataset

Researcher

  1. Đọc survey: "A Survey on Vision-Language-Action Models for Embodied AI"
  2. Theo dõi papers từ ICRA, CoRL, RSS 2026
  3. Thử nghiệm VLA scaling -- model size vs data size vs performance
  4. Explore safety và alignment cho embodied AI

Kết luận

Embodied AI 2026 đang ở inflection point -- tương tự như LLMs năm 2022. Foundation models (VLA), diverse data (Open X-Embodiment), simulation tại scale (Isaac Lab), và vốn đầu tư kỷ lục ($22B+) đang tạo nên perfect storm cho sự phát triển bùng nổ.

Câu hỏi không phải là "embodied AI có thành công không?" mà là "ai sẽ dẫn đầu?" Hiện tại, cuộc đua đang giữa Physical Intelligence (VLA), NVIDIA (platform), Google DeepMind (research), và các công ty Trung Quốc (hardware + deployment). Và với open-source ngày càng mạnh, bất kỳ ai cũng có thể tham gia.


Bài viết liên quan

Bài viết liên quan

IROS 2026: Papers navigation và manipulation đáng theo dõi
researchconferencerobotics

IROS 2026: Papers navigation và manipulation đáng theo dõi

Phân tích papers nổi bật về autonomous navigation và manipulation — chuẩn bị cho IROS 2026 Pittsburgh.

2/4/20267 phút đọc
Sim-to-Real Transfer: Train simulation, chạy thực tế
ai-perceptionresearchrobotics

Sim-to-Real Transfer: Train simulation, chạy thực tế

Kỹ thuật chuyển đổi mô hình từ simulation sang robot thật — domain randomization, system identification và best practices.

1/4/202612 phút đọc
IROS 2026 Preview: Những gì đáng chờ đợi
researchconferencerobotics

IROS 2026 Preview: Những gì đáng chờ đợi

IROS 2026 Pittsburgh — preview workshops, competitions và nghiên cứu navigation, manipulation hàng đầu.

30/3/20267 phút đọc