Embodied AI 2026: Toàn cảnh và xu hướng

Embodied AI là gì?

Embodied AI (trí tuệ nhân tạo hữu hình) là lĩnh vực nghiên cứu và ứng dụng AI trong thế giới vật lý -- nơi AI không chỉ xử lý text và image trên server, mà còn hành động thông qua robot, drone, hoặc autonomous vehicle.

Khác với chatbot hay image generator, embodied AI cần:

Perceive: Nhìn, nghe, cảm nhận môi trường qua sensors
Reason: Hiểu ngôn ngữ, lập kế hoạch, ra quyết định
Act: Thực hiện hành động vật lý -- gắp đồ vật, di chuyển, thao tác

Năm 2026, embodied AI đang trải qua bước nhảy lớn nhờ sự hội tụ của 3 xu hướng: foundation models mạnh hơn (VLA), dữ liệu đa dạng hơn (Open X-Embodiment), và compute rẻ hơn (GPU cloud). Bài viết này phân tích toàn cảnh và xu hướng quan trọng nhất.

Xu hướng 1: VLA Models -- "Brain" của robot

VLA là gì?

Vision-Language-Action (VLA) models là foundation models kết hợp:

Vision: Nhìn và hiểu môi trường qua camera
Language: Hiểu lệnh bằng ngôn ngữ tự nhiên ("pick up the red cup")
Action: Xuất ra hành động cụ thể cho robot (joint positions, velocities)

VLA là bước tiến hóa từ Vision-Language Models (VLM như GPT-4V, Gemini) -- thêm khả năng hành động thay vì chỉ trả lời câu hỏi.

Các VLA model quan trọng 2026

Model	Team	Params	Đặc điểm	Open-source?
Pi0	Physical Intelligence	3B	Fast inference, general manipulation	Weights có sẵn
Pi0-FAST	Physical Intelligence	3B	Autoregressive, nhanh hơn Pi0	Có
OpenVLA	Stanford/Berkeley	7B	Vượt RT-2-X (55B) 16.5% với chỉ 7B params	Có (Apache 2.0)
GR00T N1.5	NVIDIA	2.2B	Optimized cho Jetson, cross-embodiment	Weights + framework
Helix	Figure AI	7B backbone	Dùng trong Figure 02 humanoid	Không
SmolVLA	Hugging Face	~1B	Nhẹ nhất, chạy được trên edge	Có
XVLA	Community	-	Cross-embodiment transfer	Có

Điểm đáng chú ý: Trong khi language models đang chạy đua lên hundreds of billions parameters, các VLA model hiệu quả nhất chỉ cần 2-7B parameters. OpenVLA (7B) đã vượt RT-2-X (55B, Google) 16.5% về absolute success rate. Điều này cho thấy architecture và data quan trọng hơn raw scale cho robot tasks.

Physical Intelligence -- Startup dẫn đầu

Physical Intelligence (Pi) là startup được chú ý nhất trong embodied AI:

Tổng vốn huy động: $1.1 tỷ USD (bao gồm vòng $600M gần nhất)
Định giá: $5.6 tỷ USD
Sản phẩm: Pi0 và Pi0-FAST -- VLA models cho general-purpose manipulation
Team: Co-founders từ Google Brain, UC Berkeley, Stanford

Pi0 đặc biệt ở chỗ nó là generalist model -- một model có thể thực hiện nhiều tasks khác nhau (folding laundry, assembling, cooking) mà không cần fine-tune riêng cho từng task.

OpenVLA -- Open-source champion

OpenVLA (Stanford + Berkeley) chứng minh rằng open-source có thể vượt mặt proprietary models:

7B parameters -- nhỏ đủ để chạy trên consumer GPU
Train trên Open X-Embodiment dataset (970K+ robot episodes)
Fine-tune cho task mới chỉ cần vài trăm episodes
Apache 2.0 license -- tự do sử dụng và modify

# Sử dụng OpenVLA
from transformers import AutoModelForVision2Seq, AutoProcessor

model = AutoModelForVision2Seq.from_pretrained("openvla/openvla-7b")
processor = AutoProcessor.from_pretrained("openvla/openvla-7b")

# Predict action từ image + language instruction
inputs = processor(images=camera_image, text="pick up the red cup")
action = model.generate(**inputs)

Xu hướng 2: Open X-Embodiment và cross-embodiment transfer

Vấn đề: Data silo

Trước 2023, mỗi lab tự thu thập data riêng, trên robot riêng, cho task riêng. Kết quả: mỗi dataset chỉ có vài nghìn episodes, không đủ để train foundation model.

Giải pháp: Open X-Embodiment

Open X-Embodiment (Google DeepMind + 33 research institutions) là dataset chung lớn nhất cho robot learning:

970K+ robot episodes từ 22 loại robot khác nhau
527 skills khác nhau (grasping, placing, pushing, pouring...)
Chuẩn hóa format để các lab đóng góp và sử dụng

Cross-embodiment transfer

Ý tưởng then chốt: model train trên data từ nhiều loại robot có thể generalize sang robot mới -- tương tự như GPT train trên nhiều loại text có thể xử lý text mới.

Kết quả thực tế:

RT-2-X train trên Open X-Embodiment tăng 50% success rate so với train trên 1 robot
OpenVLA (7B) fine-tune cho robot mới chỉ cần 200-500 episodes (thay vì hàng nghìn)
GR00T N1.5 của NVIDIA được thiết kế từ đầu cho cross-embodiment

Ý nghĩa: Bạn không cần hàng triệu episodes để train robot mới -- leverage data từ community là đủ.

Xu hướng 3: Sim-to-Real tại scale

Tại sao sim-to-real quan trọng?

Thu thập data trên robot thật chậm và đắt: mỗi episode mất vài phút, robot có thể hỏng, cần người giám sát. Trong simulation, bạn chạy hàng nghìn robots song song, mỗi robot thực hiện hàng trăm episodes mỗi giờ, miễn phí.

Các breakthrough 2025-2026

NVIDIA Isaac Lab 2.2 (2025):

10,000+ parallel environments trên single GPU
Tiled rendering: tăng tốc 1.2x cho visual tasks
Newton Physics Engine: co-developed với Google DeepMind và Disney Research
Isaac Lab Arena: scalable policy evaluation framework

MuJoCo 3.x + MJX-Warp (2025-2026):

MJX trên NVIDIA GPU đạt throughput tương đương Isaac Lab
Deformable objects (flex) cho soft manipulation
SDF collision cho complex geometries

LeRobot + Isaac Lab integration (2026):

Train policies trong Isaac Lab, deploy qua LeRobot
Pipeline liên mạch từ sim đến real

Domain randomization tại scale

Domain randomization -- thay đổi lighting, texture, physics parameters -- là chìa khóa để policy train trong sim hoạt động trên robot thật. Với GPU parallelism, bạn có thể:

4,096 environments x 100 randomization configs = 409,600 diverse experiences/batch

Đây là lý do các policy sim-to-real 2026 hoạt động tốt hơn 2023 rất nhiều -- đơn giản là nhiều data đa dạng hơn.

Xu hướng 4: Đầu tư kỷ lục

Số liệu đầu tư

Thị trường embodied AI và robotics đang nhận lượng vốn kỷ lục:

$22.2 tỷ USD đầu tư vào robotics startups năm 2025 (tăng 69% YoY)
Dự kiến gấp đôi trong 2026
Thị trường embodied AI đạt $4.44 tỷ USD năm 2025, tăng trưởng 39%/năm, dự kiến $23 tỷ USD vào 2030

Các vòng gọi vốn lớn nhất

Công ty	Vòng	Số tiền	Định giá	Lĩnh vực
Physical Intelligence	Series B	$600M	$5.6B	VLA foundation models
Figure AI	Series B	$675M	$2.6B	Humanoid + AI
Apptronik	Series A	$350M	-	Humanoid (Apollo)
1X Technologies	Series B	$100M	-	Humanoid (NEO)
X Square Robot	Series A	$140M	-	AI foundation models cho robot
Dyna Robotics	Series A	$120M	-	Embodied AI

TAM (Total Addressable Market)

Morgan Stanley ước tính TAM cho humanoid robot là $5 nghìn tỷ USD vào 2050 -- lớn hơn cả thị trường smartphone hiện tại. Đây là lý do VC đang "đổ tiền" vào lĩnh vực này dù hầu hết công ty chưa có lợi nhuận.

Xu hướng 5: Conference và research

ICLR 2026 -- VLA bùng nổ

Tại ICLR 2026, số lượng papers về VLA tăng đột biến: hàng trăm submissions liên quan đến vision-language-action models, embodied reasoning, và robot learning. Các themes chính:

Scaling VLA: Tăng kích thước model và data có cải thiện performance?
Generalist vs Specialist: Một model cho tất cả hay nhiều model chuyên biệt?
Real-world evaluation: Benchmarks nào phản ánh đúng khả năng của robot?
Safety: Làm sao đảm bảo robot AI an toàn trong môi trường thực?

Các conference quan trọng 2026

Conference	Thời gian	Địa điểm	Focus
ICRA 2026	May	Atlanta, USA	Robotics + Automation
RSS 2026	July	Los Angeles, USA	Robotics research
IROS 2026	October	Abu Dhabi	Intelligent Robots
CoRL 2026	November	TBD	Robot Learning (core)
NeurIPS 2026	December	TBD	ML + Embodied AI track

Các công ty dẫn đầu embodied AI

Google DeepMind

RT-2, RT-X: Pioneer trong VLA research
Open X-Embodiment: Dẫn đầu effort thu thập data chung
Gemini Robotics: Tích hợp Gemini vào robot control (2026)
Thế mạnh: Data, compute, research team

Physical Intelligence

Pi0, Pi0-FAST: State-of-the-art VLA cho manipulation
Approach: Generalist model, train trên diverse data
Thế mạnh: Focus, funding ($1.1B), top talent

NVIDIA

GR00T N1.5: VLA optimized cho edge (Jetson)
Isaac Lab: Simulation platform
Thế mạnh: Hardware (GPU, Jetson) + software ecosystem

Figure AI

Helix: VLA model (7B) cho Figure 02 humanoid
Approach: Full-stack (hardware + software)
Partnership: BMW cho factory deployment
Thế mạnh: End-to-end integration

Hugging Face

LeRobot: Open-source framework
SmolVLA: Lightweight VLA model
Thế mạnh: Community, open-source ecosystem, Hub infrastructure

Covariant

RFM-1: Large-scale foundation model cho industrial robots
Focus: Warehouse picking, logistics
Thế mạnh: Real-world deployment data từ customers

Ý nghĩa cho kỹ sư

1. Skills mới cần học

Embodied AI thay đổi skills profile của kỹ sư robotics:

Trước 2024: PLC, kinematics, classical control 2026+: VLA fine-tuning, dataset curation, sim-to-real pipeline, ROS 2 + ML integration

Không có nghĩa là classical skills không còn giá trị -- nhưng kỹ sư kết hợp được cả hai sẽ có lợi thế lớn.

2. Open-source là lợi thế

Với OpenVLA, LeRobot, MuJoCo, Isaac Lab -- tất cả đều miễn phí và open-source. Barrier to entry chưa bao giờ thấp như bây giờ. Một sinh viên với laptop và $100 (SO-100 arm) có thể train VLA model cho robot.

3. Data là "new oil" cho robotics

Các công ty có data thực tế từ robot deployment (Covariant, Figure, Unitree) có lợi thế lớn -- vì VLA models cần diverse, real-world data để improve. Đây là lý do các công ty rush to deploy -- không chỉ để bán robot, mà để thu thập data.

4. Career opportunities

Vai trò	Mô tả	Demand
Robot Learning Engineer	Train và deploy VLA/RL policies	Rất cao
Simulation Engineer	Xây dựng sim environments, domain randomization	Cao
Data Engineer (Robotics)	Thu thập, clean, format robot data	Tăng mạnh
MLOps for Robots	Deploy, monitor ML models trên robot fleet	Mới nhưng cần thiết
Safety Engineer	Đảm bảo robot AI an toàn	Quan trọng và thiếu người

Dự đoán 2026-2028

1. VLA >100B parameters

Dự đoán: trước cuối 2026, ít nhất một VLA model với >100B parameters sẽ được publish và cho state-of-the-art trên robotics benchmarks. Scale vẫn chưa chạm trần cho VLA.

2. Humanoid triển khai tại nhà máy

2027 sẽ là năm humanoid robot thực sự hoạt động trong nhà máy -- không chỉ demo. Unitree, Figure, và Tesla đều nhắm vào milestone này.

3. Home robot prototype

Ít nhất một công ty sẽ demo home assistant robot có thể làm việc nhà cơ bản (dọn dẹp, rửa bát, gấp quần áo) -- dùng VLA model. Chưa bán thương mại nhưng sẽ tạo buzz lớn.

4. Regulation bắt đầu

EU và Trung Quốc sẽ ban hành quy định đầu tiên về robot AI trong môi trường có người -- tương tự như AI Act nhưng cho physical AI.

5. Open-source gặp proprietary

Với OpenVLA, LeRobot và community effort, open-source VLA sẽ đạt >80% performance của proprietary models (Pi0, Helix) -- tương tự như Llama vs GPT trong LLM.

Bắt đầu từ đâu?

Nếu bạn muốn tham gia embodied AI:

Người mới bắt đầu

Học Python + PyTorch cơ bản
Đọc paper "RT-2: Vision-Language-Action Models" (Google DeepMind)
Cài đặt LeRobot và chạy pretrained model trên simulation
Làm 1 project nhỏ: train ACT trên ALOHA sim

Kỹ sư có kinh nghiệm

Fine-tune OpenVLA cho task của bạn
Xây dựng sim-to-real pipeline với Isaac Lab + LeRobot
Thử nghiệm cross-embodiment transfer từ sim data
Contribute vào Open X-Embodiment dataset

Researcher

Đọc survey: "A Survey on Vision-Language-Action Models for Embodied AI"
Theo dõi papers từ ICRA, CoRL, RSS 2026
Thử nghiệm VLA scaling -- model size vs data size vs performance
Explore safety và alignment cho embodied AI

Kết luận

Embodied AI 2026 đang ở inflection point -- tương tự như LLMs năm 2022. Foundation models (VLA), diverse data (Open X-Embodiment), simulation tại scale (Isaac Lab), và vốn đầu tư kỷ lục ($22B+) đang tạo nên perfect storm cho sự phát triển bùng nổ.

Câu hỏi không phải là "embodied AI có thành công không?" mà là "ai sẽ dẫn đầu?" Hiện tại, cuộc đua đang giữa Physical Intelligence (VLA), NVIDIA (platform), Google DeepMind (research), và các công ty Trung Quốc (hardware + deployment). Và với open-source ngày càng mạnh, bất kỳ ai cũng có thể tham gia.