Embodied AI là gì?
Embodied AI (trí tuệ nhân tạo hữu hình) là lĩnh vực nghiên cứu và ứng dụng AI trong thế giới vật lý -- nơi AI không chỉ xử lý text và image trên server, mà còn hành động thông qua robot, drone, hoặc autonomous vehicle.
Khác với chatbot hay image generator, embodied AI cần:
- Perceive: Nhìn, nghe, cảm nhận môi trường qua sensors
- Reason: Hiểu ngôn ngữ, lập kế hoạch, ra quyết định
- Act: Thực hiện hành động vật lý -- gắp đồ vật, di chuyển, thao tác
Năm 2026, embodied AI đang trải qua bước nhảy lớn nhờ sự hội tụ của 3 xu hướng: foundation models mạnh hơn (VLA), dữ liệu đa dạng hơn (Open X-Embodiment), và compute rẻ hơn (GPU cloud). Bài viết này phân tích toàn cảnh và xu hướng quan trọng nhất.
Xu hướng 1: VLA Models -- "Brain" của robot
VLA là gì?
Vision-Language-Action (VLA) models là foundation models kết hợp:
- Vision: Nhìn và hiểu môi trường qua camera
- Language: Hiểu lệnh bằng ngôn ngữ tự nhiên ("pick up the red cup")
- Action: Xuất ra hành động cụ thể cho robot (joint positions, velocities)
VLA là bước tiến hóa từ Vision-Language Models (VLM như GPT-4V, Gemini) -- thêm khả năng hành động thay vì chỉ trả lời câu hỏi.
Các VLA model quan trọng 2026
| Model | Team | Params | Đặc điểm | Open-source? |
|---|---|---|---|---|
| Pi0 | Physical Intelligence | 3B | Fast inference, general manipulation | Weights có sẵn |
| Pi0-FAST | Physical Intelligence | 3B | Autoregressive, nhanh hơn Pi0 | Có |
| OpenVLA | Stanford/Berkeley | 7B | Vượt RT-2-X (55B) 16.5% với chỉ 7B params | Có (Apache 2.0) |
| GR00T N1.5 | NVIDIA | 2.2B | Optimized cho Jetson, cross-embodiment | Weights + framework |
| Helix | Figure AI | 7B backbone | Dùng trong Figure 02 humanoid | Không |
| SmolVLA | Hugging Face | ~1B | Nhẹ nhất, chạy được trên edge | Có |
| XVLA | Community | - | Cross-embodiment transfer | Có |
Điểm đáng chú ý: Trong khi language models đang chạy đua lên hundreds of billions parameters, các VLA model hiệu quả nhất chỉ cần 2-7B parameters. OpenVLA (7B) đã vượt RT-2-X (55B, Google) 16.5% về absolute success rate. Điều này cho thấy architecture và data quan trọng hơn raw scale cho robot tasks.
Physical Intelligence -- Startup dẫn đầu
Physical Intelligence (Pi) là startup được chú ý nhất trong embodied AI:
- Tổng vốn huy động: $1.1 tỷ USD (bao gồm vòng $600M gần nhất)
- Định giá: $5.6 tỷ USD
- Sản phẩm: Pi0 và Pi0-FAST -- VLA models cho general-purpose manipulation
- Team: Co-founders từ Google Brain, UC Berkeley, Stanford
Pi0 đặc biệt ở chỗ nó là generalist model -- một model có thể thực hiện nhiều tasks khác nhau (folding laundry, assembling, cooking) mà không cần fine-tune riêng cho từng task.
OpenVLA -- Open-source champion
OpenVLA (Stanford + Berkeley) chứng minh rằng open-source có thể vượt mặt proprietary models:
- 7B parameters -- nhỏ đủ để chạy trên consumer GPU
- Train trên Open X-Embodiment dataset (970K+ robot episodes)
- Fine-tune cho task mới chỉ cần vài trăm episodes
- Apache 2.0 license -- tự do sử dụng và modify
# Sử dụng OpenVLA
from transformers import AutoModelForVision2Seq, AutoProcessor
model = AutoModelForVision2Seq.from_pretrained("openvla/openvla-7b")
processor = AutoProcessor.from_pretrained("openvla/openvla-7b")
# Predict action từ image + language instruction
inputs = processor(images=camera_image, text="pick up the red cup")
action = model.generate(**inputs)
Xu hướng 2: Open X-Embodiment và cross-embodiment transfer
Vấn đề: Data silo
Trước 2023, mỗi lab tự thu thập data riêng, trên robot riêng, cho task riêng. Kết quả: mỗi dataset chỉ có vài nghìn episodes, không đủ để train foundation model.
Giải pháp: Open X-Embodiment
Open X-Embodiment (Google DeepMind + 33 research institutions) là dataset chung lớn nhất cho robot learning:
- 970K+ robot episodes từ 22 loại robot khác nhau
- 527 skills khác nhau (grasping, placing, pushing, pouring...)
- Chuẩn hóa format để các lab đóng góp và sử dụng
Cross-embodiment transfer
Ý tưởng then chốt: model train trên data từ nhiều loại robot có thể generalize sang robot mới -- tương tự như GPT train trên nhiều loại text có thể xử lý text mới.
Kết quả thực tế:
- RT-2-X train trên Open X-Embodiment tăng 50% success rate so với train trên 1 robot
- OpenVLA (7B) fine-tune cho robot mới chỉ cần 200-500 episodes (thay vì hàng nghìn)
- GR00T N1.5 của NVIDIA được thiết kế từ đầu cho cross-embodiment
Ý nghĩa: Bạn không cần hàng triệu episodes để train robot mới -- leverage data từ community là đủ.
Xu hướng 3: Sim-to-Real tại scale
Tại sao sim-to-real quan trọng?
Thu thập data trên robot thật chậm và đắt: mỗi episode mất vài phút, robot có thể hỏng, cần người giám sát. Trong simulation, bạn chạy hàng nghìn robots song song, mỗi robot thực hiện hàng trăm episodes mỗi giờ, miễn phí.
Các breakthrough 2025-2026
NVIDIA Isaac Lab 2.2 (2025):
- 10,000+ parallel environments trên single GPU
- Tiled rendering: tăng tốc 1.2x cho visual tasks
- Newton Physics Engine: co-developed với Google DeepMind và Disney Research
- Isaac Lab Arena: scalable policy evaluation framework
MuJoCo 3.x + MJX-Warp (2025-2026):
- MJX trên NVIDIA GPU đạt throughput tương đương Isaac Lab
- Deformable objects (flex) cho soft manipulation
- SDF collision cho complex geometries
LeRobot + Isaac Lab integration (2026):
- Train policies trong Isaac Lab, deploy qua LeRobot
- Pipeline liên mạch từ sim đến real
Domain randomization tại scale
Domain randomization -- thay đổi lighting, texture, physics parameters -- là chìa khóa để policy train trong sim hoạt động trên robot thật. Với GPU parallelism, bạn có thể:
4,096 environments x 100 randomization configs = 409,600 diverse experiences/batch
Đây là lý do các policy sim-to-real 2026 hoạt động tốt hơn 2023 rất nhiều -- đơn giản là nhiều data đa dạng hơn.
Xu hướng 4: Đầu tư kỷ lục
Số liệu đầu tư
Thị trường embodied AI và robotics đang nhận lượng vốn kỷ lục:
- $22.2 tỷ USD đầu tư vào robotics startups năm 2025 (tăng 69% YoY)
- Dự kiến gấp đôi trong 2026
- Thị trường embodied AI đạt $4.44 tỷ USD năm 2025, tăng trưởng 39%/năm, dự kiến $23 tỷ USD vào 2030
Các vòng gọi vốn lớn nhất
| Công ty | Vòng | Số tiền | Định giá | Lĩnh vực |
|---|---|---|---|---|
| Physical Intelligence | Series B | $600M | $5.6B | VLA foundation models |
| Figure AI | Series B | $675M | $2.6B | Humanoid + AI |
| Apptronik | Series A | $350M | - | Humanoid (Apollo) |
| 1X Technologies | Series B | $100M | - | Humanoid (NEO) |
| X Square Robot | Series A | $140M | - | AI foundation models cho robot |
| Dyna Robotics | Series A | $120M | - | Embodied AI |
TAM (Total Addressable Market)
Morgan Stanley ước tính TAM cho humanoid robot là $5 nghìn tỷ USD vào 2050 -- lớn hơn cả thị trường smartphone hiện tại. Đây là lý do VC đang "đổ tiền" vào lĩnh vực này dù hầu hết công ty chưa có lợi nhuận.
Xu hướng 5: Conference và research
ICLR 2026 -- VLA bùng nổ
Tại ICLR 2026, số lượng papers về VLA tăng đột biến: hàng trăm submissions liên quan đến vision-language-action models, embodied reasoning, và robot learning. Các themes chính:
- Scaling VLA: Tăng kích thước model và data có cải thiện performance?
- Generalist vs Specialist: Một model cho tất cả hay nhiều model chuyên biệt?
- Real-world evaluation: Benchmarks nào phản ánh đúng khả năng của robot?
- Safety: Làm sao đảm bảo robot AI an toàn trong môi trường thực?
Các conference quan trọng 2026
| Conference | Thời gian | Địa điểm | Focus |
|---|---|---|---|
| ICRA 2026 | May | Atlanta, USA | Robotics + Automation |
| RSS 2026 | July | Los Angeles, USA | Robotics research |
| IROS 2026 | October | Abu Dhabi | Intelligent Robots |
| CoRL 2026 | November | TBD | Robot Learning (core) |
| NeurIPS 2026 | December | TBD | ML + Embodied AI track |
Các công ty dẫn đầu embodied AI
Google DeepMind
- RT-2, RT-X: Pioneer trong VLA research
- Open X-Embodiment: Dẫn đầu effort thu thập data chung
- Gemini Robotics: Tích hợp Gemini vào robot control (2026)
- Thế mạnh: Data, compute, research team
Physical Intelligence
- Pi0, Pi0-FAST: State-of-the-art VLA cho manipulation
- Approach: Generalist model, train trên diverse data
- Thế mạnh: Focus, funding ($1.1B), top talent
NVIDIA
- GR00T N1.5: VLA optimized cho edge (Jetson)
- Isaac Lab: Simulation platform
- Thế mạnh: Hardware (GPU, Jetson) + software ecosystem
Figure AI
- Helix: VLA model (7B) cho Figure 02 humanoid
- Approach: Full-stack (hardware + software)
- Partnership: BMW cho factory deployment
- Thế mạnh: End-to-end integration
Hugging Face
- LeRobot: Open-source framework
- SmolVLA: Lightweight VLA model
- Thế mạnh: Community, open-source ecosystem, Hub infrastructure
Covariant
- RFM-1: Large-scale foundation model cho industrial robots
- Focus: Warehouse picking, logistics
- Thế mạnh: Real-world deployment data từ customers
Ý nghĩa cho kỹ sư
1. Skills mới cần học
Embodied AI thay đổi skills profile của kỹ sư robotics:
Trước 2024: PLC, kinematics, classical control 2026+: VLA fine-tuning, dataset curation, sim-to-real pipeline, ROS 2 + ML integration
Không có nghĩa là classical skills không còn giá trị -- nhưng kỹ sư kết hợp được cả hai sẽ có lợi thế lớn.
2. Open-source là lợi thế
Với OpenVLA, LeRobot, MuJoCo, Isaac Lab -- tất cả đều miễn phí và open-source. Barrier to entry chưa bao giờ thấp như bây giờ. Một sinh viên với laptop và $100 (SO-100 arm) có thể train VLA model cho robot.
3. Data là "new oil" cho robotics
Các công ty có data thực tế từ robot deployment (Covariant, Figure, Unitree) có lợi thế lớn -- vì VLA models cần diverse, real-world data để improve. Đây là lý do các công ty rush to deploy -- không chỉ để bán robot, mà để thu thập data.
4. Career opportunities
| Vai trò | Mô tả | Demand |
|---|---|---|
| Robot Learning Engineer | Train và deploy VLA/RL policies | Rất cao |
| Simulation Engineer | Xây dựng sim environments, domain randomization | Cao |
| Data Engineer (Robotics) | Thu thập, clean, format robot data | Tăng mạnh |
| MLOps for Robots | Deploy, monitor ML models trên robot fleet | Mới nhưng cần thiết |
| Safety Engineer | Đảm bảo robot AI an toàn | Quan trọng và thiếu người |
Dự đoán 2026-2028
1. VLA >100B parameters
Dự đoán: trước cuối 2026, ít nhất một VLA model với >100B parameters sẽ được publish và cho state-of-the-art trên robotics benchmarks. Scale vẫn chưa chạm trần cho VLA.
2. Humanoid triển khai tại nhà máy
2027 sẽ là năm humanoid robot thực sự hoạt động trong nhà máy -- không chỉ demo. Unitree, Figure, và Tesla đều nhắm vào milestone này.
3. Home robot prototype
Ít nhất một công ty sẽ demo home assistant robot có thể làm việc nhà cơ bản (dọn dẹp, rửa bát, gấp quần áo) -- dùng VLA model. Chưa bán thương mại nhưng sẽ tạo buzz lớn.
4. Regulation bắt đầu
EU và Trung Quốc sẽ ban hành quy định đầu tiên về robot AI trong môi trường có người -- tương tự như AI Act nhưng cho physical AI.
5. Open-source gặp proprietary
Với OpenVLA, LeRobot và community effort, open-source VLA sẽ đạt >80% performance của proprietary models (Pi0, Helix) -- tương tự như Llama vs GPT trong LLM.
Bắt đầu từ đâu?
Nếu bạn muốn tham gia embodied AI:
Người mới bắt đầu
- Học Python + PyTorch cơ bản
- Đọc paper "RT-2: Vision-Language-Action Models" (Google DeepMind)
- Cài đặt LeRobot và chạy pretrained model trên simulation
- Làm 1 project nhỏ: train ACT trên ALOHA sim
Kỹ sư có kinh nghiệm
- Fine-tune OpenVLA cho task của bạn
- Xây dựng sim-to-real pipeline với Isaac Lab + LeRobot
- Thử nghiệm cross-embodiment transfer từ sim data
- Contribute vào Open X-Embodiment dataset
Researcher
- Đọc survey: "A Survey on Vision-Language-Action Models for Embodied AI"
- Theo dõi papers từ ICRA, CoRL, RSS 2026
- Thử nghiệm VLA scaling -- model size vs data size vs performance
- Explore safety và alignment cho embodied AI
Kết luận
Embodied AI 2026 đang ở inflection point -- tương tự như LLMs năm 2022. Foundation models (VLA), diverse data (Open X-Embodiment), simulation tại scale (Isaac Lab), và vốn đầu tư kỷ lục ($22B+) đang tạo nên perfect storm cho sự phát triển bùng nổ.
Câu hỏi không phải là "embodied AI có thành công không?" mà là "ai sẽ dẫn đầu?" Hiện tại, cuộc đua đang giữa Physical Intelligence (VLA), NVIDIA (platform), Google DeepMind (research), và các công ty Trung Quốc (hardware + deployment). Và với open-source ngày càng mạnh, bất kỳ ai cũng có thể tham gia.
Bài viết liên quan
- Foundation Models cho Robot: RT-2, Octo, OpenVLA -- Deep dive vào robot foundation models
- Spatial VLA: Visual-Language-Action với spatial reasoning -- VLA thế hệ mới
- Sim-to-Real Transfer: Train simulation, chạy thực tế -- Kỹ thuật chuyển từ sim sang real
- Trung Quốc dẫn đầu cuộc đua Humanoid Robot 2026 -- Hardware side của embodied AI