← Quay lại Blog
locomotionlocomotionbipedalhumanoid

Bipedal Walking: Điều khiển robot 2 chân bằng RL

Thách thức điều khiển robot bipedal — balance, fall recovery, terrain adaptation từ Cassie đến Digit và humanoid.

Nguyễn Anh Tuấn25 tháng 2, 202611 phút đọc
Bipedal Walking: Điều khiển robot 2 chân bằng RL

Tại sao Bipedal khó hơn Quadruped?

Nếu bạn đã theo dõi series từ Part 1 đến Part 5, bạn thấy rằng quadruped locomotion đã đạt được kết quả ấn tượng -- ANYmal chạy parkour, Unitree A1 leo cầu thang. Nhưng khi chuyển sang robot 2 chân (bipedal), mọi thứ khó hơn gấp bội.

Underactuated Dynamics

Robot quadruped có 4 điểm tiếp xúc mặt đất, tạo thành support polygon rộng. Trọng tâm (Center of Mass - CoM) dễ dàng nằm trong polygon này, nên robot ổn định tĩnh.

Robot bipedal chỉ có 2 chân, và trong phase swing (một chân nhấc lên), chỉ còn 1 điểm tiếp xúc. Support polygon thu nhỏ thành diện tích bàn chân. Đây là hệ underactuated -- robot không có đủ actuators để trực tiếp control tất cả degrees of freedom, phải dựa vào dynamic balance (giống con người đi bộ -- thực chất là "ngã có kiểm soát").

Các thách thức cụ thể

Thách thức Quadruped Bipedal
Support polygon Rộng (4 chân) Hẹp (1-2 chân)
Static stability Dễ (3 chân trên đất) Không có (phải dynamic)
Fall risk Thấp Rất cao
DoF cần control 12 (3/chân) 10-30+ (hips, knees, ankles, torso)
Impact forces Phân tán 4 chân Tập trung 2 chân
Recovery khi ngã Dễ (crawl position) Khó (phải đứng dậy từ nằm)

Chính vì những thách thức này, bipedal locomotion bằng RL là lĩnh vực phát triển chậm hơn so với quadruped, nhưng đang tăng tốc mạnh mẽ nhờ compute power và simulation tools tốt hơn.

Thách thức điều khiển balance và locomotion cho robot hai chân

Các nền tảng Bipedal chính

Cassie (Agility Robotics)

Cassie là nền tảng bipedal research phổ biến nhất, được phát triển bởi Agility Robotics (spin-off từ Oregon State University). Robot này có thiết kế đặc biệt:

Cassie là testbed cho rất nhiều RL research papers vì: (a) available cho các lab mua, (b) đủ phức tạp để test advanced control, (c) sim-to-real gap được study kỹ.

Digit (Agility Robotics)

Digit là thế hệ kế tiếp của Cassie, thêm torso, arms, và head:

Unitree H1 / G1

Unitree H1 là humanoid robot "giá rẻ" từ Unitree Robotics (Trung Quốc):

Unitree G1 là phiên bản nhỏ hơn, 1.27m, 35 kg, ~$16,000 -- accessible cho labs nhỏ.

Atlas (Boston Dynamics)

Atlas là humanoid nổi tiếng nhất thế giới từ Boston Dynamics:

Tesla Optimus

Tesla Optimus (Gen 2) là nỗ lực humanoid từ Tesla:

Bảng so sánh tổng hợp

Platform DoF Weight Height Max Speed Actuator Price RL Research
Cassie 10 32 kg 1.1m 4.0 m/s Electric ~$150K Rất nhiều
Digit 30 65 kg 1.75m 1.5 m/s Electric ~$250K Nhiều
Unitree H1 19 47 kg 1.8m 3.3 m/s Electric ~$90K Đang tăng
Unitree G1 23 35 kg 1.27m 2.0 m/s Electric ~$16K Mới
Atlas (new) 28 ~89 kg 1.5m 2.5 m/s Electric N/A Internal
Tesla Optimus 28 57 kg 1.73m 1.3 m/s Electric N/A Internal

RL cho Bipedal: Reward Design

Reward design cho bipedal locomotion phức tạp hơn quadruped. Ngoài các reward cơ bản (forward velocity, energy efficiency), cần thêm nhiều thành phần cho balance và naturalness.

Core Reward Components

# Reward function cho bipedal walking
reward = (
    # Forward progress
    w_vel * forward_velocity_tracking
    # Balance (quan trọng nhất cho bipedal)
    + w_balance * upright_reward          # Torso vertical
    + w_com * com_over_support_foot       # CoM trên chân trụ
    # Gait quality
    + w_gait * periodic_gait_reward       # Nhịp đi đều đặn
    + w_sym * symmetry_reward             # Hai chân đối xứng
    + w_natural * joint_angle_penalty     # Tránh pose bất thường
    # Energy
    - w_energy * torque_squared           # Tiết kiệm năng lượng
    - w_jerk * action_jerk_penalty        # Smooth control
    # Safety
    - w_contact * body_contact_penalty    # Không chạm đất bằng thân
    - w_fall * fall_penalty               # Không ngã
)

Balance Reward chi tiết

Balance là yếu tố sống còn. Các cách phổ biến:

1. Upright torso reward: Giữ torso orientation gần vertical

upright = cos(torso_pitch) * cos(torso_roll)
reward_upright = max(0, upright)  # 1.0 khi đứng thẳng

2. CoM projection reward: Trọng tâm chiếu xuống nằm trong support polygon

com_xy = get_com_projection()
support = get_support_polygon()
reward_com = is_inside(com_xy, support)

3. Angular momentum regulation: Hạn chế angular momentum quá lớn (tránh spinning out)

reward_angmom = -||angular_momentum||^2

Periodic Gait Reward

Để bipedal robot đi tự nhiên (không shuffle), dùng periodic reward:

# Phase variable: 0 → 2pi cho mỗi gait cycle
phase = (time % gait_period) / gait_period * 2 * pi

# Desired foot contact pattern
left_contact_desired = sin(phase) > 0      # Left foot stance
right_contact_desired = sin(phase + pi) > 0 # Right foot stance (opposite)

# Reward matching desired contact pattern
reward_gait = (
    match(left_foot_contact, left_contact_desired)
    + match(right_foot_contact, right_contact_desired)
)

Cách này tạo ra alternating gait tự nhiên thay vì để RL tìm ra bất kỳ gait nào (có thể là shuffling hoặc hopping).

Fall Recovery Policy

Một vấn đề quan trọng cho bipedal: robot sẽ ngã. Câu hỏi là làm sao đứng dậy?

Separate Recovery Policy

Approach phổ biến: train 2 policies riêng biệt:

  1. Walking policy: Điều khiển đi bộ bình thường
  2. Recovery policy: Đứng dậy từ nằm sấp/ngửa

State machine chuyển đổi:

Walking → [phát hiện ngã] → Recovery → [đứng thẳng] → Walking

Fall detection dựa trên torso orientation: nếu |pitch| > 60° hoặc |roll| > 60°, kích hoạt recovery.

Push Recovery

Thay vì chờ ngã rồi đứng dậy, push recovery giúp robot resist perturbation:

Berkeley Humanoid (arXiv:2407.21781)

Paper Berkeley Humanoid: A Research Platform for Learning-based Control giới thiệu platform humanoid mới từ UC Berkeley, thiết kế riêng cho RL research.

Design Principles

RL Results

Điểm đáng chú ý: Berkeley Humanoid chứng minh rằng hardware design tốt có thể giảm đáng kể complexity của RL training. QDD actuators cho response gần linear, dễ simulate chính xác, nên không cần actuator network hay heavy domain randomization.

Reinforcement learning training bipedal locomotion trên nhiều nền tảng

Humanoid-Gym (arXiv:2404.05695)

Humanoid-Gym là open-source RL framework cho humanoid locomotion, xây trên NVIDIA Isaac Gym. Đây là công cụ practical nhất hiện nay để bắt đầu với bipedal RL.

Features chính

Training Pipeline

1. Define robot URDF/MJCF
2. Configure reward weights (balance, velocity, energy...)
3. Train PPO in Isaac Gym (4096 parallel envs)
4. Verify in MuJoCo (sim-to-sim check)
5. Deploy to real robot (zero-shot)

Terrain Curriculum trong Humanoid-Gym

Humanoid-Gym hỗ trợ diverse terrains:

Dynamics randomization bao gồm:

Kết quả

RobotEra XBot-L (1.65m humanoid) đạt:

RL cho Bipedal: State of the Art

Cassie RL Milestones

Research trên Cassie đã đạt được nhiều milestones quan trọng:

1. Robust Parameterized Locomotion (arXiv:2103.14295):

2. All Common Bipedal Gaits (arXiv:2011.01387):

3. Versatile Dynamic Locomotion (arXiv:2401.16889):

Xu hướng 2024-2026

  1. Whole-body control: Kết hợp locomotion + manipulation (Digit mang hàng, Optimus lắp ráp)
  2. Vision-based bipedal: Thêm camera cho terrain-aware walking (như quadruped parkour)
  3. Foundation policies: Pre-train general locomotion policy, fine-tune cho specific tasks
  4. Faster sim-to-real: QDD actuators + better simulation giảm gap

Practical Guide: Bắt đầu với Bipedal RL

Nếu bạn muốn thử bipedal RL:

Hardware accessible

  1. Unitree G1 (~$16K): Giá tốt nhất cho full humanoid
  2. Simulation only: Dùng Humanoid-Gym với MuJoCo humanoid models (miễn phí)

Software stack

  1. Humanoid-Gym (recommended): Isaac Gym + PPO, pre-configured cho humanoid
  2. legged_gym (ETH Zurich): Flexible hơn, hỗ trợ cả quadruped và bipedal
  3. MuJoCo + Stable-Baselines3: Lightweight, dễ customize

Tips cho beginners

Kết luận

Bipedal locomotion bằng RL đang ở giai đoạn bùng nổ. Từ Cassie (chạy 100m record) đến Berkeley Humanoid (QDD simplicity) đến Humanoid-Gym (open-source tools), cộng đồng đang nhanh chóng thu hẹp khoảng cách với quadruped locomotion. Hardware giá rẻ hơn (Unitree G1/H1) và simulation tools tốt hơn (Isaac Gym, MuJoCo) đang democratize lĩnh vực này.

Đọc thêm các phần trước trong series:

Bài tiếp theo -- Part 7: Sim-to-Real cho Locomotion -- sẽ đi sâu vào cách chuyển policy từ simulation sang robot thật, với actuator network và best practices.


Bài viết liên quan

Bài viết liên quan

Unitree G1 vs H1 vs Tesla Optimus: So sánh humanoid 2026
humanoidroboticsresearch

Unitree G1 vs H1 vs Tesla Optimus: So sánh humanoid 2026

Phân tích chi tiết 3 nền tảng humanoid robot phổ biến nhất — specs, giá thành, SDK và khả năng ứng dụng thực tế.

23/3/202612 phút đọc
Nghiên cứuTrung Quốc dẫn đầu cuộc đua Humanoid Robot 2026
humanoidresearch

Trung Quốc dẫn đầu cuộc đua Humanoid Robot 2026

Phân tích thị trường humanoid Trung Quốc -- Unitree, UBTECH, Fourier, Agibot và chiến lược quốc gia.

12/3/20269 phút đọc
Wheeled Humanoid: Tương lai robot logistics và warehouse
humanoidfleetamr

Wheeled Humanoid: Tương lai robot logistics và warehouse

Robot hình người trên bánh xe — tại sao thiết kế hybrid này đang thay đổi ngành logistics và vận hành kho hàng.

3/3/202611 phút đọc