G1 编程与工程 IsaacLab

G1-23dof 强化学习训练文档 Phase 1 总结

2026-04-12 · 2 min read

G1-23dof 强化学习训练文档 Phase 1 总结

文档版本:V1.0
编写日期:2026-04-12
Phase 1 完成度:✅ 100%


1. Phase 1 文档索引

文档 字数 核心内容
Velocity 任务配置规范 ~14.5KB 环境配置、78D 观测、17项奖励函数、PPO超参数
CPG-Flat 任务配置规范 ~12.8KB CPG振荡器原理、CPG-Residual动作接口、82D观测
Fusion 多传感器融合配置(V0~V11) ~12.2KB LiDAR+Depth融合、27项奖励、V0~V11版本演进
网络架构深度解析 ~16KB FusionActorCritic、CrossAttention、MultiCriticPPO
超参数系统调优指南 ~10KB PPO/网络/奖励/传感器/Curriculum超参分析
部署架构文档 ~11.6KB C++ FSM、PD控制参数、DDS通信接口

Phase 1 总计:~76KB 技术文档


2. 任务配置横向对比

维度 Velocity CPG-Flat Fusion V11
地形 混合(鹅卵石+其他) 仅平地 混合(楼梯+坡道+方块)
传感器 Height Scanner Height Scanner Depth + LiDAR + Height
Policy 观测 78D 82D 6030D
Critic 观测 78D 78D 241D
奖励项数 17项 19项 27项
CPG 模块
Curriculum terrain_levels terrain_levels quality_gated
episode_length 目标 950+ 950+

3. 核心设计要点速查

3.1 观测空间设计原则

Proprio (78D) = base_ang_vel(3) + gravity(3) + cmd(3) + qpos(23) + qvel(23) + last_action(23)

Fusion Policy = Proprio(78D) + Depth(3072D) + LiDAR(2880D)
              → Encoders → CrossAttention → 142D → Actor MLP → 23D

Fusion Critic = Proprio(78D) + base_lin_vel(3D) + height_scan(160D) = 241D

3.2 奖励函数设计原则

Total Reward = Σ(weight_i × reward_i)
  └── Locomotion 组(主导):track_lin_vel, alive, forward_progress, gait
  └── Reg 组(辅助):joint_vel, action_rate, energy
  └── Safety 组(约束):base_height, flat_orientation, penetration

调参经验:正奖励总和应 ≈ 2~5 倍 |Safety 惩罚总和|

3.3 网络架构选择

场景 推荐架构
纯平地/简单地形 Velocity(78D,直接 MLP)
周期步态引导 CPG-Flat(82D,CPG-Residual)
复杂地形+视觉感知 Fusion(6030D,CrossAttention+MultiCritic)

4. Phase 2 预告

Phase 2 将深入以下主题:

  • [ ] Following 任务:目标跟踪行走
  • [ ] Blind-Teacher 任务:教师引导的盲行走
  • [ ] H1 / Go2 机器人配置:多机器人平台适配
  • [ ] ** Curriculum 深度解析**:failure_adaptive vs quality_gated
  • [ ] 训练稳定性实战:从崩溃到收敛的排查日志
  • [ ] 真机调参经验:部署后的实际调优案例

5. 源码文件索引

功能 源码路径
G1-23dof 关节配置 assets/robots/unitree/g1_23dof_cfg.py
Velocity 环境 tasks/locomotion/robots/g1/23dof/velocity_env_cfg.py
CPG-Flat 环境 tasks/locomotion/robots/g1/23dof/cpg_flat_env_cfg.py
Fusion V0~V11 环境 tasks/locomotion/robots/g1/23dof/fusion_v{0..11}_env_cfg.py
CPG 振荡器 modules/cpg.py
CrossAttention 融合 modules/cross_attention.py
MultiCriticPPO modules/multi_critic_ppo.py
奖励函数库 tasks/locomotion/mdp/rewards.py
C++ 部署 deploy/robots/g1_23dof/

版本记录

版本 日期 修改内容 作者
V1.0 2026-04-12 Phase 1 总结完成 AI Assistant

本文档由 AI 辅助整理自 unitree_lab_locomotion 仓库源码

← 上一篇
G1-23dof 强化学习训练实战复盘与经验总结
下一篇 →
G1-23dof CPG-Flat 任务训练配置规范
← 返回博客列表