GitHub Pages License Papers Notes
来源: awesome-humanoid-robot-learning
📖 待读论文清单: papers/PROGRESS.md — 全量 531 篇论文的阅读进度表(来自上游 awesome 列表)。
🛠️ 仓库开发待办: papers/todos/TODO_v5.md — 笔记 / 站点 / 工具链的开发任务(最新 v5,侧重脚本健壮性与代码质量,历史版本见 papers/todos/)。
项目已集成 addyosmani/agent-skills 生产级工程规范,在后续维护中强制执行以下质量门禁:
- Spec-driven & TDD: 关键功能更新必须先有设计规格(Spec)和测试用例。
- Code Review: 所有脚本更新需经过 5 轴审查(正确性、可读性、架构、安全、性能)。
- Source-driven: 实现逻辑必须基于官方文档和最新源码,拒绝"AI 幻想"。
当前正在执行的 TODO_v5 计划涵盖了:
- 安全性: 修复 YAML 前言生成中的引号转义隐患。
- 一致性: 统一多脚本间的
is_stub(草稿判定)阈值。 - 健壮性: 增加全局 UTF-8 编码支持与脚本模块化重构。
- 每天早上 7:00 推送当日论文阅读提醒
- 冲回复"理解了"后,才进入下一篇
- 如果当天没有回复"理解了",第二天继续提醒同一篇
- 回复"理解了"后,对话记录也会保存到对应的 MD 笔记中
- 可以随时说"读下一篇"跳到一篇
├── papers/ # 论文笔记(按类别分目录)
│ ├── 01_Foundational_RL/ # 基础 RL 算法(PPO、AWR、DeepMimic、AMP 等)
│ ├── 02_Motion_Retargeting/ # 动作重定向(人体骨架 → 机器人骨架)
│ ├── 03_High_Impact_Selection/ # 高影响力精选论文
│ ├── 04_Loco-Manipulation_and_WBC/ # 全身控制与移动操作
│ ├── 05_Locomotion/ # 行走/跑酷等运动控制
│ ├── 06_Manipulation/ # 操作与灵巧手
│ ├── 07_Teleoperation/ # 遥操作
│ ├── 08_Navigation/ # 导航
│ ├── 09_State_Estimation/ # 状态估计
│ ├── 10_Sim-to-Real/ # 仿真到真实迁移
│ ├── 11_Simulation_Benchmark/ # 仿真平台与基准测试
│ ├── 12_Hardware_Design/ # 硬件设计
│ ├── 13_Physics-Based_Animation/ # 基于物理的角色动画
│ ├── 14_Human_Motion/ # 人体运动分析与合成
│ ├── todos/ # 仓库开发待办归档(TODO_v1/v2/v3/v4.md)
│ └── PROGRESS.md # 全部论文阅读进度表(待读清单)
├── progress.json # 当前阅读进度追踪(JSON)
├── scripts/ # 辅助脚本
│ └── prepare_pages.py # GitHub Pages 部署预处理
├── _data/ # Jekyll 数据文件
│ └── papers.json # 论文索引数据
├── .github/workflows/ # CI/CD
│ └── deploy.yml # GitHub Pages 自动部署
├── _layouts/ _includes/ assets/ # Jekyll 网页模板和样式
├── _config.yml # Jekyll 配置
└── README.md # 本文件
每篇论文的笔记通过 GitHub Pages 自动部署为在线网页。
笔记中涉及的论文,如果在 MimicKit(xbpeng 大神的运动模仿框架)中有官方实现,笔记会附上「📁 MimicKit 源码对照」章节,包含:
- 关键代码块:与笔记讲解一一对应的源码(网络结构、loss 计算、训练循环等)
- 配置示例:YAML 超参数文件的关键参数说明
- 训练 / 测试命令:可一键运行的命令行
MimicKit 是一个轻量级的运动模仿框架,支持 Isaac Gym / Isaac Lab / Newton 等仿真后端。目前已覆盖:DeepMimic、AMP、AWR、ASE、LCP 等主流算法。源码地址:https://github.com/xbpeng/MimicKit
每篇笔记采用统一结构,兼顾深度理解和面试准备:
| 章节 | 内容 | 示例 |
|---|---|---|
| 📋 基本信息 | arXiv、PDF、作者、机构、发表时间 | arXiv: 1707.06347 |
| 🎯 一句话总结 | 用一句大白话概括论文核心贡献 | "PPO 通过裁剪机制让策略更新既大胆又安全" |
| 📌 英文缩写速查 | 论文中出现的术语缩写表 | 放在一句话总结之后、正文之前 |
| ❓ 要解决什么问题 | 问题背景 + 生活化类比,零基础能看懂 | 用"走台阶 vs 瞎子爬山"类比 PPO vs TRPO |
| 🔧 方法详解 | 逐步拆解核心方法,配公式、表格、流程图 | 概率比 → 优势函数 → 裁剪机制 → 训练流程 |
| 🚶 具体实例 | 完整数值走通:用人形机器人场景演示算法全过程 | 状态设定 → 采样 → GAE 计算 → 裁剪更新 → 训练进展 |
| 🤖 工程价值 | 为什么这个方法对人形机器人控制重要 | PPO 成为 sim-to-real 首选的原因 |
| 📁 MimicKit 源码对照 | (可选,有源码时出现) 对应的 MimicKit 官方实现代码与配置 | PPO/AWR/LCP 等主流算法均有覆盖 |
| 🎤 面试高频 Q&A | 5-8 个高频问题 + 参考回答,直接可用 | "PPO 和 TRPO 的区别?""裁剪具体怎么起作用?" |
| 💬 讨论记录 | 阅读过程中的疑问、讨论和澄清 | surrogate loss 的直觉理解 |
| 附录 | 内容 |
|---|---|
| 算法变体 | 不同版本对比(如 PPO-Clip vs PPO-Penalty) |
| Loss 完整拆解 | 含各项系数的完整公式 |
| 网络架构 | Actor-Critic 的典型结构 |
| 超参数速查表 | 常用超参数及推荐值 |
| 训练过程可视化 | 各指标随训练的变化趋势 |
| 实验结果 | 关键实验数据与对比 |
| 相关工作 | 上下游论文关系 |
💡 附录内容因论文而异,不是每篇都有全部附录。核心原则:有用就写,没必要就省。
💡 括号内为论文 arXiv 首次发布年份,与首页路线图节点下方的年份小字一致。
1 【基础 RL】
PPO (2017) → AWR (2019)
↓
【人体动作数据层】 ← 模仿类方法开始需要参考数据
AMASS (2019) / HumanML3D (2022) → 人体 SMPL 动作数据集
↓
【动作重定向层】 ← 人体骨架 → 机器人骨架的桥梁
几何重定向 (IK-based) → GMR / Retargeting Matters (2025)
↓ ↑ 决定模仿策略的动作质量上限
↓
2 【精确模仿主线】 【风格学习主线】
DeepMimic (2018) →→→ AMP (2021)
↓ ↓
PHC (2023) ADD (2025)
↓
3 【技能组合 / 扩散】
ASE (2022) → CALM (2023) → PULSE (2023)
Diffusion Policy (2023) → BeyondMimic (2025)
↓
4 【全身控制 WBC】 ← 把技能 / 扩散策略落到整机关节
Expressive WBC (2024) → HOVER (2024) / HugWBC (2025) / ExBody2 (2024)
↓
┌── 从 WBC / 扩散分出多条上行支线,最终都汇聚到 9 ──┐
│
├─ 5 操作 Manipulation: iDP3 (2024) → EgoMimic (2024) → HumDex (2026)
│ (3D 扩散策略 / 自我中心视频 / 灵巧手)
│
├─ 6 移动操作 Loco-Manipulation: HOMIE (2025) → ULTRA (2026) → Ψ0 (2026)
│ (外骨骼遥操作 → 多模态全身控制 → loco-manip 基础模型)
│
└─ 7 世界模型 World Model: DreamDojo (2026) → 1X World Model (2025);HAIC (2026)(动力学感知 WM)
↓(世界模型"会做梦"预测未来 / 动力学,再升级为可直接当策略的模型)
8 世界-动作模型 WAM: DreamZero (2026)(World Action Models are Zero-shot Policies)
↓
9 【基础模型终点 (VLA / BFM)】 ← 一路从 PPO 爬到这里
VLA:GR00T N1 (2025) ── 视觉-语言-动作,端到端通才策略
BFM:Behavior Foundation Model (2025) ── 行为基础模型 / 全身控制先验
【Sim-to-Real 工程层】 ← 横跨整个路线
Domain Randomization (2017) → LCP (2024)
↑ sim环境随机化迁移 ↑ 动作平滑,替代低通滤波器
💡 为什么把动作重定向单列一层:精确模仿 / 风格学习 / 遥操作(OmniH2O、ExBody2 等)都依赖"人体动作 → 机器人可执行轨迹"的转换;重定向质量直接决定下游策略能学到什么动作,是被很多论文一笔带过、却最容易踩坑的工程环节。
🚀 从 WBC 到基础模型的上行支线:全身控制(WBC)把底层技能 / 扩散策略落到整机关节后,路线分出操作(Manipulation)与移动操作(Loco-Manipulation)等分支;它们最终都汇聚到基础模型终点——以 GR00T N1 为代表的 VLA(视觉-语言-动作)和以 Behavior Foundation Model(BFM-Zero)为代表的 BFM(行为基础模型),即"一路从 PPO 上到 VLA / BFM"的顶点。
🌍 世界模型 / 世界-动作模型支线:世界模型(World Model)——DreamDojo、1X World Model、HAIC(动力学感知 WM)——学会预测未来观测与动力学,既能"做梦"生成训练数据、又能做基于模型的规划;再进一步,世界-动作模型(World Action Model, WAM)(如 DreamZero)让世界模型本身充当零样本策略,与 VLA / BFM 一同构成"通用机器人大模型"的顶层。
| 论文 | 官方源码 | MimicKit | 核心实现 / 入口 |
|---|---|---|---|
| PPO | openai/baselines | ✅ | mimickit/learning/ppo_agent.py |
| AWR | xbpeng/awr | ✅ | mimickit/learning/awr_agent.py |
| DeepMimic | xbpeng/MimicKit | ✅ | mimickit/envs/deepmimic_env.py + ppo_agent.py |
| AMP | nv-tlabs/ASE(含 AMP) | ✅ | mimickit/learning/amp_agent.py |
| ASE | nv-tlabs/ASE | ✅ | mimickit/learning/ase_agent.py |
| ADD | xbpeng/MimicKit | ✅ | mimickit/learning/add_agent.py |
| LCP | zixuan417/smooth-humanoid-locomotion | ✅ | mimickit/learning/lcp_agent.py |
| PHC | ZhengyiLuo/PHC | ❌ | phc/learning/amp_network_pnn_builder.py(独立仓库) |
| CALM | NVlabs/CALM | ❌ | IsaacGym 独立实现,不在 MimicKit |
| PULSE | ZhengyiLuo/PULSE | ❌ | phc/learning/amp_network_z_builder.py(基于 PHC 扩展) |
| Diffusion Policy | columbia-ai-robotics/diffusion_policy | ❌ | 视觉模仿学习框架,与 MimicKit 定位不同 |
| BeyondMimic | HybridRobotics/whole_body_tracking(训练) HybridRobotics/motion_tracking_controller(部署) |
❌ | Isaac Lab + RSL-RL;引导扩散部分尚未单独开源 |
| Domain Randomization (2017) | 无官方代码;可参考 matwilso/domrand 复现 | N/A | DR 作为通用技术在 MimicKit / Isaac 系 env 的 events 中体现 |
| Understanding DR (2021) | 理论论文,无配套代码 | N/A | — |
| MimicKit | xbpeng/MimicKit | ✅ | 框架本身,汇总上表 ✅ 项 |
注:MimicKit 列打 ✅ 表示该算法在 MimicKit 有官方实现,且对应笔记含「📁 MimicKit 源码对照」章节;打 ❌ 表示有独立官方仓库、不在 MimicKit 内。