00. 学习协议与诊断

阶段 0 verified 最后更新 2026-05-14

先建立学习方式、知识树和诊断入口。当前跳过实操,重点是理论体系、技术史、论文脉络、方法辨析和面试表达。每完成一个小节,在 notes/ 对应阶段目录里新增或更新 HTML 笔记。

本节学习目标

  • 把"怎么学"先于"学什么"立起来:苏格拉底问答 + 主动回忆 + 分布式复习 + 交错学习 + 自我解释。
  • 明确覆盖范围(7 层知识金字塔),与 awesome-humanoid-robot-learning 资料库对齐。
  • 用 6 道诊断题刻画当前能力起点,作为后续阶段的入口。

学习方式(教学协议)

本轮采用"快节奏苏格拉底式学习":先给最小必要框架,然后用问题逼出你的已有模型、误区和薄弱点;你回答后再补关键概念、论文脉络和面试表达。每小节结束后再固化 HTML 笔记。

方法在本学习中的用法依据
主动回忆 每节先问概念、推理和对比题,少做被动阅读 CMU Eberly Center 将 retrieval practice 定义为通过回忆增强记忆、理解和应用能力
分布式复习 关键概念会在 1 天、3 天、7 天尺度反复出现,避免一次性堆材料 National Academies 总结 spaced practice 通常优于集中突击
交错学习 经典控制、优化、学习方法会交替比较,而不是孤立学习 How People Learn II 指出 interleaving 有助于区分类似类别和问题类型
自我解释 要求你用自己的话解释"为什么这个方法能稳定/泛化/上真机" 学习技术元分析显示 practice testing、distributed practice 效果靠前,self-explanation 也有稳定价值

覆盖范围(7 层知识金字塔)

  1. 基础层:刚体运动学、动力学、坐标系、雅可比、接触、摩擦锥、欠驱动系统
  2. 经典运控:ZMP、LIPM、capture point、步态规划、轨迹优化、MPC、WBC/QP、阻抗/导纳控制
  3. 状态估计:IMU、编码器、足端接触、EKF/Invariant EKF、因子图、VIO/SLAM 与接触辅助估计
  4. 学习控制:模仿学习、强化学习、运动跟踪、课程学习、奖励设计、domain randomization、system ID、sim-to-real
  5. 全身与操作:loco-manipulation、whole-body teleoperation、retargeting、motion prior、人类视频/动作数据
  6. 前沿:diffusion policy、world model、VLA/语言到动作、foundation policy、跨 embodiment、开放词汇导航、安全约束
  7. 面试输出:把简历项目改写成"问题-方法-难点-权衡-结果-反思"的深度自我介绍

运控的总问题(第一性命题)

核心命题

机器人运控不是"让关节动起来",而是在不完美模型不完整状态估计强接触不确定性实时计算限制下,把高层任务转成稳定、可执行、抗扰的力/位/速度命令。

第一性拆解:任务目标是什么?状态从哪里来?模型可信到什么程度?约束有哪些?控制量是什么?接触如何处理?失败时如何恢复?

诊断问题(已完成)

下列 6 题是项目启动时的诊断入口。回答已收集,作为后续阶段的能力起点参照。

  1. 你如何区分"运动规划""轨迹优化""控制器""策略 policy"?用一个机器人走路例子说明。
  2. 为什么双足机器人比固定基座机械臂难很多?请至少从欠驱动、接触、稳定性三个角度说。
  3. ZMP/LIPM 这类经典方法解决了什么问题?它们最重要的简化假设是什么?
  4. Whole-Body Control 通常为什么会写成 QP?QP 里的目标和约束大概分别是什么?
  5. 学习型 humanoid locomotion 里,为什么 sim-to-real 是核心难点?你会先怀疑哪些 gap?
  6. 从找工作角度,你更想投哪类岗位:机器人运动控制、强化学习/机器人学习、具身智能/VLA、机器人软件工程,还是不确定?

下一节开场问题

进入阶段 1 · 控制栈与技术史的第一节。开场问题:

"机器人运控系统到底分几层,每层的输入/输出/时间尺度大概是什么?在你做 G1 RL+WBC 项目里,RL policy 输出的到底是什么?WBC 又接管了什么?"

参考资料