00. 学习协议与诊断

阶段 0 verified 最后更新 2026-05-14

先建立学习方式、知识树和诊断入口。当前跳过实操，重点是理论体系、技术史、论文脉络、方法辨析和面试表达。每完成一个小节，在 notes/ 对应阶段目录里新增或更新 HTML 笔记。

本节学习目标

本轮采用"快节奏苏格拉底式学习"：先给最小必要框架，然后用问题逼出你的已有模型、误区和薄弱点；你回答后再补关键概念、论文脉络和面试表达。每小节结束后再固化 HTML 笔记。

方法	在本学习中的用法	依据
主动回忆	每节先问概念、推理和对比题，少做被动阅读	CMU Eberly Center 将 retrieval practice 定义为通过回忆增强记忆、理解和应用能力
分布式复习	关键概念会在 1 天、3 天、7 天尺度反复出现，避免一次性堆材料	National Academies 总结 spaced practice 通常优于集中突击
交错学习	经典控制、优化、学习方法会交替比较，而不是孤立学习	How People Learn II 指出 interleaving 有助于区分类似类别和问题类型
自我解释	要求你用自己的话解释"为什么这个方法能稳定/泛化/上真机"	学习技术元分析显示 practice testing、distributed practice 效果靠前，self-explanation 也有稳定价值

基础层：刚体运动学、动力学、坐标系、雅可比、接触、摩擦锥、欠驱动系统
经典运控：ZMP、LIPM、capture point、步态规划、轨迹优化、MPC、WBC/QP、阻抗/导纳控制
状态估计：IMU、编码器、足端接触、EKF/Invariant EKF、因子图、VIO/SLAM 与接触辅助估计
学习控制：模仿学习、强化学习、运动跟踪、课程学习、奖励设计、domain randomization、system ID、sim-to-real
全身与操作：loco-manipulation、whole-body teleoperation、retargeting、motion prior、人类视频/动作数据
前沿：diffusion policy、world model、VLA/语言到动作、foundation policy、跨 embodiment、开放词汇导航、安全约束
面试输出：把简历项目改写成"问题-方法-难点-权衡-结果-反思"的深度自我介绍

核心命题

机器人运控不是"让关节动起来"，而是在不完美模型、不完整状态估计、强接触不确定性和实时计算限制下，把高层任务转成稳定、可执行、抗扰的力/位/速度命令。

第一性拆解：任务目标是什么？状态从哪里来？模型可信到什么程度？约束有哪些？控制量是什么？接触如何处理？失败时如何恢复？

下列 6 题是项目启动时的诊断入口。回答已收集，作为后续阶段的能力起点参照。

进入阶段 1 · 控制栈与技术史的第一节。开场问题：

"机器人运控系统到底分几层，每层的输入/输出/时间尺度大概是什么？在你做 G1 RL+WBC 项目里，RL policy 输出的到底是什么？WBC 又接管了什么？"