第一周
- 时间:2025.10.11-2025.10.17
- 任务:机器人学基础
- 时长:8h+
- 内容:
- 复习整理过去笔记,包括坐标系、DH、正逆解、运动学/动力学简要等
- 复习自注意力机制与 Tranformer
- 学习 BERT/T5 相关内容
- 笔记:
- 计划:
- 完成 Decoder-Only LLM 系列学习
- 完成 BERT 模型实战
第二周
- 时间:2025.10.18-2025.10.24
- 任务:LLM、RL 与 Diffusion Models 基础
- 时长:16h+
- 内容:
- 了解 LLM 三种模型不同架构的发展演变
- 学习强化学习基本概念及经典算法发展
- 了解强化学习(RLHF)在 LLM 微调阶段的作用
- 了解 Diffusion Models 思想,学习 DDPM 的原理
- 笔记:
- 问题:
- 哪些强化学习经典算法适合深入学习推导+代码?
- RLHF 中的奖励模型是必要的吗?看到一个理论说,SFT 本质上是奖励函数极为单一的 RL,如果用重要性采样修正,就可以让训练效果等同甚至优于 RL;如果用于 RLHF 呢?
- 计划:
第三周
- 时间:2025.10.25-2025.10.31
- 任务:综述阅读
- 时长:6h(本周学校课程 Final Project ddl | QAQ)
- 内容:
- 浏览综述全篇,把握整体框架与内容
- 细读 High-level Planner 模块
- 笔记:
- 问题:
- 计划:
第四周
- 时间:2025.11.1-2025.11.7
- 任务:综述阅读
- 时长:8h
- 内容:
- 笔记
- 问题:
- VLA 更像一个后期的、概念性的内容,是否从 RL+IL 的项目内容开始学习会更好一些?
- 计划:
Reference