第一周

  • 时间:2025.10.11-2025.10.17
  • 任务:机器人学基础
  • 时长:8h+
  • 内容:
    • 复习整理过去笔记,包括坐标系、DH、正逆解、运动学/动力学简要等
    • 复习自注意力机制与 Tranformer
    • 学习 BERT/T5 相关内容
  • 笔记:
  • 计划:
    • 完成 Decoder-Only LLM 系列学习
    • 完成 BERT 模型实战

第二周

  • 时间:2025.10.18-2025.10.24
  • 任务:LLM、RL 与 Diffusion Models 基础
  • 时长:16h+
  • 内容:
    • 了解 LLM 三种模型不同架构的发展演变
    • 学习强化学习基本概念及经典算法发展
    • 了解强化学习(RLHF)在 LLM 微调阶段的作用
    • 了解 Diffusion Models 思想,学习 DDPM 的原理
  • 笔记:
  • 问题:
    • 哪些强化学习经典算法适合深入学习推导+代码?
    • RLHF 中的奖励模型是必要的吗?看到一个理论说,SFT 本质上是奖励函数极为单一的 RL,如果用重要性采样修正,就可以让训练效果等同甚至优于 RL;如果用于 RLHF 呢?
  • 计划:
    • 综述阅读,选定方向
    • 论文阅读

第三周

  • 时间:2025.10.25-2025.10.31
  • 任务:综述阅读
  • 时长:6h(本周学校课程 Final Project ddl | QAQ)
  • 内容:
    • 浏览综述全篇,把握整体框架与内容
    • 细读 High-level Planner 模块
  • 笔记:
  • 问题:
    • 综述阅读时难以汇总信息、整理并记忆
  • 计划:
    • 继续综述阅读,选定方向
    • 论文阅读

第四周

Reference