Xbot 社区实习汇报

第一周

时间：2025.10.18-2025.10.24
任务：LLM、RL 与 Diffusion Models 基础
时长：16h+
内容：
- 了解 LLM 三种模型不同架构的发展演变
- 学习强化学习基本概念及经典算法发展
- 了解强化学习（RLHF）在 LLM 微调阶段的作用
- 了解 Diffusion Models 思想，学习 DDPM 的原理
笔记：
问题：
- 哪些强化学习经典算法适合深入学习推导+代码？
- RLHF 中的奖励模型是必要的吗？看到一个理论说，SFT 本质上是奖励函数极为单一的 RL，如果用重要性采样修正，就可以让训练效果等同甚至优于 RL；如果用于 RLHF 呢？
计划：
- 综述阅读，选定方向
- 论文阅读

时间：2025.10.25-2025.10.31
任务：综述阅读
时长：6h（本周学校课程 Final Project ddl | QAQ）
内容：
- 浏览综述全篇，把握整体框架与内容
- 细读 High-level Planner 模块
笔记：
- Towards a Unified Understanding of Robot Manipulation - A Comprehensive Survey
问题：
- 综述阅读时难以汇总信息、整理并记忆
计划：
- 继续综述阅读，选定方向
- 论文阅读

时间：2025.11.1-2025.11.7
任务：综述阅读
时长：8h
内容：
- 完成全部内容阅读与总结
笔记
- Towards a Unified Understanding of Robot Manipulation - A Comprehensive Survey
问题：
- VLA 更像一个后期的、概念性的内容，是否从 RL+IL 的项目内容开始学习会更好一些？
计划：
- 选定项目，开始复现与实践