Notes

  • 方法
    • 基于模型(传统控制)
    • 基于学习(RL/IL/FM)
  • 人形机器人
    • Bipedal Locomotion 双足移动
      • 类型
        • 平地:已解决
        • 在外部扰动和力载荷下保持稳定:重点方向 但应该也已经熟练了
        • & 利用系统的自然动态的算法
          • Cost of Transport → Energy efficiency 每单位距离的能量消耗,并按体重标准化 这个指标机器人的表现远远不如人类,所以需要更节能的算法
    • Bipedal Navigation
      • 复杂环境,包括障碍物、高度受限、动态障碍物、社交/情感环境、崎岖地形 但是一般只局限于单一场景,而缺乏通用方法
    • Whole-body manipulation
      • 定义:使用身体任何部位操纵物体的能力。灵巧、局部操纵等都是这个的子集。大多数机器人通常具有预定义的末端效应器,例如脚底或指尖,作为唯一允许与世界进行物理交互的部分。
      • 难点:计算和规划复杂度由于接触点相互组合指数增加,当前硬件和算法都达不到要求
      • 突破口:模仿人类,解决跨形态差距
    • Loco-manipulation
      • Locomotion + Whole-body manipulation
      • 难点:单项难点,外加动态平衡
  • 子任务
    • 多接触点规划
      • 除了机器人状态轨迹之外,还需要确定触点位置(或接触位置)、接触模式和接触力;处理不同材质物体
      • 难点:Contact-Implicit Planning (CIP) 接触隐式规划,即以统一的方式同时解决运动和操纵接触规划问题以及全身轨迹规划
      • 基于学习的方法与传统的基于优化的方法相比,计算速度提高了 300 倍;并且可以预测接触。缺点是在动态接触丰富的控制中难以实现自适应性和精确性
        • 有潜力,比如使用强化学习来生成四足动物运动的速度命令和接触序列
        • ~ 如果对这个问题感兴趣,IV.C 的论文都值得一读
      • 方向
        • Point → patch 扩展接触点建模
        • 实时 CIP
        • 接触点预测
    • Learning Loco-manipulation Skills
      • 定义:机器人技能是指使用自己的感知、规划和控制能力自主完成指定任务的能力
      • 目标
        • 鲁棒
        • 通用 → 泛化
      • 方法
        • RL
          • ! 由于奖励函数和环境的限制,不够通用
          • 问题:Sim2Real / 训练耗时 / 奖励设计 因为类人机器人的高自由度而更麻烦
          • 最近关于类人机器人 RL 的文献主要依赖于仿真数据,因此 PPO(样本效率较低) 被广泛采用
        • IL
          • 通过大型演示数据集,可能可以解决复杂多技能任务
          • 数据来源:机器人(遥操作/策略执行,稀少)和人(视频/动捕,丰富)
        • ~ RL+IL:两阶段的师生范式
        • RL+Control:使用 MPC 生成的参考轨迹作为奖励,不太通用,潜力有限
        • 多技能框架
          • 专家混合(MoE)被广泛使用。它首先训练多个不同的技能,隐含地编码在低级专家策略中,然后学习高级策略来选择混合这些专家网络。但是存在不平衡的问题。
          • 结构化表示提高记忆效率,并允许单个策略实现多个任务
            • ~ 运动表示:运动表示在低维潜在空间中编码高维运动,生成模型
            • & 目标表示:目标通常表示为特征向量,可以从最终状态的场景图像、自然语言指令或观察人类演示的期望状态中编码。这种目标表示通常与目标条件策略(GCP)一起使用。
            • & 状态转换表示:世界模型
        • 局部操纵(不用手)
          • 只有少数研究证明了局部操作技能的模拟到真实的迁移,通常涉及针对特定环境和任务进行微调的复杂奖励设计

Reference