面向机器人操作的强化学习
角色与核心贡献
独立、持续进行的操作强化学习——从零实现核心价值型算法并搭建训练环境。
- 从零实现 Q-Learning 与 DQN,涵盖回放缓冲、目标网络、探索策略与奖励塑形;
- 搭建开抽屉操作任务的 MuJoCo 训练环境;
- 跑通端到端 RL 流程,并随研究进展持续更新。
概述
为了在实现层面理解强化学习算法,我用 Python 从零实现了 Q-Learning 和 深度 Q 网络(DQN),应用于机械臂操作实验。
内容
- 实现表格式 Q-Learning 与 DQN:回放缓冲、目标网络、epsilon-greedy 探索调度,以及稀疏操作奖励下的奖励塑形。
- MuJoCo 操作任务仿真环境学习,为之后动力学仿真打基础。
这对我的工作意味着什么
学习式控制可以帮助我在一定程度上打通机械设计与仿真/控制,从而对于机器人有更加系统的认识。