李泽昊 · 机器人工程师

面向机器人操作的强化学习

纽约大学 · 2025 至今 · 角色:实现与实验
角色与核心贡献

独立、持续进行的操作强化学习——从零实现核心价值型算法并搭建训练环境。

  1. 从零实现 Q-Learning 与 DQN,涵盖回放缓冲、目标网络、探索策略与奖励塑形;
  2. 搭建开抽屉操作任务的 MuJoCo 训练环境;
  3. 跑通端到端 RL 流程,并随研究进展持续更新。

概述

为了在实现层面理解强化学习算法,我用 Python 从零实现了 Q-Learning 和 深度 Q 网络(DQN),应用于机械臂操作实验。

内容

这对我的工作意味着什么

学习式控制可以帮助我在一定程度上打通机械设计与仿真/控制,从而对于机器人有更加系统的认识。

强化学习操作实验——图片即将补充
实验渲染图即将补充。