李泽昊 · 机器人工程师

← 全部项目

面向机器人操作的强化学习

纽约大学 · 2025 至今 · 角色：实现与实验

角色与核心贡献

独立、持续进行的操作强化学习——从零实现核心价值型算法并搭建训练环境。

从零实现 Q-Learning 与 DQN，涵盖回放缓冲、目标网络、探索策略与奖励塑形；
搭建开抽屉操作任务的 MuJoCo 训练环境；
跑通端到端 RL 流程，并随研究进展持续更新。

概述

为了在实现层面理解强化学习算法，我用 Python 从零实现了 Q-Learning 和深度 Q 网络（DQN），应用于机械臂操作实验。

内容

实现表格式 Q-Learning 与 DQN：回放缓冲、目标网络、epsilon-greedy 探索调度，以及稀疏操作奖励下的奖励塑形。
MuJoCo 操作任务仿真环境学习，为之后动力学仿真打基础。

这对我的工作意味着什么

学习式控制可以帮助我在一定程度上打通机械设计与仿真/控制，从而对于机器人有更加系统的认识。

强化学习操作实验——图片即将补充 — 实验渲染图即将补充。