个人信息Personal Information
特任副研究员
硕士生导师
电子邮箱:
学历:博士研究生毕业
学位:工学博士学位
毕业院校:中国科学技术大学
研究方向
智能体强化学习
智能体强化学习(Agentic Reinforcement Learning)研究如何将大模型建模为嵌入动态环境中的序列决策策略,并通过强化学习优化其在多步交互过程中的行为。该方向关注的是决策过程本身的学习问题:在不完全观测、环境随动作演化的条件下,模型如何进行规划、采取行动、接收反馈并持续调整策略。相较于传统大模型强化学习以“输出质量”为中心的训练范式,智能体强化学习将优化对象提升为跨时间尺度的行为策略,使模型能够在复杂任务中进行长期规划、环境交互与策略修正,为通用任务执行型智能体提供统一的学习框架。该方向的核心目标在于,使 AI 不仅能够生成合理的响应或计划,还能够主动调用外部工具、编写与执行代码、进行数学推理,并与其他智能体协同完成长期复杂任务,从而推动智能系统由被动响应式模型向具有自主行动能力的通用智能体转型。
1. 推理、规划与记忆的一体化智能体架构:智能体强化学习的基础在于推理(Reasoning)、规划(Planning)与记忆(Memory)能力的协同建模。该方向聚焦于如何将符号推理、链式思维与强化学习策略学习相结合,使智能体能够在长时间跨度内形成可解释的决策逻辑;同时,通过长期记忆与情境记忆机制,支持知识积累、经验复用与跨任务迁移,提升智能体在复杂环境中的持续学习能力。
2. 工具使用与行动执行的强化学习机制:释放 Agentic 能力的关键在于智能体能够主动选择、调用并组合外部工具(如搜索引擎、数据库、仿真环境、API 接口与软件系统),将高层决策转化为可执行行动。该方向研究如何将工具使用建模为可学习的动作空间,通过强化学习或基于反馈的优化机制,使智能体在不确定环境中学会何时、如何以及以何种顺序使用工具,从而实现从“思考”到“行动”的闭环。
3. 代码、数学与结构化任务求解能力:面向复杂问题求解,智能体强化学习强调对代码生成、程序执行与数学推理能力的系统建模。该方向探索如何将程序合成、调试与验证过程纳入强化学习框架,使智能体能够通过试错与反馈不断改进解题策略;在数学推理与算法设计等高度结构化任务中,强化学习进一步用于指导推理路径搜索与中间结果验证,提升解题的准确性与稳定性。
4. 多智能体协作与博弈学习:在复杂现实场景中,任务往往需要多个智能体的协同完成。智能体强化学习研究多智能体环境下的协作、竞争与博弈机制,使智能体能够在信息不完全与策略动态变化的条件下进行协调决策。通过角色分工、通信协议学习与协同规划,多智能体系统能够展现出超越单一智能体的整体智能与涌现行为。

