Educational Experience
Work Experience
|
Profile中国科学技术大学信息学院教授、博士生导师,国家高层次青年人才计划入选者。主要研究方向为图神经网络、机器学习等方面的理论研究和技术开发工作,旨在解决当前深度学习能效性、鲁棒性等问题。目前的工作重点是图神经网络、脉冲神经网络、鲁棒神经网络和感知决策实践等方向。具体包括 一、深度学习安全可信问题 深度学习在计算机视觉等领域取得了突破性进展,然而其安全性与可信度问题日益凸显: 1. 对抗攻击挑战:微小扰动可导致模型产生严重误判(如交通标志识别错误),对自动驾驶等关键应用领域构成重大安全威胁。 2. 分布外泛化难题:现有深度学习模型在训练分布之外的场景中表现严重退化,缺乏应对现实世界复杂多变环境的鲁棒性,限制了其在开放环境中的可靠应用。 3. 可解释性困境:深度神经网络常被视为"黑箱",其决策过程难以理解和解释,这在医疗诊断、金融风控等高风险决策领域引发了合规性和伦理性质疑。 本实验组针对上述问题开展系统性研究,重点探索对抗攻击防御技术(如生成式模型数据增强、正则化模型训练、图神经网络注入攻击防护等);分布外泛化增强方法(如重加权技术、图数据分布外泛化解决方案等);以及数据驱动的控制安全机制(如智能体可学习安全障碍函数等)。 二、物理动力系统与机器学习 动力系统理论与机器学习的深度融合正开辟新的研究范式: 1. 物理启发的机器学习:利用微分方程精确刻画网络动态特性(如神经常微分方程等),显著提升模型结构合理性与泛化性能。 2. 机器学习增强科学计算:应用神经网络求解高维偏微分方程(如PINNs)、发现守恒量,大幅加速流体力学等复杂场景模拟。在气候预测等时序数据处理中,结合动力系统稳定性理论,能够显著提升模型的长期预测能力与可靠性。 本实验组开展交叉学科研究,重点探索连续深度模型(如基于ODE/FDE/SDE的图网络架构设计),突破传统离散网络的内存瓶颈;深入研究图神经网络交互动力系统建模问题,实现复杂系统时空演化的高精度预测。 三、大模型高效计算问题 随着万亿参数级别的大模型日趋普遍,其面临的计算挑战也愈发严峻: 1. 训练成本难题:千卡级GPU集群训练的能耗相当于数百家庭的年用电量,其经济与环境成本已达到不可持续水平。 2. 推理延迟瓶颈:实时应用场景要求低延迟响应,然而现有模型庞大的参数量与推理速度需求之间存在根本性矛盾。 3. 存储与部署挑战:大型模型难以嵌入移动终端,严重制约了边缘计算应用发展,阻碍了AI技术的普惠化进程。 本实验组针对上述问题开展前瞻性研究,重点探索大模型量化蒸馏技术、高效二值化脉冲神经网络等解决方案,致力于在保持模型性能的同时大幅降低计算资源需求。 个人主页: https://kangqiyu.github.io/ Personal Information
|