Supervisor of Master's Candidates
E-Mail:
Business Address:高新区地址:中国科大高新校区信智大楼B706室
Alma Mater:中国科学技术大学
Honors and Titles
2024-01-20 小米青年学者
2023-08-08 国际人工智能会议“最佳论文候选”
2022-10-10 博士研究生国家奖学金
2022-06-07 中国科学院院长奖学金
2019-10-10 博士研究生国家奖学金
2019-08-08 中国机器学习会议“最佳学生论文”
The Last Update Time: ..
大语言模型(LLMs)方法及应用
大模型知道什么还不知道什么,有哪些能力是大模型才能习得而小模型无法学到的? 2022年Google发表文章探讨大模型的涌现现象,点明很多能力是模型规模增大以后神奇出现的 [1]。那么大模型里究竟还藏着什么样的惊喜,这个问题尚待我们挖掘。
随着模型规模不断增大(Scaling)的过程,如何掌握训练大模型的规律 [2],其中包含众多问题,例如数据如何准备和组合,如何寻找最优训练配置,如何预知下游任务的性能,等等 [3]。这些是 How 的问题。
这方面已经有很多非常重要的研究理论[4,5,6],包括过参数化等理论,但终极理论框架的面纱仍然没有被揭开。
面向 What、How 和 Why 等方面的问题,大模型有非常多值得探索的理论问题,等待大家的探索。