中国科学技术大学 Zhang Kevin--Home-- 大语言模型（LLMs）方法及应用

Zhang Kevin

Supervisor of Master's Candidates

E-Mail:

Business Address:高新区地址：中国科大高新校区信智大楼B706室

Alma Mater:中国科学技术大学

Honors and Titles

2024-01-20 小米青年学者

2023-08-08 国际人工智能会议“最佳论文候选”

2022-10-10 博士研究生国家奖学金

2022-06-07 中国科学院院长奖学金

2019-10-10 博士研究生国家奖学金

2019-08-08 中国机器学习会议“最佳学生论文”

Click:Times

The Last Update Time: ..

Current position: Home >>Research Focus

大语言模型（LLMs）方法及应用

► What——大模型学到了什么？

大模型知道什么还不知道什么，有哪些能力是大模型才能习得而小模型无法学到的? 2022年Google发表文章探讨大模型的涌现现象，点明很多能力是模型规模增大以后神奇出现的 [1]。那么大模型里究竟还藏着什么样的惊喜，这个问题尚待我们挖掘。

► How—— 如何训好大模型？

随着模型规模不断增大（Scaling）的过程，如何掌握训练大模型的规律 [2]，其中包含众多问题，例如数据如何准备和组合，如何寻找最优训练配置，如何预知下游任务的性能，等等 [3]。这些是 How 的问题。

► Why——大模型为什么好？

这方面已经有很多非常重要的研究理论[4,5,6]，包括过参数化等理论，但终极理论框架的面纱仍然没有被揭开。

面向 What、How 和 Why 等方面的问题，大模型有非常多值得探索的理论问题，等待大家的探索。

[1] Wei et al. Emergent Abilities of Large Language Models. TMLR 2022.

[2] Kaplan et al. Scaling Laws for Neural Language Models. 2020.

[3] OpenAI.GPT-4 technical report. 2023.

[4] Nakkiran et al. Deep double descent: Where bigger models and more data hurt. ICLR 2020.

[5] Bubeck et al. A universal law of robustness via isoperimetry. NeurIPS 2021.

[6] Aghajanyan et al. Intrinsic dimensionality explains the effectiveness of language model fine-tuning. ACL 2021.