张玉东

个人信息Personal Information

特任副研究员

硕士生导师

电子邮箱:

学历:博士研究生毕业

学位:工学博士学位

毕业院校:中国科学技术大学

研究方向

当前位置: 中文主页 >> 研究方向

多模态大模型

多模态大模型(Multimodal Large Language Models, MLLMs)是新一代通用人工智能系统的核心基础形态,旨在统一建模与理解语言、视觉与音频等多源异构信息。该方向涵盖以视觉–语言模型(Vision-Language Models, VLMs)音频–语言模型(Audio-Language Models, ALMs)为代表的多模态模型范式,通过跨模态表示学习与语义对齐,使模型能够从真实世界的多模态感知信号中进行理解、推理与生成。相较于仅依赖文本的大语言模型,多模态大模型显著拓展了模型的认知边界,为复杂场景理解、自然人机交互以及科学智能提供了关键支撑。本研究方向的核心目标在于构建具备可靠推理能力、低幻觉风险与高鲁棒性的多模态大模型,使其能够在复杂、不确定且存在噪声干扰的真实环境中稳定运行,并为高风险、高价值应用场景提供可信的智能基础。

1. 多模态推理能力的系统性提升:多模态推理的核心挑战在于实现跨模态信息的一致整合与逻辑推断。相关研究聚焦于多模态表征对齐、结构化推理机制以及跨模态链式推理(Multimodal Chain-of-Thought),探索如何在视觉、音频与语言信息之间建立可解释、可组合的推理路径,从而提升模型在复杂任务中的逻辑一致性、泛化能力与推理深度。

2. 多模态幻觉问题的缓解与可信生成:在多模态场景下,模型可能生成与输入感知不一致、缺乏事实或感知依据的内容,形成所谓的多模态幻觉问题。该研究方向致力于通过跨模态一致性约束、不确定性建模与外部知识或检索机制的引入,系统性降低幻觉发生率,提升模型生成结果的可验证性与可信度,确保多模态大模型在关键应用中的安全性与可靠性。

3. 鲁棒性与跨分布泛化能力研究:真实环境中的多模态数据通常伴随噪声干扰、分布偏移以及模态缺失等问题,对模型的稳定性提出了更高要求。相关研究重点关注模型在输入扰动、跨场景迁移与模态不完整条件下的鲁棒性,通过稳健表征学习、对抗训练与跨模态补全机制,增强多模态大模型在开放环境中的泛化能力与实际可部署性。