的个人主页 http://faculty.ustc.edu.cn/zhangkai123/zh_CN/index.htm
我还在探索多模态表示学习方向,该领域专注于如何有效整合来自多种不同模态(如文本、图像、声音等)的数据,以使新一代人工智能模型实现更丰富的数据解释和更准确的预测能力。这一领域的研究任务包括图像和文本联合生成、意图分析、以及跨模态信息检索等。通过这些研究,可以让机器更好地理解和处理具有复杂模态特性的数据。
具体研究包括但不限于如下任务:
多模态问答(Visual Question Answering,VQA)
多模态情感分析(Multimodal Sentiment Analysis,MSA)
多模态意图识别(Multimodal Intent Recognition,MIR)
...