文本引导的可控图像/视频生成

报告题目:文本引导的可控图像/视频生成

报告人:左旺孟 教授、博士生导师

报告时间:2023年9月23日9:50

报告地点:秀山校区艺设西楼213会议室

报告对象:计算机科学与技术学院研究生及其他感兴趣师生

报告内容:近年来,Stable Diffusion等大规模文生图模型的出现为视觉内容生成提供了新的助力。然而,相对于通用图像生成,许多应用需求中都会涉及特定对象或特定结构的生成。为此,本报告主要包括:(1) 针对特定对象的定制化生成,综合利用全局伪文字生成和局部注意力匹配机制,设计了一种新的高效编码网络Elite生成伪文字,显著提升图像定制化生成效率,并研究了基于文本解耦的方式进行更好的伪文字生成。(2)针对特定结构的图像生成问题,提出了一种动态引导和开放域正则化方法,更够更为准确地利用分割图进行开放域图像生成。(3) 针对特定结构的视频生成问题,提出了一种仅基于已有Stable Diffusion,不需要额外训练的ControlVideo方法,能够更为稳定地生成视频。

报告人简介:

  左旺孟,哈尔滨工业大学计算机学院教授、博士生导师,机器学习中心执行主任。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和T-PAMI、IJCV及IEEE Trans.等期刊上发表论文100余篇。曾任ICCV、CVPR等CCF-A类会议领域主席,现任IEEE T-PAMI、T-IP、中国科学-信息科学等期刊编委。