基本信息

王卫宁,女,中国科学院自动化研究所

紫东太初大模型研究中心

北京中关村学院共建导师

电子邮件: weining.wang@nlpr.ia.ac.cn

通信地址: 中关村东路95号智能化大厦

邮政编码: 100190

个人简介

王卫宁,硕导,中国科学院自动化研究所副研究员。研究方向为视觉内容生成与编辑、多模态理解与生成统一、视频理解等,围绕扩散生成方法、多模态学习、视频语义学习等关键问题提出系列创新性方法,在相关领域的国内外期刊和会议上发表论文40余篇,曾获国际主流竞赛冠军2项,亚军1项,获得学术会议最佳论文奖1项。作为负责人主持国家自然科学基金青年基金项目,作为课题负责人参与国家自然科学基金重点项目2项,作为项目骨干参与科技创新2030新一代人工智能专项等多项国家级任务。参与研发“紫东太初”大模型并荣获世界人工智能大会最高奖-SAIL奖。

招生信息

隶属于紫东太初大模型研究中心刘静研究员团队。2026年预计招收推免硕士生一名(2027年本科毕业生),建议提前与我联系。


招收实习生,线上线下均可,欢迎联系(weining.wang@nlpr.ia.ac.cn)。

1. 研究方向集中在多模态理解与生成统一、视频理解、视频生成等,希望招收对此方向有强烈兴趣的学生;

2. 欢迎自主性好、代码能力强的学生,共同开展前沿的研究工作;

3. 课题组近年来和工业界合作紧密(如字节、阿里、腾讯、华为、OPPO等),可协助推荐至相关企业实习。


招生专业

081104-模式识别与智能系统


招生方向

计算机视觉


研究领域

图像/视频生成、多模态理解与生成统一、视频理解

工作经历

工作简历

2023-07~现在, 中国科学院自动化研究所, 副研究员

2020-10~2023-07,中国科学院自动化研究所, 助理研究员


社会兼职

2024-02-01-今,中国图象图形学学会女科技工作者委员会, 委员

2021-12-18-今,中国人工智能学会模式识别专委会, 委员

专利与奖励

奖项与荣誉:

第18届中国生物特征识别会议(CCBR)最佳论文奖

2021年国际计算机视觉会议(ICCV) 大规模视频场景理解竞赛冠军

2022年欧洲计算机视觉会议(ECCV)细粒度视频行为检测国际竞赛冠军

2022年国际模式识别会议(ICPR) 多模态视频字幕识别竞赛亚军

2020年北京图象图形学学会优秀博士论文提名奖

2022年世界人工智能大会最高奖SAIL奖

2023年所在团队被评为“科苑名匠”


专利成果:

[1] 图像生成方法、装置、设备、存储介质及存储介质,发明专利,2023,第1作者

[2] 一种视频生成方法、装置、电子设备及存储介质,发明授权,2023,第1作者

[3] 视频量化编解码方法、装置、设备及存储介质,发明专利,2022,第1作者

[4] 图文音多模态预训练模型方法、装置、电子设备和介质,发明专利,2023,第4作者

[5] 有声视频生成方法、装置、电子设备及存储介质,发明专利,2023,第 2 作者

[6] 换脸方法、装置、电子设备和存储介质,专利授权,2021,第3作者

[7] 人脸防伪识别模型的训练方法、人脸防伪识别方法和装置,发明专利,2024,第3作者

出版信息

在TPAMI、TIP、TMM、CVPR、ICCV、NeurIPS、ACM MM等国际顶级期刊和会议发表论文40余篇,其中CCF-A类会议论文和中科院一区期刊论文30余篇,谷歌学术引用1200余次。完整论文列表请查阅Google ScholarDBLP


部分已发表论文:


  1. TTP: Test-Time Padding for Adversarial Detection and Robust Adaption on vision-Language Models, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026, 第3作者
  2. UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception, the Annual AAAI Conference on Artificial Intelligence (AAAI), 2026, 通讯作者
  3. CAS-AIR-3D: A Large-scale Low-quality Multi-modal Face Database, International Journal of Computer Vision (IJCV), 2026, 通讯作者
  4. Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2026, 第4作者
  5. W-EDIT: A Wavelet-Based Frequency-Aware Framework for Text-Driven Image Editing, International Conference on Learning Representations (ICLR), 2026, 通讯作者
  6. VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis, International Conference on Learning Representations (ICLR), 2026, 第3作者
  7. Ar-diffusion: Asynchronous video generation with auto-regressive diffusion, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025, 第 1 作者
  8. Learning Disentangled Representation for One-Shot Progressive Face Swapping, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024, 通讯作者
  9. MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation, ACM International Conference on Multimedia (ACM MM), 2024, 第 2 作者
  10. Learnable Feature Augmentation Framework for Temporal Action Localization, IEEE Transactions on Image Processing (TIP), 2024, 第 2 作者
  11. Reparameterizing and dynamically quantizing image features for image generation, Pattern Recognition (PR), 2024, 第 2 作者
  12. Temporal Action Proposal Generation With Action Frequency Adaptive Network, IEEE Transactions on Multimedia (TMM), 2024, 第 2 作者
  13. Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation, IEEE Transactions on Multimedia (TMM), 2024, 第 2 作者
  14. Unknown-Aware Diverse Prompt Learning for Open-Set Single Domain Generalization-based Face Anti-Spoofing, Chinese Confidence on Biometric Recognition (CCBR), 2024, 第 3 作者, Best Paper Reward
  15. Open-Set Single-Domain Generalization for Robust Face Anti-Spoofing, International Journal of Computer Vision (IJCV), 2024, 第3作者
  16. CASIA-E: a large comprehensive dataset for gait recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024, 第3作者
  17. VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024, 第6作者
  18. Semantic-based Conditional Generative Adversarial Hashing with Pairwise Labels, Pattern Recognition (PR), 2023, 通讯作者
  19. GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER, Advances in Neural Information Processing Systems (NeurIPS), 2023, 第 2 作者
  20. MOSO: Decomposing MOtion, Scene and Object for Video Prediction, IEEE/CVF conference on computer vision and pattern recognition (CVPR), 2023, 第 2 作者
  21. ED-T2V: An Efficient Training Framework for Diffusion-based Text-to-Video Generation, International Joint Conference on Neural Networks (IJCNN), 2023, 第 2 作者
  22. WL-MSR: Watch and Listen for Multimodal Subtitle Recognition, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023, 第3作者
  23. Semi-Supervised Temporal Action Proposal Generation via Exploiting 2-D Proposal Map., IEEE Transactions on Multimedia (TMM), 2022, 第 1 作者
  24. Anchor-free temporal action localization via Progressive Boundary-aware Boosting, Information Processing & Management (IPM), 2022, 第 2 作者
  25. Face sketch synthesis via semantic-driven generative adversarial network, IEEE International Joint Conference on Biometrics (IJCB), 2021, 通讯作者
  26. CAS-AIR-3D Face: A Low-Quality, Multi-Modal and Multi-Pose 3D Face Database, IEEE International Joint Conference on Biometrics (IJCB), 2021, 通讯作者
  27. Hair: Hierarchical visual-semantic relational reasoning for video question answering, IEEE/CVF International Conference on Computer Vision (ICCV), 2021, 第3作者
  28. Multi-caption text-to-face synthesis: Dataset and algorithm, ACM International Conference on Multimedia (ACM MM), 2021, 第3作者
  29. Temporal Memory Attention for Video Semantic Segmentation, IEEE International Conference on Image Processing (ICIP), 2021, 第 2 作者
  30. Long video question answering: A Matching-guided Attention Model, Pattern Recognition (PR), 2020, 第 1 作者
  31. Robust Object Tracking via Information Theoretic Measures, International Journal of Automation and Computing (IJAC), 2020, 第 1 作者
  32. Language-driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Model, IEEE/CVF conference on computer vision and pattern recognition (CVPR), 2019, 第 1 作者

指导学生

现指导学生:

2025- 王佩瑶,硕士研究生,模式识别与智能系统

2023- 孙家辉,博士研究生 (发表ICLR 1篇,CCF-A类会议在投1篇,期刊在投1篇)

2023- 吴诗雨,博士研究生 (发表ICML 1篇,ICLR 1篇,CCF-A类会议在投1篇)

2021- 唐业鹏,博士研究生 (发表IPM 1篇,TMM 1篇,TIP 1篇,ICLR1篇;获得ECCV细粒度视频行为检测竞赛冠军1项。)


毕业学生:

2020-2025,孙铭真,博士研究生,模式识别与智能系统(发表CVPR 2篇,NeurIPS 1篇,ACM MM 1篇,PR 1篇;获得中国国际“互联网+”大学生创新创业大赛全国总决赛金奖;获得中国科学院大学三好学生、国家奖学金、中国科学院优秀毕业生、北京市优秀毕业生。毕业去向:字节跳动)。

2021-2024,秦子涵,硕士研究生,模式识别与智能系统 (发表ISPP 1篇。毕业去向:中国建设银行)

2020-2023,刘佳伟,硕士研究生,模式识别与智能系统(发表IEEE TMM 1篇、ICASSP 1篇、IJCNN 1篇;获得中国科学院大学三好学生。毕业去向:字节跳动)。

2019-2022,王豪,硕士研究生,模式识别与智能系统(发表ICCV 1篇、ICIP 1篇,获得中国科学院大学三好学生。毕业去向:中山大学读博

2019-2022,吴文竹,硕士研究生,模式识别与智能系统(发表ICIG1篇。毕业去向:中国建设银行)