基本信息
朱欣鑫  男    中国科学院自动化研究所
电子邮件: xinxin.zhu@nlpr.ia.ac.cn
通信地址: 北京市海淀区中关村东路95号
邮政编码: 100190

研究领域

多模态理解与生成

招生信息


招生专业
081203-计算机应用技术
招生方向
多模态理解与生成

教育背景

2013-09--2019-06   北京邮电大学   博士

工作经历

   
工作简历
2022-04~现在, 中国科学院自动化研究所, 副研究员
2019-07~2022-03,中国科学院自动化研究所, 助理研究员
社会兼职
2019-07-05-今,CVPR、ICCV、ECCV、AAAI等国际会议审稿人,

专利与奖励

   
奖励信息
(1) 2022年度世界人工智能大会最高奖项SAIL奖, 其他, 2022
(2) ACM MM 2021视频理解竞赛冠军, , 其他, 2021
(3) CVPR 2020视频描述竞赛VATEX中英文赛道冠军, , 其他, 2020
(4) ICCV 2019视频描述竞赛VATEX中英文赛道分获亚季军, 其他, 2019
(5) AI Challenge 2017全球AI挑战赛中文图像语义描述比赛双周赛冠军, 其他, 2017
专利成果
( 1 ) 图文音多模态预训练模型方法、装置、电子设备和介质, 发明专利, 2023, 第 5 作者, 专利号: CN116628490A

( 2 ) 一种视频生成方法、装置、电子设备及存储介质, 2023, 第 2 作者, 专利号: CN114598926B

( 3 ) 基于多模态预训练模型的跨模态理解与生成方法和装置, 发明专利, 2021, 第 2 作者, 专利号: CN113591902A

出版信息

   
发表论文
(1) Reparameterizing and dynamically quantizing image features for image generation, PATTERN RECOGNITION, 2024, 第 3 作者
(2) VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset, NeurIPS, 2023, 第 6 作者
(3) Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation, IEEE Trans. on Multimedia, 2023, 第 4 作者
(4) MOSO: Decomposing MOtion, Scene and Object for Video Prediction, CVPR, 2023, 第 3 作者
(5) Global-Guided Selective Context Network for Scene Parsing, IEEE Trans. Neural Networks Learn. Syst, 2022, 第 4 作者
(6) AutoCaption: Image Captioning with Neural Architecture Search, 2021, 第 1 作者
(7) Global-Local Propagation Network for RGB-D Semantic Segmentation, 2021, 第 2 作者
(8) MM21Pre-training for Video Understanding Challenge: Video Captioning with Pretraining Techniques, ACMMM, 2021, 第 2 作者
(9) OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation, 2021, 第 2 作者
(10) CPTR: Full Transformer Network for Image Captioning, 2021, 第 4 作者
(11) Fast Sequence Generation with Multi-Agent Reinforcement Learning, 2021, 第 3 作者
(12) Consistent-Separable Feature Representation for Semantic Segmentation, AAAI, 2021, 第 4 作者
(13) Dynamic Warping Network for Semantic Video Segmentation, COMPLEXITY, 2021, 第 4 作者
(14) Non-Autoregressive Image Captioning with Counterfactuals-Critical Multi-Agent Learning, IJCAI, 2020, 第 3 作者
(15) Normalized and Geometry-Aware Self-Attention Network for Image Captioning, 2020 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020, 第 3 作者
(16) Vatex Video Captioning Challenge 2020: Multi-View Features and Hybrid Reward Strategies for Video Captioning, 2020, 第 1 作者
(17) POINT SET ATTENTION NETWORK FOR SEMANTIC SEGMENTATION, 2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2020, 第 4 作者
(18) Dual Hierarchical Temporal Convolutional Network with QA-Aware Dynamic Normalization for Video Story Question Answering, ACM MM, 2020, 第 3 作者
(19) Multi-View Features and Hybrid Reward Strategies for Vatex Video Captioning Challenge 2019, 2019, 第 1 作者
(20) Image captioning with triple-attention and stack parallel LSTM, NEUROCOMPUTING, 2018, 第 1 作者
(21) Image Captioning with Word Gate and Adaptive Self-Critical Learning, APPLIED SCIENCES-BASEL, 2018, 第 1 作者
(22) Captioning Transformer with Stacked Attention Modules, APPLIED SCIENCES-BASEL, 2018, 第 1 作者

科研活动

   
科研项目
( 1 ) 面向图像语义描述的网络结构搜索方法研究, 负责人, 国家任务, 2022-01--2024-12
( 2 ) 以自然语言为核心的语义理解研究, 参与, 国家任务, 2020-11--2023-10
( 3 ) 基于Mindspore 的千亿级图文音三模态大模型, 负责人, 境内委托项目, 2021-11--2022-11
( 4 ) 多模态预训练技术项目, 负责人, 境内委托项目, 2022-09--2024-12
( 5 ) 多模态模型移植和算法工具包研发, 参与, 国家任务, 2022-01--2024-12
( 6 ) 多模态通用预训练技术, 参与, 境内委托项目, 2021-06--2022-06
( 7 ) 视频语义理解, 参与, 境内委托项目, 2021-05--2022-05
( 8 ) 华为图像语义描述项目, 参与, 境内委托项目, 2018-09--2019-12