基本信息

王树徽  研究员  博士生导师  中国科学院计算技术研究所
电子邮件: wangshuhui@ict.ac.cn
通信地址: 北京市海淀区科学院南路6号
邮政编码: 100190


2006年于清华大学获得工学学士学位,2012年7月于中科院计算所获工学博士学位。从事跨媒体理解与知识推理、大数据理论与方法、机器学习等方面的研究,已在IEEE/ACM顶级汇刊TPAMI、TIP、TKDE、TMM,以及NeurIPS、ICCV、CVPR、ACMMM、SIGMOD、VLDB等多媒体,视觉、数据科学和人工智能领域的顶级期刊和会议上发表和录用学术论文50余篇,授权国家专利4项。多次担任顶级国际会议ACM Multimedia 领域主席,参与多个国际会议的会议组织工作,担任数十个高水平国际期刊和会议的审稿人。承担或参与科技创新2030-新一代人工智能重大项目、973课题、863课题等重大研究任务,获得国家自然科学基金委优青资助。与多个互联网企业保持良好的科研合作关系。

研究领域

视觉/多媒体分析-图像视频语义理解、跨媒体分析推理

机器学习-度量学习、关联学习、迁移学习

数据挖掘-社交媒体信息挖掘、跨内容检索、用户行为建模

招生信息

   
招生专业
081203-计算机应用技术
081202-计算机软件与理论
招生方向
图像视频理解,视觉概述,视觉语义检索
跨媒体知识表征,知识图谱构建与分析,跨媒体知识推理
深度学习,非参数统计学习,开放域及迁移学习等
说明

欢迎对图像视频理解,图文检索与内容转换生成,跨媒体分析推理,跨媒体知识工程等前沿研究有强烈兴趣和相关研究背景的同学报考博士及硕士研究生!


工作经历

2020-10      至   今,                中国科学院计算技术研究所,   研究员
2015年9月   至 2020年9月,  中国科学院计算技术研究所,副研究员
2014年10月 至 2015年9月,  中国科学院计算技术研究所,助理研究员
2012年8月   至 2014年10月,中国科学院计算技术研究所,博士后

专利与奖励

   
奖励信息
(1) 吴文俊人工智能自然科学奖, 一等奖, 部委级, 2020
(2) 2016全国多媒体大会(NCMT)最佳论文奖, 特等奖, 其他, 2016
(3) 中国计算机学会(CCF)科学技术奖, 其他, 2012
(4) 中科院院长奖(优秀奖), 院级, 2012
专利成果
( 1 ) 一种基于树结构的图像分类方法及其系统, 发明, 2017, 第 1 作者, 专利号: CN 103324954
( 2 ) 一种基于密集子图的视觉词典生成方法及其系统, 发明, 2017, 第 4 作者, 专利号: CN104239398A
( 3 ) 基于多模态信息融合与图聚类的跨媒体话题检测方法, 发明, 2017, 第 5 作者, 专利号: CN103995804
( 4 ) 基于深度判别排序学习的跨媒体训练及检索方法, 发明, 2020, 第 3 作者, 专利号: CN107657008B
( 5 ) 基于语义保持的跨模态内容检索方法和系统, 发明, 2018, 第 1 作者, 专利号: 201811156579.5
( 6 ) 一种自约束视频活动预测方法及系统, 发明, 2021, 第 1 作者, 专利号: 202110577016.9
( 7 ) 一种用于去除视觉问答系统语言偏差的贪心梯度集成方法, 发明, 2021, 第 1 作者, 专利号: 202110608491.8

出版信息

   
发表论文
(1) Augmented Adversarial Training for Cross-modal Retrieval, IEEE Transactions on Multimedia(TMM), 2021, 通讯作者
(2) Harmonized Multimodal Learning with Gaussian Process Latent Variable Models, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021, 通讯作者
(3) Self-Regulated Learning for Egocentric Video Activity Anticipation, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021, 通讯作者
(4) Greedy Gradient Ensemble for Robust Visual Question Answering, ICCV (CCF-A, Oral), 2021, 通讯作者
(5) Multimodal Entity Linking: A New Dataset and A Baseline., ACMMM(CCF-A, oral), 2021, 通讯作者
(6) Semi-autoregressive Image Captioning, ACMMM(CCF-A, oral), 2021, 通讯作者
(7) Label Decoupling Framework for Salient Object Detection, CVPR(CCF-A), 2020, 通讯作者
(8) Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Situations, CVPR(CCF-A, oral), 2020, 通讯作者
(9) Gradually Vanishing Bridge for Adversarial Domain Adaptation, CVPR(CCF-A), 2020, 通讯作者
(10) State-relabling adversarial active learning, CVPR(CCF-A, oral), 2020, 第 4 作者
(11) Online Fast Adaptive Low-rank Similarity Learning for Cross-Modal Retrieval, IEEE Transactions on Multimedia(TMM), 2020, 通讯作者
(12) Learning Feature Representation and Partial Correlation for Multimodal Multi-Labeled Data, IEEE Transactions on Multimedia(TMM), 2020, 通讯作者
(13) Textual-Visual Reference-aware Attention Network for Visual Dialog, IEEE Transactions on Image Processing(TIP, CCF-A), 2020, 第 3 作者
(14) F3Net: Fusion, Feedback and Focus for Salient Object Detection, AAAI(CCF-A, oral), 2020, 通讯作者
(15) Two-Stream Deep Sparse Network for Accurate and Efficient Image Restoration, Computer Vision and Image Understanding (CVIU), 2020, 第 1 作者
(16) A Structured Latent Variable Recurrent Network with Stochastic Attention for Generating Weibo Comments, IJCAI(CCF-A), 2020, 第 3 作者
(17) Parsing-based View-aware Embedding Network for Vehicle Re-Identification, CVPR(CCF-A), 2020, 第 8 作者
(18) Heuristic Domain Adaptation, NeurIPS(CCF-A), 2020, 通讯作者
(19) Towards More Explainability: Concept Knowledge Mining Network for Event Recognition, ACMMM(CCF-A), 2020, 通讯作者
(20) Modeling Temporal Concept Receptive Field Dynamically for Untrimmed Video Analysis, ACMMM(CCF-A), 2020, 通讯作者
(21) Sharp Multiple Instance Learning for DeepFake Video Detection, ACMMM(CCF-A), 2020, 第 6 作者
(22) Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision, ECCV, 2020, 通讯作者
(23) Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding, ICCV(CCF-A), 2019, 第 3 作者
(24) Learning Fragment Self-Attention Embeddings for Image-Text Matching, ACMMM(CCF-A, oral), 2019, 通讯作者
(25) Knowledge-guided Pairwise Reconstruction Network for Weakly Supervised Referring Expression Grounding, ACMMM(CCF-A, oral), 2019, 第 3 作者
(26) Structured Stochastic Recurrent Network for Linguistic Video Prediction, ACMMM(CCF-A, oral), 2019, 第 3 作者
(27) Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization, CVPR(CCF-A), 2019, 通讯作者
(28) Regularized Topic-aware Latent Influence Propagation in Dynamic Relational Networks, Geoinformatica, 2019, 第 1 作者
(29) Online Asymmetric Metric Learning with Multi-Layer Similarity Aggregation for Cross-Modal Retrieval, IEEE TIP (CCF-A), 2019, 通讯作者
(30) SkeletonNet: A Hybrid Network with a Skeleton-Embedding Process for Multi-view Image Representation Learning, IEEE TMM, 2019, 第 3 作者
(31) Beyond global fusion: A group-aware fusion approach for multi-view image clustering, Information Science, 2019, 第 3 作者
(32) Multi-modal semantic autoencoder for cross-modal retrieval, Neurocomputing, 2019, 通讯作者
(33) Multi-label double-layer learning for cross-modal retrieval, Neurocomputing, 2018, 第 3 作者
(34) Heterogeneous anomaly detection in social diffusion with discriminative feature discovery, Information Science, 2018, 第 3 作者
(35) Bilevel Multiview Latent Space Learning, IEEE Transactions on Circuits System and Video Technology, 2018, 第 3 作者
(36) Less is More: Picking Informative Frames for Video Captioning, ECCV, 2018, 第 2 作者
(37) Learning Semantic Structure-preserved Embeddings for Cross-modal Retrieval, ACM Multimedia (CCF-A), 2018, 第 2 作者
(38) Attentive Recurrent Neural Network for Weak-supervised Multi-label Image Classification, ACM Multimedia (CCF-A), 2018, 第 2 作者
(39) Joint Global and Co-Attentive Representation Learning for Image-Sentence Retrieval, ACM Multimedia (CCF-A), 2018, 第 1 作者
(40) Semantic invariant cross-domain image generation with generative adversarial networks, Neurocomputing, 2018, 第 2 作者
(41) JEREMIE: Joint Semantic Feature Learning via Multi-relational Matrix Completion, MATES@VLDB, 2017, 通讯作者
(42) Efficient Cross-Modal Retrieval Using Social Tag Information Towards Mobile Applications, MATES@VLDB, 2017, 通讯作者
(43) Multimodal Gaussian Process Latent Variable Models with Harmonization, IEEE International Conference on Computer Vision (ICCV, CCF-A), 2017, 第 2 作者
(44) Online Asymmetric Similarity Learning for Cross-modal Retrieval, IEEE CVPR (CCF-A), 2017, 第 2 作者
(45) Online Low rank similarity function learning with adaptive relative margin for cross-modal retrieval, IEEE ICME (CCF-B), oral, 2017, 第 2 作者
(46) A Graph Regularized Deep Neural Network for Deep Unsupervised Image Representation Learning, IEEE CVPR (CCF-A), 2017, 第 3 作者
(47) Location-Based Parallel Tag Completion for Geo-tagged Social Image Retrieval, ACM Transctions on Intelligent Systems and Technology (TIST), 2017, 通讯作者
(48) Trajectory Community Discovery and Recommendation by Multi-source Diffusion Modeling, IEEE TKDE(CCF-A), 2017, 通讯作者
(49) Multi-label classification by exploiting local positive and negative pairwise label correlation, Neurocomputing, 2017, 第 3 作者
(50) Bi-Level Multi-View Latent Space Learning, IEEE TCSVT (CCF-B), 2017, 第 3 作者
(51) Multimodal Similarity Gaussian Process Latent Variable Model, IEEE Transactions on Image Processing (TIP, CCF-A), 2017, 通讯作者
(52) Deep Unsupervised Convolutional Domain Adaptation, ACM Multimedia (CCF-A), 2017, 第 2 作者
(53) A Delicious Recipe Analysis Framework for Exploring Multi-Modal Recipes with Various Attributes, ACM Multimedia (CCF-A), 2017, 第 3 作者
(54) Cross-modal Correlation Learning by Adaptive Hierarchical Semantic Aggregation, IEEE Transactions on Multimedia (TMM, CCF-B), 2016, 通讯作者
(55) Effective multi-modality fusion framework for cross-media topic detection, IEEE Transactions on Circuit System and Video Technologies(TCSVT, CCF-B), 2016, 第 4 作者
(56) Cross-modal Retrieval by Real Label Partial Least Squares, ACM Multimedia 2016, 2016, 第 3 作者
(57) Group Sensitive Classifier Chains for Multi-Label Classification, IEEE International Conference on Multimedia and Expo (ICME, CCF-B), 2015, 第 3 作者
(58) GOMES: A Group-Aware Multi-View Fusion Approach towards Real-World Image Clustering, IEEE Internaltion Conference on Multimedia and Expo (ICME, CCF-B), 2015, 第 3 作者
(59) Rationality Analytics from Trajectories, ACM Transactions on Knowledge Discovery from Data (TKDD), 2015, 第 3 作者
(60) Multi-Level Discriminative Dictionary Learning with Application to Large Scale Image Classification, IEEE Transactions on Image Processing (TIP, CCF-A), 2015, 第 4 作者
(61) Similarity Gaussian Process Latent Variable Model for Multi-Modal Data Analysis, IEEE International Conference on Computer Vision (ICCV, CCF-A), 2015, 第 2 作者
(62) ALID: Scalable dominant cluster Detection, International Conference on Very Large Data Bases (VLDB), 2015, 第 2 作者
(63) Structured Learning from Heterogeneous Behavior for Social Identity Linkage, IEEE Transactions on Knowledge Discovery and Engineering (TKDE), 2015, 通讯作者
(64) Cluster-Sensitive Structured Correlation Analysis for Web Cross Modality Retrieval, Neurocomputing, 2015, 第 1 作者
(65) Improving Cross-Modal Correlation Learning by Hyperlinks, IEEE International Conference on Multimedia and Expo (ICME), 2015, 第 1 作者
(66) Location-Based Parallel Tag Completion for Geo-tagged Social Photo Retrieval, International Conference on Multimedia Retrieval (ICMR), 2015, 第 2 作者
(67) Cross media Topic Analytics Based on Synergetic Content and User Behavior Modeling, IEEE International Conference on Multimedia and Expo (ICME), 2014, 第 1 作者
(68) TINA: Cross-modal Correlation Learning by Adaptive Hierarchical Semantic Aggregation, IEEE International Conference on Data Mining, 2014, 第 2 作者
(69) HYDRA: Large-scale Social Identity Linkage via Heterogeneous Behavior Modeling, The 41st ACM SIGMOD International Conference on Management of Data, 2014, 第 2 作者
(70) Graph-Density-Based Visual Word Vocabulary for Image Retrieval, IEEE Internation Conference on Multimedia and Expo (ICME), 2014, 第 2 作者
(71) Robust Spatial Consistency Graph Model for Partial Duplicate Image Retrieval, IEEE Transactions on Multimedia (TMM), 2013, 第 3 作者
(72) Accurate and efficient cross-domain visual matching leveraging multiple feature representations, The Visual Computer (TVC), 2013, 第 2 作者
(73) Image Classification Using Spatial Pyramid Robust Sparse Coding, Pattern Recognition Letters (PRL), 2013, 第 2 作者
(74) TODMIS: Mining Communities from Trajectories, ACM International Conference on Information and Knowledge Management (CIKM), 2013, 第 2 作者
(75) Multi-Level Discriminative Dictionary Learning towards Hierarchical Visual Categorization, IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2013, 第 2 作者
(76) Laplacian Affine Sparse Coding with tilt and orientation consistency for Image Classification, Journal of Visual Communication and Image Representation, 2013, 第 2 作者
(77) Undo the Codebook Bias by Linear Transformation for Visual Applications, ACM Multimedia, 2013, 第 3 作者
(78) Beyond Bag of Words: Image Representation in Sub-semantic Space, ACM Multimedia, 2013, 第 2 作者
(79) Shared Structure Learning for Multiple Tasks with Multiple Views, ECMLPKDD, 2013, 第 3 作者
(80) WIKI-CMR: A Web Cross Modality database for Studying and Evaluation of Cross Modality Retrival Methods, IEEE International Conference on Multimedia and Expo (ICME), 2013, 第 2 作者
(81) Cross Concept Local Fisher Discriminant Analysis for Image Classification, Multimedia Modelling (MMM), 2013, 第 3 作者
(82) Cross-Media Topic Detection: A Multi-Modality Fusion Framework, IEEE International Conference on Multimedia and Expo (ICME), 2013, 第 4 作者

学术活动

1)Area Chair of ACMMM 2019-2021 and IJCAI 2021.

2)Program Cochair of MATES Workshop collocated with VLDB 2017.

3) Program Cochair of MASS Workshop collocated with APWEB-WAIM 2017.

4) Publication Chair, PCM 2017.

5) Session Chair, ICME 2015.

6) Publication Chair, ICIMCS 2015.

科研项目
( 1 ) 基于多源信息融合和网络社群行为建模的跨媒体分析技术研究, 主持, 国家级, 2014-01--2016-12
( 2 ) 异构媒体数据的关联与挖掘研究, 参与, 国家级, 2014-01--2016-12
( 3 ) 面向公共安全的跨媒体计算理论与方法, 参与, 国家级, 2012-01--2016-08
( 4 ) 图像视频的群体数据协同结构化表达与处理, 参与, 国家级, 2014-01--2018-12
( 5 ) 异构大数据的对象建模及跨域分析技术研究, 主持, 国家级, 2017-01--2020-12
( 6 ) 基于视觉特性的视频编码理论与方法研究, 参与, 国家级, 2015-01--2019-12
( 7 ) 面向跨媒体内容管理的智能分析与推理:跨媒体分析推理引擎, 主持, 国家级, 2019-12--2023-12
( 8 ) 跨媒体理解与知识推理, 主持, 国家级, 2021-01--2023-12
( 9 ) 面向数据稀缺场景的图像编辑与生成方法研究, 主持, 院级, 2021-04--2022-09

指导学生

已指导学生

辛永健  硕士研究生  085211-计算机技术  

于晟昊  硕士研究生  085211-计算机技术  

魏军  硕士研究生  081203-计算机应用技术  

崔书豪  硕士研究生  081203-计算机应用技术  

薛壮壮  硕士研究生  085211-计算机技术  

韩华侨  硕士研究生  085211-计算机技术  

邓文达  硕士研究生  085211-计算机技术  

现指导学生

闫旭  硕士研究生  081203-计算机应用技术  

魏浩  硕士研究生  085400-电子信息  

孙隽姝  硕士研究生  081203-计算机应用技术  

蔡硕  硕士研究生  085400-电子信息  

朱妍  硕士研究生  085400-电子信息  

黄克楠  硕士研究生  085400-电子信息  

李梦莲  硕士研究生  085400-电子信息  

何晓铭  硕士研究生  085400-电子信息  

已毕业博士生

卓君宝(协助指导,2014~2020,获得计算所所长优秀奖)

吴益灵(协助指导,2013~2019,获得国家奖学金,中科院院长优秀奖)

宋国利(协助指导,2012~2018)

申丽(协助指导,2012~2014,中科院优博)

褚令洋(协助指导,2012~2015,获得国家奖学金,计算所所长奖)


已毕业硕士生

胡玲(协助指导,2019年毕业)

陈扬羽(协助指导,2018年毕业)

张家明(协助指导,2018年毕业)

张川(协助指导,2016年毕业)

王祯骏(协助指导,2015年毕业)

熊威(协助指导,2014年毕业) 


在读研究生

戚兆波(博士生(协助指导),2016级)

韩歆哲(博士生(协助指导),2017级)

方晟(直博生(协助指导),2018级)

毕超(博士生(协助指导),2018级)

甘婧儒(直博生(协助指导),2019级)

丁冠祺(博士生(协助指导),2019级