王树徽-中国科学院大学-UCAS

基本信息

王树徽研究员博士生导师中国科学院计算技术研究所
电子邮件： wangshuhui@ict.ac.cn
通信地址：北京市海淀区科学院南路6号
邮政编码： 100190

2006年于清华大学获得工学学士学位，2012年7月于中科院计算所获工学博士学位。从事跨媒体理解与知识推理、大数据理论与方法、机器学习等方面的研究，已在IEEE/ACM顶级汇刊TPAMI、TIP、TKDE、TMM，以及NeurIPS、ICML、ICCV、CVPR、ACMMM、SIGMOD、VLDB等多媒体，视觉、数据科学和人工智能领域的顶级期刊和会议上发表和录用学术论文90余篇，授权国家专利10项。多次担任顶级国际会议ACM Multimedia 领域主席，参与多个国际会议的会议组织工作，担任数十个高水平国际期刊和会议的审稿人。承担或参与科技创新2030-新一代人工智能重大项目、973课题、863课题、国自然基金重点课题等重大研究任务，获得国家自然科学基金委优青资助。与多个互联网企业保持良好的科研合作关系。

研究领域及招生方向

1. 物理驱动的新一代通用神经计算架构

2. 可信跨媒体计算（理解、推理与生成）、多模态基础模型

3. 通用人工智能在科学和工业中的应用研究

招生信息

招生专业

081203-计算机应用技术
081202-计算机软件与理论

说明

欢迎对物理驱动的新一代神经计算架构，可信跨媒体理解推理与可控生成，AI4Science，AI4Industry等前沿研究有强烈兴趣和相关研究背景的同学报考博士及硕士研究生！

教育背景

2006-09--2012-07 中国科学院大学博士
2002-09--2006-07 清华大学学士

学位

工学博士学位

工作经历

2020-10 至今, 中国科学院计算技术研究所, 研究员
2015年9月至 2020年9月，中国科学院计算技术研究所，副研究员
2014年10月至 2015年9月，中国科学院计算技术研究所，助理研究员
2012年8月至 2014年10月，中国科学院计算技术研究所，博士后

专利与奖励

奖励信息

（1）吴文俊人工智能自然科学奖, 一等奖, 部委级, 2020
（2）北京市科技进步奖, 二等奖, 省级, 2020
（3） 2016全国多媒体大会(NCMT)最佳论文奖, 特等奖, 其他, 2016
（4）中国计算机学会(CCF)科学技术奖, 其他, 2012
（5）中科院院长奖(优秀奖), 院级, 2012

专利成果

[1] 王树徽, 闫旭, 黄庆明. 一种用于生成视频描述文本的系统和方法. CN: CN113784199A, 2021-12-10.

[2] 王树徽, 戚兆波, 黄庆明. 一种自约束视频活动预测方法及系统. CN: CN113327268A, 2021-08-31.

[3] 王树徽, 宋国利, 黄庆明. 一种基于语义条件关联学习的跨模态检索方法及系统. CN: CN112100410A, 2020-12-18.

[4] 李亮, 杨士杰, 王树徽, 黄庆明. 一种候选回答语句生成和自然语言选择方法及系统. CN: CN110727768A, 2020-01-24.

[5] 王树徽, 陈扬羽, 黄庆明, 张维刚. 基于帧选择的视频内容描述方法和系统. CN: CN109409221A, 2019-03-01.

[6] 王树徽, 吴益灵, 黄庆明. 基于语义保持的跨模态内容检索方法和系统. CN: CN109284414A, 2019-01-29.

[7] 黄庆明, 张亮, 王树徽. 基于深度判别排序学习的跨媒体训练及检索方法. CN: CN107657008A, 2018-02-02.

[8] 黄庆明, 褚令洋, 张艳雁, 王树徽, 蒋树强. 一种基于密集子图的视觉词典生成方法及其系统. CN: CN104239398A, 2014-12-24.

[9] 黄庆明, 张艳雁, 褚令洋, 李国荣, 王树徽, 张维刚. 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置. CN: CN103995804A, 2014-08-20.

[10] 王树徽, 申丽, 黄庆明, 蒋树强. 一种基于树结构的图像分类方法及其系统. CN: CN103324954A, 2013-09-25.

出版信息

发表论文

（1） ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing, CVPR 2023, 2023, 通讯作者
（2） Weakly Supervised Text-based Actor-Action Video Segmentation by Clip-level Multi-instance Learning, ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS, 2023, 第 4 作者
（3） General Greedy De-bias Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 通讯作者
（4） All in a Row: Compressed Convolution Networks for Graph, International Conference on Machine Learning, 2023, 通讯作者
（5） Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection, CVPR 2023, 2023, 第 4 作者
（6） Dynamics-inspired Neuromorphic Visual Representation Learning, International Conference on Machine Learning, 2023, 通讯作者
（7） Attribute Group Editing for Reliable Few-shot Image Generation, IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, 通讯作者
（8） Concept Propagation via Attentional Knowledge Graph Reasoning for Video-Text Retrieval, ACM International Conference on Multimedia, 2022, 通讯作者
（9） Hierarchical Modular Network for Video Captioning, IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, 第 4 作者
（10） Multi-Attention Network for Compressed Referring Video Object Segmentation, ACM International Conference on Multimedia, 2022, 第 5 作者
（11） Syntax-Guided Hierarchical Attention Network for Video Captioning, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2022, 第 4 作者
（12） Multi-Attention Network for Compressed Video Referring Object Segmentation, Proceedings of the 30th ACM International Conference on Multimedia, 2022, 第 5 作者
（13） Syntax-Guided Hierarchical Attention Network for Video Captioning, IEEE Transactions on Circuit System and Video Technology, 2022, 第 4 作者
（14） Zero-shot Video Classification with Appropriate Web and Task Knowledge Transfer, ACM International Conference on Multimedia, 2022, 通讯作者
（15） Mining Latent Structures for Multimedia Recommendation, THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA(MM), 2021, 第 5 作者
（16） Graph Regularized Encoder-Decoder Networks for Image Representation Learning, IEEE TRANSACTIONS ON MULTIMEDIA, 2021, 第 3 作者
（17） Greedy Gradient Ensemble for Robust Visual Question Answering, ICCV, 2021, 通讯作者
（18）跨媒体分析与推理技术研究综述, Overview of Research on Cross-media Analysis and Reasoning Technology, 计算机科学, 2021, 第 1 作者
（19） Composite Adversarial Attacks, AAAI, 2021, 第 3 作者
（20） Semi-Autoregressive Image Captioning, ACM Multimedia, 2021, 通讯作者
（21） Local-binarized very deep residual network for visual categorization, NEUROCOMPUTING, 2021, 第 3 作者
（22） Self-Regulated Learning for Egocentric Video Activity Anticipation, 2021, 第 2 作者
（23） QAIR: Practical Query-efficient Black-Box Attacks for Image Retrieval, CVPR, 2021, 第 6 作者
（24） Self-Regulated Learning for Egocentric Video Activity Anticipation, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 通讯作者
（25） Cascade Cross-modal Attention Network for Video Actor and Action Segmentation from a Sentence, ACM Multimedia, 2021, 第 5 作者
（26） Learning Feature Representation and Partial Correlation for Multimodal Multi-Label Data, IEEE TRANSACTIONS ON MULTIMEDIA, 2021, 通讯作者
（27） Pano-SfMLearner: Self-Supervised Multi-Task Learning of Depth and Semantics in Panoramic Videos, IEEE SIGNAL PROCESSING LETTERS, 2021, 第 2 作者
（28） Augmented Adversarial Training for Cross-Modal Retrieval, IEEE TRANSACTIONS ON MULTIMEDIA, 2021, 通讯作者
（29） Harmonized Multimodal Learning with Gaussian Process Latent Variable Models, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2021, 通讯作者
（30） Multimodal Entity Linking: A New Dataset and A Baseline., ACMMM(CCF-A, oral), 2021, 通讯作者
（31） Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision, ECCV, 2020, 通讯作者
（32） Gradually Vanishing Bridge for Adversarial Domain Adaptation, 2020, 第 2 作者
（33） Modeling Temporal Concept Receptive Field Dynamically for Untrimmed Video Analysis, ACMMM, 2020, 通讯作者
（34） State-relabling adversarial active learning, CVPR(CCF-A, oral), 2020, 第 4 作者
（35） Two-stream deep sparse network for accurate and efficient image restoration, COMPUTER VISION AND IMAGE UNDERSTANDING, 2020, 第 1 作者
（36） Towards discriminability and diversity: batch nuclear-norm maximization on output under label insufficient situations, IEEE CVPR, 2020, 通讯作者
（37） Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Situations, 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2020, 通讯作者
（38） Learning Feature Representation and Partial Correlation for Multimodal Multi-Labeled Data, IEEE Transactions on Multimedia(TMM), 2020, 通讯作者
（39） Online Fast Adaptive Low-Rank Similarity Learning for Cross-Modal Retrieval, IEEE TRANSACTIONS ON MULTIMEDIA, 2020, 通讯作者
（40） A structured latent variable recurrent network with stochastic attention for generating Weibo comments, IJCAI, 2020,
（41） Parsing-based View-aware Embedding Network for Vehicle Re-Identification, 2020, 第 8 作者
（42）最小熵迁移对抗散列方法, Min-Entropy Transfer Adversarial Hashing, 计算机研究与发展, 2020, 第 3 作者
（43） Heuristic Domain Adaptation, 2020, 第 3 作者
（44） Label Decoupling Framework for Salient Object Detection, 2020 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020, 通讯作者
（45） Towards More Explainability: Concept Knowledge Mining Network for Event Recognition, ACMMM(CCF-A), 2020,
（46） Sharp Multiple Instance Learning for DeepFake Video Detection, 2020, 第 6 作者
（47） Textual-Visual Reference-Aware Attention Network for Visual Dialog, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2020, 第 3 作者
（48） Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization, 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2019), 2019, 通讯作者
（49） A Hierarchical CNN-RNN Approach for Visual Emotion Classification, ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS, 2019, 通讯作者
（50） SkeletonNet: A Hybrid Network With a Skeleton-Embedding Process for Multi-View Image Representation Learning, IEEE TRANSACTIONS ON MULTIMEDIA, 2019, 第 3 作者
（51） F3Net: Fusion, Feedback and Focus for Salient Object Detection, 2019, 第 2 作者
（52） Multi-modal semantic autoencoder for cross-modal retrieval, NEUROCOMPUTING, 2019, 通讯作者
（53） Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding, 2019, 第 3 作者
（54） Online Asymmetric Metric Learning With Multi-Layer Similarity Aggregation for Cross-Modal Retrieval, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2019, 通讯作者
（55） Beyond Global Fusion: A Group-Aware Fusion Approach for Multi-View Image Clustering, INFORMATION SCIENCES, 2019, 第 3 作者
（56） Knowledge-guided Pairwise Reconstruction Network for Weakly Supervised Referring Expression Grounding, 2019, 第 3 作者
（57） Reverse Densely Connected Feature Pyramid Network for Object Detection, COMPUTER VISION - ACCV 2018, PT V, 2019, 通讯作者
（58） Knowledge-guided Pairwise Reconstruction Network for Weakly Supervised Referring Expression Grounding, PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA (MM'19), 2019, 第 3 作者
（59） Structured Stochastic Recurrent Network for Linguistic Video Prediction, PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA (MM'19), 2019, 第 3 作者
（60） Learning Fragment Self-Attention Embeddings for Image-Text Matching, PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA (MM'19), 2019, 通讯作者
（61） Regularized topic-aware latent influence propagation in dynamic relational networks, GEOINFORMATICA, 2019, 第 1 作者
（62） Joint Global and Co-Attentive Representation Learning for Image-Sentence Retrieval, PROCEEDINGS OF THE 2018 ACM MULTIMEDIA CONFERENCE (MM'18), 2018, 第 1 作者
（63） How Functions Evolve in Deep Convolutional Neural Network, PROCEEDINGS OF 2018 14TH IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 2018, 第 2 作者
（64） Multi-label double-layer learning for cross-modal retrieval, NEUROCOMPUTING, 2018, 第 3 作者
（65） Less Is More: Picking Informative Frames for Video Captioning, COMPUTER VISION - ECCV 2018, PT XIII, 2018, 通讯作者
（66） Attentive Recurrent Neural Network for Weak-supervised Multi-label Image Classification, PROCEEDINGS OF THE 2018 ACM MULTIMEDIA CONFERENCE (MM'18), 2018, 通讯作者
（67） Learning Semantic Structure-preserved Embeddings for Cross-modal Retrieval, PROCEEDINGS OF THE 2018 ACM MULTIMEDIA CONFERENCE (MM'18), 2018, 通讯作者
（68） Saliency-Based Spatiotemporal Attention for Video Captioning, 2018 IEEE FOURTH INTERNATIONAL CONFERENCE ON MULTIMEDIA BIG DATA (BIGMM), 2018, 第 3 作者
（69） S2L: SINGLE-STREAMLINE FOR COMPLEX VIDEO EVENT DETECTION, 2018 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO WORKSHOPS (ICMEW 2018), 2018, 第 3 作者
（70） Bilevel Multiview Latent Space Learning, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2018, 第 3 作者
（71） Heterogeneous anomaly detection in social diffusion with discriminative feature discovery., INFORMATION SCIENCES, 2018, 第 3 作者
（72） Semantic invariant cross-domain image generation with generative adversarial networks, NEUROCOMPUTING, 2018, 第 2 作者
（73） Efficient Cross-modal Retrieval Using Social Tag Information Towards Mobile Applications, 2017, 第 5 作者
（74） Deep Unsupervised Convolutional Domain Adaptation, PROCEEDINGS OF THE 2017 ACM MULTIMEDIA CONFERENCE (MM'17), 2017, 通讯作者
（75） Multi-view Subspace Learning with Diversity Enforced Skeleton Embedding, 2017 IEEE THIRD INTERNATIONAL CONFERENCE ON MULTIMEDIA BIG DATA (BIGMM 2017), 2017, 第 3 作者
（76） Multimodal Similarity Gaussian Process Latent Variable Model, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2017, 通讯作者
（77） A survey on context-aware mobile visual recognition, MULTIMEDIA SYSTEMS, 2017, 第 3 作者
（78） Multimodal Gaussian Process Latent Variable Models with Harmonization, 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 2017, 第 2 作者
（79） ONLINE LOW-RANK SIMILARITY FUNCTION LEARNING WITH ADAPTIVE RELATIVE MARGIN FOR CROSS-MODAL RETRIEVAL, 2017 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2017, 第 2 作者
（80） Online Asymmetric Similarity Learning for Cross-Modal Retrieval, 30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017), 2017, 第 2 作者
（81） A Graph Regularized Deep Neural Network for Unsupervised Image Representation Learning, 30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017), 2017, 第 3 作者
（82） Bi-Level Multi-View Latent Space Learning, IEEETCSVTCCFB, 2017,
（83） Trajectory Community Discovery and Recommendation by Multi-Source Diffusion Modeling, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2017, 第 2 作者
（84） Multi-label classification by exploiting local positive and negative pairwise label correlation, NEUROCOMPUTING, 2017, 第 3 作者
（85） Location-Based Parallel Tag Completion for Geo-Tagged Social Image Retrieval, ACM TRANSACTIONS ON INTELLIGENT SYSTEMS AND TECHNOLOGY, 2017, 第 2 作者
（86） JEREMIE: Joint Semantic Feature Learning via Multi-relational Matrix Completion, 2017,
（87） A Delicious Recipe Analysis Framework for Exploring Multi-Modal Recipes with Various Attributes, PROCEEDINGS OF THE 2017 ACM MULTIMEDIA CONFERENCE (MM'17), 2017, 第 3 作者
（88） Cross-Modal Correlation Learning by Adaptive Hierarchical Semantic Aggregation, IEEE TRANSACTIONS ON MULTIMEDIA, 2016, 通讯作者
（89） Cross-modal correlation learning by adaptive hierarchical semantic aggregation (vol 18, pg 1201, 2016), IEEE TRANSACTIONS ON MULTIMEDIA, 2016, 通讯作者
（90）面向智能交互的图像识别技术综述与展望, Survey and Prospect of Intelligent Interaction-Oriented Image Recognition Techniques, 计算机研究与发展, 2016, 第 3 作者
（91）基于社交内容的潜在影响力传播模型, Social Content Based Latent Influence Propagation Model, 计算机学报, 2016, 第 2 作者
（92） Effective Multimodality Fusion Framework for Cross-Media Topic Detection, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2016, 第 4 作者
（93） Cross-modal Retrieval by Real Label Partial Least Squares, MM'16: PROCEEDINGS OF THE 2016 ACM MULTIMEDIA CONFERENCE, 2016, 第 3 作者
（94） Polysemious visual representation based on feature aggregation for large scale image applications, MULTIMEDIA TOOLS AND APPLICATIONS, 2015, 第 3 作者
（95） Location-Based Parallel Tag Completion for Geo-tagged Social Photo Retrieval, International Conference on Multimedia Retrieval (ICMR), 2015, 第 1 作者
（96） Cluster-Sensitive Structured Correlation Analysis for Web Cross Modality Retrieval, Neurocomputing, 2015, 第 1 作者
（97） GOMES: A GROUP-AWARE MULTI-VIEW FUSION APPROACH TOWARDS REAL-WORLD IMAGE CLUSTERING, 2015 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 2015, 第 3 作者
（98） Multi-level discriminative dictionary learning with application to large scale image classification, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2015, 第 4 作者
（99） Structured Learning from Heterogeneous Behavior for Social Identity Linkage, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2015, 第 2 作者
（100） ALID: Scalable Dominant Cluster Detection, PROCEEDINGS OF THE VLDB ENDOWMENT, 2015, 第 2 作者
（101） IMPROVING CROSS-MODAL CORRELATION LEARNING WITH HYPERLINKS, 2015 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 2015, 通讯作者
（102） Understanding taxi drivers' routing choices from spatial and social traces, FRONTIERS OF COMPUTER SCIENCE, 2015, 通讯作者
（103） Location-Based Parallel Tag Completion for Geo-tagged Social Image Retrieval, ICMR'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL, 2015, 第 2 作者
（104） Rationality Analytics from Trajectories, ACM TRANSACTIONS ON KNOWLEDGE DISCOVERY FROM DATA, 2015, 第 3 作者
（105）异质媒体分析技术研究进展, Research on Heterogeneous Media Analytics: A Brief Introduction, 集成技术, 2015, 第 1 作者
（106） Cluster-sensitive Structured Correlation Analysis for Web cross-modal retrieval, NEUROCOMPUTING, 2015, 通讯作者
（107） GROUP SENSITIVE CLASSIFIER CHAINS FOR MULTI-LABEL CLASSIFICATION, IEEE International Conference on Multimedia and Expo, 2015,
（108） Similarity Gaussian Process Latent Variable Model for Multi-Modal Data Analysis, 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 2015, 第 2 作者
（109） HYDRA: Large-scale Social Identity Linkage via Heterogeneous Behavior Modeling, SIGMOD'14: PROCEEDINGS OF THE 2014 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 2014, 第 2 作者
（110） Categorizing Social Multimedia by Neighborhood Decision using Local Pairwise Label Correlation, 2014 IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOP (ICDMW), 2014, 第 3 作者
（111） CROSS MEDIA TOPIC ANALYTICS BASED ON SYNERGETIC CONTENT AND USER BEHAVIOR MODELING, 2014 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2014, 通讯作者
（112） TINA: Cross-modal Correlation Learning by Adaptive Hierarchical Semantic Aggregation, 2014 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM), 2014, 第 2 作者
（113） GRAPH-DENSITY-BASED VISUAL WORD VOCABULARY FOR IMAGE RETRIEVAL, 2014 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2014, 第 2 作者
（114） WIKI-CMR: A Web Cross Modality database for Studying and Evaluation of Cross Modality Retrival Methods, IEEE International Conference on Multimedia and Expo (ICME), 2013, 第 1 作者
（115） Xin Jin, Fuzhen Zhuang, Shuhui Wang, Qing He, and Zhongzhi Shi. Shared Structure Learning for Multiple Tasks with Multiple Views, ECML/PKDD13, September 23-27, 2013, Prague, Czech, ECML/PKDD13, 2013,
（116） Image classification using spatial pyramid robust sparse coding, PATTERN RECOGNITION LETTERS, 2013, 第 2 作者
（117） Undo the codebook bias by linear transformation for visual applications, ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, 2013,
（118） CROSS-MEDIA TOPIC DETECTION: A MULTI-MODALITY FUSION FRAMEWORK, 2013 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME 2013), 2013, 第 4 作者
（119） Accurate and efficient cross-domain visual matching leveraging multiple feature representations, VISUAL COMPUTER, 2013, 第 2 作者
（120） Robust Spatial Consistency Graph Model for Partial Duplicate Image Retrieval, IEEE TRANSACTIONS ON MULTIMEDIA, 2013, 第 3 作者
（121） Laplacian affine sparse coding with tilt and orientation consistency for image classification, JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION, 2013, 第 2 作者
（122） Cross Concept Local Fisher Discriminant Analysis for Image Classification, Multimedia Modelling (MMM), 2013, 第 1 作者
（123） TODMIS: Mining Communities from Trajectories, ACM International Conference on Information and Knowledge Management (CIKM), 2013, 第 1 作者
（124） Multi-Level Discriminative Dictionary Learning towards Hierarchical Visual Categorization, 2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2013, 第 2 作者
（125） Beyond bag of words: Image representation in sub-semantic space, ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, 2013,
（126） Accurate and efficient cross-domain visual matching leveraging multiple feature representations, 2013, 第 2 作者
（127） Nearest-neighbor method using multiple neighborhood similarities for social media data mining, NEUROCOMPUTING, 2012, 通讯作者
（128） (SMKL)-M-3: Scalable Semi-Supervised Multiple Kernel Learning for Real-World Image Applications, IEEE TRANSACTIONS ON MULTIMEDIA, 2012, 通讯作者
（129） Multi-feature Metric Learning with Knowledge Transfer among Semantics and Social Tagging, 2012 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2012, 通讯作者
（130） Nearest-neighbor method using multiple neighborhood similarities for social media data mining, NEUROCOMPUTING, 2012, 通讯作者
（131） SHOT CLASSIFICATION FOR ACTION MOVIES BASED ON MOTION CHARACTERISTICS, 200815THIEEEINTERNATIONALCONFERENCEONIMAGEPROCESSINGVOLS15, 2008, 通讯作者

学术活动

1）Area Chair of ACMMM 2019-2023.

2）Guest Editor of ACM ToMM

3) Senior TPC of IJCAI 2021 and AAAI 2021.

4）Program Cochair of MATES Workshop collocated with VLDB 2017.

5) Program Cochair of MASS Workshop collocated with APWEB-WAIM 2017.

6) Publication Chair, PCM 2017.

7) Session Chair, ICME 2015.

8) Publication Chair, ICIMCS 2015.

科研项目

（ 1 ）基于多源信息融合和网络社群行为建模的跨媒体分析技术研究, 负责人, 国家任务, 2014-01--2016-12
（ 2 ）异构媒体数据的关联与挖掘研究, 参与, 国家任务, 2014-01--2016-12
（ 3 ）面向公共安全的跨媒体计算理论与方法, 参与, 国家任务, 2012-01--2016-08
（ 4 ）图像视频的群体数据协同结构化表达与处理, 参与, 国家任务, 2014-01--2018-12
（ 5 ）异构大数据的对象建模及跨域分析技术研究, 负责人, 国家任务, 2017-01--2020-12
（ 6 ）基于视觉特性的视频编码理论与方法研究, 参与, 国家任务, 2015-01--2019-12
（ 7 ）面向跨媒体内容管理的智能分析与推理：跨媒体分析推理引擎, 负责人, 国家任务, 2019-12--2023-12
（ 8 ）跨媒体理解与知识推理, 负责人, 国家任务, 2021-01--2023-12
（ 9 ）面向数据稀缺场景的图像编辑与生成方法研究, 负责人, 境内委托项目, 2021-04--2022-09
（ 10 ）面向跨媒体知识工程的可信推理与人机博弈问答, 负责人, 研究所自主部署, 2021-06--2023-05
（ 11 ）面向设计资产库的UI推荐技术合作项目, 负责人, 境内委托项目, 2022-01--2022-12
（ 12 ）知识辅助的少样本视觉内容理解, 负责人, 境内委托项目, 2021-09--2022-08
（ 13 ）基于多模态人机交互的心理体检与咨询辅助合作研究战略, 负责人, 境内委托项目, 2021-09--2022-08
（ 14 ）数据和知识联合驱动的跨媒体语义理解与文本生成, 参与, 国家任务, 2023-01--2027-12
（ 15 ） XXX神经计算模型训练与推理, 负责人, 国家任务, 2023-06--2025-05
（ 16 ）偏头痛临床研究智能大数据平台的建立与应用, 负责人, 国家任务, 2023-11--2026-10
（ 17 ） AIG3D：文本或图像条件控制的3D物体生成技术, 负责人, 境内委托项目, 2023-10--2024-10

指导学生

已指导学生

辛永健硕士研究生 085211-计算机技术

于晟昊硕士研究生 085211-计算机技术

魏军硕士研究生 081203-计算机应用技术

崔书豪硕士研究生 081203-计算机应用技术

闫旭硕士研究生 081203-计算机应用技术

薛壮壮硕士研究生 085211-计算机技术

韩华侨硕士研究生 085211-计算机技术

邓文达硕士研究生 085211-计算机技术

魏浩硕士研究生 085404-计算机技术

现指导学生

孙隽姝硕士研究生 081203-计算机应用技术

蔡硕硕士研究生 085404-计算机技术

朱妍硕士研究生 085410-人工智能

黄克楠硕士研究生 085410-人工智能

李梦莲硕士研究生 085410-人工智能

何晓铭硕士研究生 085410-人工智能

申树藩博士研究生 081200-计算机科学与技术

朱纪龙硕士研究生 085400-电子信息

吴悦博士研究生 081200-计算机科学与技术

龚琳涵硕士研究生 085410-人工智能

裴正奇硕士研究生 085410-人工智能

许冰硕士研究生 085410-人工智能

徐亮博士研究生 081200-计算机科学与技术

刘金哲博士研究生 081200-计算机科学与技术

党添添硕士研究生 081200-计算机科学与技术

已毕业博士生

韩歆哲（协助指导，2017级，国家奖学金）

戚兆波（协助指导，2016~2022，获中科院院长优秀奖）

卓君宝（协助指导，2014~2020，计算所所长优秀奖）

吴益灵（协助指导，2013~2019，国家奖学金，中科院院长优秀奖，鹏城实验室）

宋国利（协助指导，2012~2018，鹏城实验室，副研究员）

申丽（协助指导，2012~2014，中科院优博）

褚令洋(协助指导，2012~2015，国家奖学金，计算所所长奖)

已毕业硕士生

胡玲（协助指导，2019年毕业）

陈扬羽（协助指导，2018年毕业）

张家明（协助指导，2018年毕业）

张川（协助指导，2016年毕业）

王祯骏（协助指导，2015年毕业）

熊威（协助指导，2014年毕业）

在读研究生

方晟（直博生（协助指导），2018级）

毕超（博士生（协助指导），2018级）

丁冠祺（博士生（协助指导），2019级）

王亚菁（博士生（协助指导），2022级）