王金桥-中国科学院大学-UCAS

基本信息

王金桥男研究员博导中国科学院自动化研究所副总工程师紫东太初大模型中心常务副主任武汉人工智能研究院院长
电子邮件： jqwang@nlpr.ia.ac.cn
通信地址：中科院自动化研究所
邮政编码： 100190

个人主页：https://nlpr.ia.ac.cn/iva/homepage/jqwang/index.htm

一直从事视频图像分析、多模态大模型、自监督学习，目标检测与跟踪、细粒度识别，行为识别等方面的应用基础研究，同时也涉及了模式识别与机器学习方面的相关理论研究。作为中科院人工智能创新研究院“2035团队”跨模态通用人工智能平台负责人，带领团队研发了全球首个千亿参数“紫东太初”多模态预训练大模型和基于三维虚拟数字人“小初”的人机对话平台，突破了多模态大模型、视觉大模型、自监督学习等多项关键技术。2008年6月博士毕业于中国科学院自动化所， 2011年获得微软亚洲研究院“铸星计划”青年访问学者。现任中国技术创业协会技术创新工作委员会副理事长，智能媒体计算联合实验室、视频大数据云识别联合实验室、视频深度分析联合实验室主任，国家数字家庭工程技术研究中心技术委员会委员，北京市信息化专家咨询委员会委员，图像图形协会机器视觉专委会委员，中国科学院大学创新创业学院双创导师，中国科学院大学继续教育学院特聘专家，广州市创新团队领军人才，山东省泰山领军人才，中关村高端领军人才，中国光谷领军人才，华中科技大学客座教授。目前共发表论文280余篇，国际杂志70余篇，包括模式识别与智能系统会刊（IEEE Trans. on Pattern Analysis and Machine Intelligence）、多媒体权威期刊（IEEE Trans. on Multimedia）、图像处理权威期刊（IEEE Trans. on Image Processing）、神经网络与学习系统会刊（IEEE Transactions on Neural Networks and Learning System）、视频分析与处理会刊（IEEE Trans. Circuits and Systems for Video Technology）、模式识别（Pattern Recognition ）；国际会议200余篇，包括计算机视觉顶级会议（ICCV）、模式识别与计算机视觉顶级会议（CVPR）、人工智能顶级会议（ AAAI，IJCAI）、多媒体顶级会议（ACM Multimedia）等。Google Scholar 引用次数总计10145，H-index 45。完成国家标准提案3项，参与国家、行业、团体标准制定10项，申请发明专利50余项，获得北京市科技进步一等奖、世界人工智能大会最高奖-SAIL奖、武汉楷模、吴文俊人工智能科技进步二等奖、中国发明创新银奖等20余项国际算法竞赛冠军和技术应用奖项。所研发的核心技术为产业服务，填补国内空白，已在华为、阿里、京东、联想、中国移动、中国电子进出口总公司、京东方、精伦、兆维集团、华润集团、国家电网、平安科技、杰创智能等多家上市公司产品中进行技术转移和应用，技术转化已形成数百亿元产值。曾携自主研发的人工智能机器人“小加”上CCTV1加油向未来节目第二季为众人展示萌宠识别技术，在加油向未来第三季“ 机器人守门员”节目中展示动态轨迹识别技术，开门大吉节目中展示“鼻纹识别”，北京卫视“北京您早”节目中展示“智能辨物技术”，并担任湖南卫视“我是未来”的科学代言人，研发的人工智能音乐评分系统担任央视“渴望现场”机器人评委。

研究领域

图像与视频分析大规模目标检测与识别目标跟踪目标检索

招生专业

081104-模式识别与智能系统

招生方向

视频大数据分析与检索
目标检测与跟踪

模式识别与机器学习

学术任职

担任International Conference on Internet Multimedia Computing and Service（ICIMCS2009）出版主席。担任ICME2011和MMM2011、ICIP2014和ACM Multimedia 2015的程序委员会委员。担任IEEE Trans. on Multimedia、Computer Vision and Image Understanding、Multimedia Systems、IEEE Trans. Circuits and Systems for Video Technology、Neurocomputing等国际期刊杂志以及CVPR、ICME、ICIP、ICPR、ACCV、MMM、PCM、ACM Multimedia等国际会议的审稿人。
ICIMCS2009（互联网多媒体计算与服务国际会议）的出版主席;
PCM2011和MMM2011的程序委员会委员;

教育背景

2004-09--2008-07 中科院自动化研究所博士
2001-09--2004-07 天津大学硕士

工作经历

工作简历

2016-10~现在, 中国科学院自动化所, 研究员
2011-10~2016-09,中科院自动化研究所, 副研究员
2008-07~2011-10,中科院自动化研究所, 助理研究员

社会兼职

2021-08-31-今,无锡惠山经济技术开发区“未来产业科学家智库”委员会, 青年科学家
2021-03-04-今,《计算机与网络》第九届编委会, 委员
2019-03-01-今,国家数字家庭工程技术研究中心技术委员会, 委员
2018-08-01-今,北京市信息化专家委员会, 委员
2018-06-01-今,中国技术创业协会技术创新工作委员会, 副理事长
2017-10-28-今,图像图形协会机器视觉专委会, 委员

教授课程

图像与视频检索

专利与奖励

奖励信息

（1） 2022 年IEEE BigData 道路病害检测竞赛, 一等奖, 其他, 2022
（2）北京市科技进步一等奖, 一等奖, 省级, 2022
（3）世界人工智能大会SAIL奖, 特等奖, 部委级, 2022
（4） 2020 CVPR 视觉理解全球竞赛, 二等奖, 其他, 2020
（5） 2020 CVPR 反无人机跟踪全球竞赛, 二等奖, 其他, 2020
（6） VICP国际车纹识别挑战赛, 一等奖, 其他, 2019
（7） VideoNet全球视频挑战赛, 一等奖, 其他, 2019
（8）中科院科技成果转化二等奖, 二等奖, 院级, 2018
（9）吴文俊人工智能科技进步奖, 二等奖, 国家级, 2018
（10） 2018全球AI挑战赛, 一等奖, 其他, 2018
（11）上海BOT视觉识别大赛, 一等奖, 其他, 2016

专利成果

（ 1 ）异常检测模型训练方法、异常检测方法、装置及电子设备, 2023, 第 5 作者, 专利号: CN116403077B

（ 2 ）人脸识别模型的训练方法、装置、设备和存储介质, 2023, 第 2 作者, 专利号: CN115953819B

（ 3 ）基于粗标签辅助的半监督细粒度图像识别方法和设备, 2023, 第 3 作者, 专利号: CN115294350B

（ 4 ）视觉检索模型的无监督训练方法、装置和电子设备, 2023, 第 3 作者, 专利号: CN116089652B

（ 5 ）图像重建模型的迭代方法和图像重建方法, 2023, 第 6 作者, 专利号: CN116030156B

（ 6 ）异常检测模型训练方法、异常检测方法、装置及电子设备, 发明专利, 2023, 第 5 作者, 专利号: CN116403077A

（ 7 ）一种目标检测方法、装置、设备及存储介质, 发明专利, 2023, 第 1 作者, 专利号: CN115953665A

（ 8 ）人脸识别模型的训练方法、装置、设备和存储介质, 发明专利, 2023, 第 2 作者, 专利号: CN115953819A

（ 9 ）基于粗标签辅助的半监督细粒度图像识别方法和设备, 发明专利, 2022, 第 3 作者, 专利号: CN115294350A

（ 10 ）少样本目标检测方法、装置和电子设备, 发明专利, 2022, 第 5 作者, 专利号: CN114861842b

（ 11 ）图像生成方法、图像去噪模型的训练方法和设备, 发明专利, 2022, 第 2 作者, 专利号: CN115222630A

（ 12 ）目标检测方法、装置、电子设备及存储介质, 发明专利, 2022, 第 5 作者, 专利号: CN115100419A

（ 13 ）行人重识别模型训练方法、行人重识别方法、装置和设备, 发明专利, 2022, 第 2 作者, 专利号: CN115082966A

（ 14 ）图像分析方法、装置及电子设备, 发明专利, 2022, 第 5 作者, 专利号: CN115082430A

（ 15 ）一种目标识别方法及装置、计算机存储介质, 发明专利, 2022, 第 4 作者, 专利号: CN115035379A

（ 16 ）图像生成方法、装置和电子设备, 发明专利, 2022, 第 2 作者, 专利号: CN115018954A

（ 17 ）少样本目标检测方法、装置和电子设备, 发明专利, 2022, 第 5 作者, 专利号: CN114861842A

（ 18 ）基于生成对抗网络的人脸修复方法、装置及存储介质, 发明专利, 2022, 第 3 作者, 专利号: CN114862699A

（ 19 ）掩码图像模型训练方法、掩码图像内容预测方法和设备, 发明专利, 2022, 第 5 作者, 专利号: CN114842307A

（ 20 ）基于一致性损失的细粒度图像模型训练及识别方法和装置, 发明专利, 2022, 第 3 作者, 专利号: CN114821203A

（ 21 ）图像生成器的训练方法、装置、电子设备和可读存储介质, 发明专利, 2022, 第 2 作者, 专利号: CN114782291A

（ 22 ）基于Transformer的非接触式呼吸率测量方法, 专利授权, 2022, 第 1 作者, 专利号: CN114343612B

（ 23 ）图像扫描识别方法、装置及电子设备, 发明专利, 2022, 第 1 作者, 专利号: CN114429636A

（ 24 ）模型训练及图像处理方法、装置、设备、存储介质, 发明专利, 2022, 第 10 作者, 专利号: CN114419374A

（ 25 ）基于transfomer的非接触式呼吸率测量方法, 发明专利, 2022, 第 1 作者, 专利号: CN114343612A

（ 26 ）一种多层级目标检测方法及系统, 发明专利, 2022, 第 2 作者, 专利号: CN114333040A

（ 27 ）图像处理、缺陷检测方法及装置、电子设备和存储介质, 发明专利, 2022, 第 11 作者, 专利号: CN114299296A

（ 28 ）图像处理、缺陷检测方法及装置、电子设备和存储介质, 发明专利, 2022, 第 11 作者, 专利号: CN114255221A

（ 29 ）基于通用视觉预训练模型的图像质量评价方法及系统, 专利授权, 2022, 第 1 作者, 专利号: CN113743332B

（ 30 ）人体姿态估计方法、装置、电子设备及存储介质, 发明专利, 2022, 第 3 作者, 专利号: CN114140831A

（ 31 ）一种图像分类方法、装置、电子设备及存储介质, 专利授权, 2022, 第 3 作者, 专利号: CN114120034A

（ 32 ）基于Transformer的非接触式心率测量方法, 发明专利, 2021, 第 3 作者, 专利号: CN113408508B

（ 33 ）基于自适应时空纠缠的视频行为识别方法、系统、设备, 发明专利, 2021, 第 4 作者, 专利号: CN113435430A

（ 34 ）基于关键点检测和局部特征对齐的车辆重识别方法, 专利授权, 2021, 第 1 作者, 专利号: CN112990152A

（ 35 ）一种图像分类方法、装置、电子设备及存储介质, 发明专利, 2021, 第 3 作者, 专利号: CN112801238A

（ 36 ）基于分布学习的自适应方差和权重的人脸年龄估计方法, 发明专利, 2021, 第 3 作者, 专利号: CN112560823A

（ 37 ）基于循环一致性的无监督人体姿态迁移方法、系统及装置, 专利授权, 2021, 第 2 作者, 专利号: CN111739115B

（ 38 ）基于特征对抗学习和自相似性聚类的跨域目标重识别方法, 专利授权, 2021, 第 2 作者, 专利号: CN111738172B

（ 39 ）基于端到端网络的非接触式心率测量方法、系统和装置, 专利授权, 2021, 第 3 作者, 专利号: CN112200162A

（ 40 ）基于多属性融合的分布式车牌识别方法、系统、装置, 专利授权, 2021, 第 3 作者, 专利号: CN112200193A

（ 41 ）基于图网络的多粒度特征学习的图像精细分类方法及系统, 专利授权, 2021, 第 2 作者, 专利号: CN111814920B

（ 42 ）基于空间变换信息传递的人体关键点检测方法与系统, 专利授权, 2021, 第 3 作者, 专利号: CN111783755B

（ 43 ）基于语义一致水平条和前景修正的行人重识别方法, 专利授权, 2020, 第 3 作者, 专利号: CN111783753B

（ 44 ）基于部位上下文的人体属性图像分类方法、系统和装置, 专利授权, 2020, 第 3 作者, 专利号: CN111783754B

（ 45 ）基于深度学习和判别式模型训练的目标跟踪方法及存储器, 专利授权, 2020, 第 3 作者, 专利号: CN111815681A

（ 46 ）基于图网络的多粒度特征学习的精细分类方法及系统, 发明专利, 2020, 第 2 作者, 专利号: CN111814920A

（ 47 ）基于深度解耦的人体实例解析方法、系统, 发明专利, 2020, 第 3 作者, 专利号: CN111738174A

（ 48 ）基于语义对齐的人脸关键点检测方法、系统、装置, 专利授权, 2019, 第 3 作者, 专利号: CN109902641A

（ 49 ）视觉目标跟踪方法及系统, 专利授权, 2019, 第 1 作者, 专利号: CN109785385A

（ 50 ）目标检测模型构建方法, 专利授权, 2017, 第 1 作者, 专利号: CN107038448A

（ 51 ）基于深度学习的车型识别模型构建方法及车型识别方法, 专利授权, 2017, 第 1 作者, 专利号: CN106570477A

（ 52 ）一种RGB-D图像获取方法, 发明专利, 2015, 第 3 作者, 专利号: CN104463880A

（ 53 ）一种缩略图生成方法和系统, 发明专利, 2014, 第 2 作者, 专利号: CN103902730A

（ 54 ）基于群组上下文的行人计数方法, 发明专利, 2011, 第 2 作者, 专利号: CN102289817A

（ 55 ）基于视频监控网络的视频自动浓缩方法, 发明专利, 2011, 第 3 作者, 专利号: CN102256065A

（ 56 ）基于动态群组划分的多目标跟踪方法, 发明专利, 2011, 第 2 作者, 专利号: CN102148921A

（ 57 ）基于三维点云模型的地标建筑图像分类方法, 发明专利, 2011, 第 3 作者, 专利号: CN102147812A

（ 58 ）基于极小化上界误差的视觉跟踪方法, 发明专利, 2011, 第 2 作者, 专利号: CN102054170A

（ 59 ）用计算机对运动目标的场景图像建立语义场景模型的方法, 发明专利, 2011, 第 2 作者, 专利号: CN102054176A

出版信息

发表论文

（1） Objformer: Boosting 3D object detection via instance-wise interaction, PATTERN RECOGNITION, 2024, 第 4 作者
（2） FreConv: Frequency Branch-and-Integration Convolutional Networks, IEEE International Conference on Multimedia and Expo (ICME), 2023, 第 5 作者
（3） Bi-Level Implicit Semantic Data Augmentation for Vehicle Re-Identification, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2023, 第 6 作者
（4） Pruning-aware Sparse Regularization for Network Pruning, 机器智能研究（英文）, 2023, 第 6 作者
（5） Explicit Attention Modeling for Pedestrian Attribute Recognition, ICME, 2023, 第 4 作者
（6）开放环境下的视觉感知与理解导读, Guide to Visual Sensing and Understanding in Open Environment, 无线电工程, 2023, 第 1 作者
（7） ShiftFormer: Spatial-Temporal Shift Operation in Video Transformer, ICME, 2023, 第 5 作者
（8） Learning Semantics-Consistent Stripes With Self-Refinement for Person Re-Identification, IEEE Trans. Neural Networks Learn. Syst., 2023, 第 4 作者
（9） Progressive Direction-Aware Pose Grammar for Human Pose Estimation. , IEEE Trans. Biom. Behav. Identity Sci. , 2023, 第 3 作者
（10） Pseudo Label Rectification With Joint Camera Shift Adaptation and Outlier Progressive Recycling for Unsupervised Person Re-Identification, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2023, 第 5 作者
（11） ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路, The Inspiration Brought by ChatGPT to LLM and the New Development Ideas of Multi-modal Large Model, 数据分析与知识发现, 2023, 第 3 作者
（12） Surgical Video Captioning with Mutual-Modal Concept Alignment, MICCAI, 2023, 第 2 作者
（13） Human Parsing With Part-Aware Relation Modeling, IEEE TRANSACTIONS ON MULTIMEDIA, 2023, 第 4 作者
（14） ZBS: Zero-Shot Background Subtraction via Instance-Level Background Modeling and Foreground Selection, CVPR, 2023, 第 7 作者
（15） When Skeleton Meets Appearance: Adaptive Appearance Information Enhancement for Skeleton Based Action Recognition, ICME, 2022, 第 3 作者
（16） Regularizing Vector Embedding in Bottom-Up Human Pose Estimation, ECCV 2022, 2022, 第 3 作者
（17） Learning semantics- consistent stripes with self-refinement for person re-identification, IEEE Transactions on neural networks and learning system, 2022, 第 4 作者
（18） Hybrid Modality Metric Learning for Visible-Infrared Person Re-Identification, ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS, 2022, 第 9 作者
（19） Pseudo Label Rectification With Joint Camera Shift Adaptation and Outlier Progressive Recycling for Unsupervised Person Re-Identification, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2022, 第 5 作者
（20） Learning Semantics-Consistent Stripes With Self-Refinement for Person Re-Identification, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2022, 第 4 作者
（21） Grammar-Induced Wavelet Network for Human Parsing, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2022, 第 5 作者
（22） Transfering Low-Frequency Features for Domain Adaptation, ICME, 2022, 第 5 作者
（23） PASS: Part-Aware Self-Supervised Pre-Training for Person Re-Identification, ECCV, 2022, 第 5 作者
（24） Human Parsing with Part-aware Relation Modeling, IEEE Transactions on Multimedia, 2022, 第 4 作者
（25） Fine-Grained Human-Centric Tracklet Segmentation with Single Frame Supervision, IEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE, 2022, 通讯作者
（26） Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual Tasks, NeurIPS, 2022, 第 10 作者
（27） UniVIP: A Unified Framework for Self-Supervised Visual Pre-training, CVPR, 2022, 其他（合作组作者）
（28） Global Patch Cross-Attention for Point Cloud Analysis, PRCV, 2022, 第 3 作者
（29） Dynamic Orthogonal Projection Constrained Discriminative Tracking, IEEE SIGNAL PROCESSING LETTERS, 2022, 第 4 作者
（30） C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection, CVPR, 2022, 第 6 作者
（31） PruneFaceDet: Pruning lightweight face detection network by sparsity training, COGNCOMPUTSYST, 2022, 第 4 作者
（32） Graph Neural Networks Based Multi-Granularity Feature Representation Learning for Fine-Grained Visual Categorization, 28th International Conference on Multimedia Modeling (MMM 2022)., 2022, 第 5 作者
（33） Multi-granularity Mutual Learning Network for Object Re-identification, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2022, 第 5 作者
（34） Adaptive Class Suppression Loss for Long-Tail Object Detection, CVPR, 2021, 第 5 作者
（35） Consistent-Separable Feature Representation for Semantic Segmentation, AAAI, 2021, 第 5 作者
（36） Unsupervised cycle-consistent person pose transfer, NEUROCOMPUTING, 2021, 第 4 作者
（37） Siamese Regression Tracking With Reinforced Template Updating, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2021, 通讯作者
（38） Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation, ACM MULTIMEDIA, 2021, 第 10 作者
（39） DPT: Deformable Patch-based Transformer for Visual Recognition, ACM MM, 2021, 第 6 作者
（40） STN-enhanced message passing guided by adversarial learning for human pose estimation, NEUROCOMPUTING, 2021, 第 4 作者
（41） High-Performance Discriminative Tracking with Target-Aware Feature Embeddings, PRCV, 2021, 第 4 作者
（42） Antidecay LSTM for Siamese Tracking With Adversarial Learning, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2021, 通讯作者
（43） High-Performance Discriminative Tracking with Transformers, ICCV, 2021, 第 5 作者
（44） Semi-Supervised Scene Text Recognition, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2021, 第 3 作者
（45） Macro-micro mutual learning inside compositional model for human pose estimation, NEUROCOMPUTING, 2021, 第 5 作者
（46） Fast Kernelized Correlation Filter without Boundary Effect, WACV, 2021, 第 1 作者
（47）基于十字感受野网络的场景文本检测, Scene Text Detection Based on CrossNet, 无线电通信技术, 2021, 第 8 作者
（48） Improving Multiple Object Tracking With Single Object Tracking, CVPR, 2021, 第 5 作者
（49） Siamese Deformable Cross-Correlation Network for Real-Time Visual Tracking, NEUROCOMPUTING, 2020, 第 4 作者
（50） Learning Feature Embeddings for Discriminant Model based Tracking, ECCV, 2020, 第 4 作者
（51） Adaptive Variance Based Label Distribution Learning For Facial Age Estimation, ECCV, 2020, 第 5 作者
（52） Blended Grammar Network for Human Parsing, ECCV, 2020,
（53） A novel data augmentation scheme for pedestrian detection with attribute preserving GAN, NEUROCOMPUTING, 2020, 第 8 作者
（54） Identity-Guided Human Semantic Parsing for Person Re-Identification, ECCV, 2020, 第 4 作者
（55） Progressive rectification network for irregular text recognition, Progressive rectification network for irregular text recognition, SCIENCE CHINA-INFORMATION SCIENCES, 2020, 第 3 作者
（56） A Comparison of Correlation Filter-Based Trackers and Struck Trackers, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2020, 通讯作者
（57）面向嵌入式系统的高精度实时人群计数算法研究, Real-time crowd counting for embedded systems with high accuracy, 高技术通讯, 2020, 第 5 作者
（58） An end-to-end exemplar association for unsupervised person Re-identification, NEURAL NETWORKS, 2020, 第 4 作者
（59） High-Speed And Accurate Scale Estimation For Visual Tracking With Gaussian Process Regression, 2020 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2020, 第 4 作者
（60） Occlusion-Aware Siamese Network for Human Pose Estimation, ECCV, 2020, 第 4 作者
（61） Semantic-spatial fusion network for human parsing, NEUROCOMPUTING, 2020, 第 4 作者
（62） Food det: Detecting foods in refrigerator with supervised transformer network, NEUROCOMPUTING, 2020, 第 4 作者
（63） Large Batch Optimization for Object Detection: Training COCO in 12 Minutes, ECCV, 2020,
（64） Part-aware Context Network for Human Parsing, CVPR, 2020,
（65） Siamese Attentive Graph Tracking, ACM Multimedia, 2020,
（66） Recall What You See Continually Using GridLSTM in Image Captioning, IEEE TRANSACTIONS ON MULTIMEDIA, 2020, 第 3 作者
（67） Progressive Bi-C3D Pose Grammar for Human Pose Estimation, AAAI, 2020, 第 3 作者
（68） Task Decoupled Knowledge Distillation For Lightweight Face Detectors, ACM MM, 2020,
（69） Two-Level Attention Network With Multi-Grain Ranking Loss for Vehicle Re-Identification, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2019, 第 4 作者
（70） Bi-Directional Message Passing Based Scanet for Human Pose Estimation, 2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2019, 第 3 作者
（71） A Review on Object Detection Based on Deep Convolutional Neural Networks for Autonomous Driving, 2019, 第 3 作者
（72） Real-time multi-scale face detector on embedded devices, SENSORS, 2019, 第 5 作者
（73） Attention couplenet: fully convolutional attention coupling network for object detection, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2019, 第 4 作者
（74） Mask Guided Knowledge Distillation for Single Shot Detector, 2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2019, 第 4 作者
（75） Adversarial Deep Tracking, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2019, 通讯作者
（76） Multi-correlation filters with triangle-structure constraints for object tracking, IEEE TRANSACTIONS ON MULTIMEDIA, 2019, 第 4 作者
（77） VEHICLE RE-IDENTIFICATION WITH REFINED PART MODEL, 2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO WORKSHOPS (ICMEW), 2019, 第 4 作者
（78） Efficient Face Alignment with Fast Normalization and Contour Fitting Loss, ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS, 2019, 通讯作者
（79） Pixelwise Deep Sequence Learning for Moving Object Detection, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2019, 通讯作者
（80） Semantic Alignment: Finding Semantically Consistent Ground-truth for Facial Landmark Detection, 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2019), 2019, 第 8 作者
（81） Reading scene text with fully convolutional sequence modeling, NEUROCOMPUTING, 2019, 第 3 作者
（82） Learning Discriminative and Complementary Patches for Face Recognition, 2019 14TH IEEE INTERNATIONAL CONFERENCE ON AUTOMATIC FACE AND GESTURE RECOGNITION (FG 2019), 2019, 第 4 作者
（83） Adversarial image generation by combining content and style, IET IMAGE PROCESSING, 2019, 第 4 作者
（84） POSE-WEIGHTED GAN FOR PHOTOREALISTIC FACE FRONTALIZATION, 2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2019, 第 7 作者
（85） Feature Distilled Tracking, IEEE TRANSACTIONS ON CYBERNETICS, 2019, 通讯作者
（86） Cascade Attention Network for Person Re-Identification, 2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2019, 第 5 作者
（87） Elite Loss for scene text detection, NEUROCOMPUTING, 2019, 第 6 作者
（88） Dynamic Collaborative Tracking, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2019, 第 3 作者
（89） Fast-deepKCF Without Boundary Effect, 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2019), 2019, 第 4 作者
（90） FLDet: A CPU Real-time Joint Face and Landmark Detector, 2019 INTERNATIONAL CONFERENCE ON BIOMETRICS (ICB), 2019, 第 5 作者
（91） Fine-grained Human-centric Tracklet Segmentation with Single Frame Supervision, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2019, 通讯作者
（92） Improved Single Shot Object Detector using Enhanced Features and Predicting Heads, 2018 IEEE FOURTH INTERNATIONAL CONFERENCE ON MULTIMEDIA BIG DATA (BIGMM), 2018, 第 5 作者
（93） Learning Coarse-to-Fine Structured Feature Embedding for Vehicle Re-Identification, THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE / THIRTIETH INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE / EIGHTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE, 2018, 第 4 作者
（94） High-speed Tracking with Multi-kernel Correlation Filters, 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2018, 第 4 作者
（95） Improved Single Shot Object Detector Using Enhanced Features and Predicting Heads, 2018, 第 4 作者
（96） Dynamic Collaborative Tracking, IIEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2018, 第 5 作者
（97） Multi-view pedestrian captioning with an attention topic cnn model, COMPUTERS IN INDUSTRY, 2018, 第 3 作者
（98） Appearance features in Encoding Color Space for visual surveillance, NEUROCOMPUTING, 2018, 第 4 作者
（99） DENSE CHAINED ATTENTION NETWORK FOR SCENE TEXT RECOGNITION, 2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2018, 第 3 作者
（100） Progressive Cognitive Human Parsing, THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE / THIRTIETH INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE / EIGHTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE, 2018, 第 4 作者
（101） Domain adaptation tracker with global and local searching, IEEE ACCESS, 2018, 通讯作者
（102） TREE HIERARCHICAL CNNS FOR OBJECT PARSING, 2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2018, 第 4 作者
（103） Learning Robust Gaussian Regression Processes for Visual Tracking, IJCAI, 2018,
（104） Learning Coarse-to-fine Structured Feature Embedding for Vehicle Re-identification, AAAI, 2018, 第 4 作者
（105） Joint background reconstruction and foreground segmentation via a two-stage convolutional neural network, 2017, 第 1 作者
（106） JOINT BACKGROUND RECONSTRUCTION AND FOREGROUND SEGMENTATION VIA A TWO-STAGE CONVOLUTIONAL NEURAL NETWORK, 2017 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2017, 第 4 作者
（107） Fast Deep Matting for Portrait Animation on Mobile Phone, 2017, 第 5 作者
（108） Densetracker: A Multi-task Dense Network for Visual Tracking, 2017IEEEINTERNATIONALCONFERENCEONMULTIMEDIAANDEXPOICME, 2017, 第 2 作者
（109） Deep Embedding Network For Robust Age Estimation, 2017, 第 1 作者
（110）基于多线激光扫描的叶片轮廓快速测量系统标定方法, Calibration Method for Fast Detection System of Blade Profile Based on Multiple Line Laser Scanning, 纳米技术与精密工程, 2017, 第 4 作者
（111） CoupleNet: Coupling Global Structure with Local Parts for Object Detection, 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 2017, 第 3 作者
（112） Joint Visual Context for Pedestrian Captioning, 2017, 第 4 作者
（113） DENSETRACKER: A MULTI-TASK DENSE NETWORK FOR VISUAL TRACKING, 2017IEEEINTERNATIONALCONFERENCEONMULTIMEDIAANDEXPOICME, 2017, 第 4 作者
（114） Learning Adaptive Receptive Fields for Deep Image Parsing Network, 30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017), 2017, 第 3 作者
（115） Automatic group activity annotation for mobile videos, MULTIMEDIA SYSTEMS, 2017, 通讯作者
（116） DEEP EMBEDDING NETWORK FOR ROBUST AGE ESTIMATION, 2017 24TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2017, 第 5 作者
（117） Automatic Watermeter Digit Recognition on Mobile Devices, ICIMCS, 2017, 第 3 作者
（118） Fast Deep Matting for Portrait Animation on Mobile Phone, PROCEEDINGS OF THE 2017 ACM MULTIMEDIA CONFERENCE (MM'17), 2017, 第 3 作者
（119） Feature Distilled Tracking, IEEE TRANSACTION ON CYBERNETICS, 2017, 第 3 作者
（120） Learning discriminative context models for concurrent collective activity recognition, MULTIMEDIA TOOLS AND APPLICATIONS, 2017, 第 2 作者
（121） CoupleNet: Coupling Global Structure with Local Parts for Object Detection, 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 2017, 第 3 作者
（122） Deep People Counting with Faster R-CNN and Correlation Tracking, 8TH INTERNATIONAL CONFERENCE ON INTERNET MULTIMEDIA COMPUTING AND SERVICE (ICIMCS2016), 2016, 第 4 作者
（123） Piecewise Video Condensation for Complex Scenes, COMPUTER VISION - ACCV 2016 WORKSHOPS, PT III, 2016, 第 3 作者
（124） A unified model sharing framework for moving object detection, SIGNAL PROCESSING, 2016, 通讯作者
（125） Scale-Adaptive Deconvolutional Regression Network for Pedestrian Detection, COMPUTER VISION - ACCV 2016, PT II, 2016, 第 2 作者
（126） Deep People Counting with Faster R-CNN and Correlation Tracking, 2016, 第 1 作者
（127） Extensive Comparison of Visual Features for Person Re-identification, 8TH INTERNATIONAL CONFERENCE ON INTERNET MULTIMEDIA COMPUTING AND SERVICE (ICIMCS2016), 2016, 第 3 作者
（128） Scale-adaptive Deconvolutional Regression Network for Pedestrian Detection, 2016, 第 5 作者
（129） Multiple deep features learning for object retrieval in surveillance videos, IETCOMPUTERVISION, 2016, 第 2 作者
（130） Adaptive Content Condensation Based on Grid Optimization for Thumbnail Image Generation, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2016, 通讯作者
（131） BOOSTED LOCAL CLASSIFIERS FOR VISUAL TRACKING, 2016 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 2016, 第 3 作者
（132） ActiveAd: A novel framework of linking ad videos to online products, NEUROCOMPUTING, 2016,
（133） MC-HOG correlation tracking with saliency proposal, AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI), 2016, 第 2 作者
（134） Learning weighted part models for object tracking, COMPUTER VISION AND IMAGE UNDERSTANDING, 2016, 通讯作者
（135） Piecewise Video Condensation for Complex Scenes, 2016, 第 2 作者
（136） PERSON RE-IDENTIFICATION VIA RICH COLOR-GRADIENT FEATURE, 2016 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 2016, 第 2 作者
（137） Person re-identification via rich color-gradient feature, 2016 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 2016, 第 5 作者
（138） Multi-View 3D Object Retrieval With Deep Embedding Network, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2016, 第 2 作者
（139） Real-time people counting for indoor scenes, SIGNAL PROCESSING, 2016, 第 2 作者
（140） 60 Hz self-tuning background modeling, ICIMCS, 2015, 第 2 作者
（141） Multiple features based shared models for background subtraction, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, 2015, 第 2 作者
（142） Weighted Part Context Learning for Visual Tracking, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2015, 通讯作者
（143） A Real-Time People Counting Approach in Indoor Environment, MMM, 2015, 第 2 作者
（144）关节臂激光扫描系统光条中心提取方法研究, Extraction Method of Structured Light Stripe Center Based on AACMM Laser Scanning System, 光电工程, 2015, 第 1 作者
（145） Mobile Media Thumbnailing, PROCEEDINGS OF THE 5TH ACM ON INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL, 2015, 第 2 作者
（146） Concurrent group activity classification with context modeling, PROCEEDINGS OF THE 7TH INTERNATIONAL CONFERENCE ON INTERNET MULTIMEDIA COMPUTING AND SERVICE, 2015, 第 3 作者
（147） Learning sharable models for robust background subtraction, IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO, 2015, 第 2 作者
（148） Finding logos in real-world images with point-context representation-based region search, MULTIMEDIA SYSTEMS, 2015, 通讯作者
（149） Learning Multi-view Deep Features for Small Object Retrieval in Surveillance Scenarios, ACM MULTIMEDIA, 2015, 第 2 作者
（150） Learning Deep Compact Descriptor with Bagging Auto-encoders for Object Retrieval, ICIP, 2015, 第 2 作者
（151） COLOR NAMES LEARNING USING CONVOLUTIONAL NEURAL NETWORKS, 2015IEEEINTERNATIONALCONFERENCEONIMAGEPROCESSINGICIP, 2015, 第 3 作者
（152）基于深度学习的监控视频目标检索, Deep Learning for Object Retrieval in Surveillance Videos, 无线电工程, 2015, 第 2 作者
（153） Color names learning using convolutional neural networks, 无, 2015, 第 3 作者
（154） Relaxing From Vocabulary: Robust Weakly-Supervised Deep Learning for Vocabulary-Free Image Tagging, ICCV, 2015, 第 4 作者
（155） Image Tag Refinement With View-Dependent Concept Representations, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2015, 通讯作者
（156）精确标定关节臂视觉检测系统手眼关系, Accurate calibration of AACMM visual detection system hand-eye rela-tionship, 计算机工程与应用, 2015, 第 1 作者
（157） A COARSE-TO-FINE LOGO RECOGNITION METHOD IN VIDEO STREAMS, 2014 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO WORKSHOPS (ICMEW), 2014, 第 2 作者
（158）基于双层稀疏主题模型的场景理解与异常行为检测, IEEE Transactions on Image Processing, 2014, 第 1 作者
（159） A hybrid domain enhanced framework for video retargeting with spatial–temporal importance and 3D grid optimization, SIGNAL PROCESSING, 2014, 第 1 作者
（160） Spatiotemporal Group Context for Pedestrian Counting, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2014, 通讯作者
（161） A three-level framework for affective content analysis and its case studies, MULTIMEDIA TOOLS AND APPLICATIONS, 2014, 第 2 作者
（162） Online video synopsis of structured motion, NEUROCOMPUTING, 2014, 通讯作者
（163） What Visual Attributes Characterize an Object Class?, ASIAN CONFERENCE ON COMPUTER VISION (ACCV), 2014, 第 2 作者
（164） Bilayer Sparse Topic Model for Scene Analysis in Imbalanced Surveillance Videos, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2014, 通讯作者
（165）基于商品主题空间的交互式视频广告推荐, Multimedia Tools Application, 2014, 第 1 作者
（166）基于局部关系描述子的拷贝视频检索, 2014, 第 1 作者
（167） Mask Assisted Object Coding with Deep Learning for Object Retrieval in Surveillance Videos, ACM MULTIMEDIA, 2014, 第 2 作者
（168） Key observation selection-based effective video synopsis for camera network, MACHINE VISION AND APPLICATIONS, 2014, 第 3 作者
（169） Discriminative context models for collective activity recognition, INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 2014, 第 2 作者
（170）线结构光扫描传感器结构参数一体化标定, Calibration of Line Structured Light Scanning Sensor Structure Parameter Integration, 传感技术学报, 2014, 第 1 作者
（171）基于三维网格时空优化模型的视频自适应显示, Signal Processing, 2014, 第 1 作者
（172） Object Tracking with Part-Based Discriminative Context Models, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2014, 第 3 作者
（173） Clustering Ensemble Tracking, ASIAN CONFERENCE ON COMPUTER VISION (ACCV), 2014, 第 1 作者
（174） Group latent factor model for recommendation with multiple user behaviors, INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 2014, 第 1 作者
（175）基于时空群组上下文的行人计数, IEEE Transactions on Circuits and Systems for Video Technology, 2014, 第 1 作者
（176） Spatiotemporal Grid Flow for Video Retargeting, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2014, 第 3 作者
（177） Interactive ads recommendation with contextual search on product topic space, MULTIMEDIA TOOLS AND APPLICATIONS, 2014, 通讯作者
（178） Sparse representation for robust abnormality detection in crowded scenes, PATTERN RECOGNITION, 2014, 第 3 作者
（179） A Robust Lane Detection Method for Autonomous Car-like Robot, PROCEEDINGS OF THE 2013 FOURTH INTERNATIONAL CONFERENCE ON INTELLIGENT CONTROL AND INFORMATION PROCESSING (ICICIP), 2013, 第 3 作者
（180） Dynamic scene understanding by improved sparse topical coding, PATTERN RECOGNITION, 2013, 通讯作者
（181） SUBSPACE LEARNING BASED ACTIVE LEARNING FOR IMAGE RETRIEVAL, ELECTRONIC PROCEEDINGS OF THE 2013 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO WORKSHOPS (ICMEW), 2013, 第 3 作者
（182）基于大频差双频激光的发动机叶尖间隙测量技术, Blade tip clearance measurement using dual frequency laser with large frequency difference, 光电子·激光, 2013, 第 5 作者
（183） Exploiting Content Relevance and Social Relevance for Personalized Ad Recommendation on Internet TV, ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS, 2013, 通讯作者
（184） Subspace learning based active learning for image retrieval, IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO WORKSHOPS (ICMEW), 2013, 第 4 作者
（185） Improving Scene Classification with Weakly Spatial Symmetry, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2013, 第 1 作者
（186） Context-Aware Video Retargeting via Graph Model, IEEE TRANSACTIONS ON MULTIMEDIA, 2013, 第 2 作者
（187） IMPROVING SCENE CLASSIFICATION WITH WEAKLY SPATIAL SYMMETRY INFORMATION, 2013 20TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP 2013), 2013, 第 2 作者
（188）基于上下文关系的视觉标志检测与识别, Journal of Multimedia Systems, 2013, 第 1 作者
（189） Fusing Warping, Cropping, and Scaling for Optimal Image Thumbnail Generation, ASIAN CONFERENCE ON COMPUTER VISION (ACCV), 2012, 第 1 作者
（190） ANOMALY DETECTION IN CROWDED SCENE VIA APPEARANCE AND DYNAMICS JOINT MODELING, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2012, 第 1 作者
（191） Efficient Clothing Retrieval with Semantic-Preserving Visual Phrases, ASIAN CONFERENCE ON COMPUTER VISION (ACCV), 2012, 第 1 作者
（192） Object-centered Narrative for Surveillance Video, INTERNATIONAL CONFERENCE ON IMAGE AND PROCESSING, 2012, 第 4 作者
（193） Enhanced 3-D Modeling for Landmark Image Classification, IEEE TRANSACTIONS ON MULTIMEDIA, 2012, 第 3 作者
（194） Learning semantic motion patterns for dynamic scenes by improved sparse topical coding, IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2012, 第 2 作者
（195） Key Observation Selection for Effective Video Synopsis, INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 2012, 第 2 作者
（196）实时增量协方差更新的目标跟踪方法, IEEE Transactions on Image Processing, 2012, 通讯作者
（197） OBJECT-CENTERED NARRATIVES FOR VIDEO SURVEILLANCE, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2012, 第 2 作者
（198）一种三层视频情感内容分析框架与应用, Multimedia Tools and Applications, 2012, 通讯作者
（199） Real-Time Probabilistic Covariance Tracking With Efficient Model Update, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2012, 通讯作者
（200） Real-time multiple object instances detection, ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, 2012, 第 2 作者
（201） Weighted interaction force estimation for abnormality detection in crowd scenes, ASIAN CONFERENCE ON COMPUTER VISION (ACCV), 2012, 第 1 作者
（202） USING CONTEXT SALIENCY FOR MOVIE SHOT CLASSIFICATION, 2011 18TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2011, 第 2 作者
（203） FAST RETARGETING WITH ADAPTIVE GRID OPTIMIZATION, 2011 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2011, 第 3 作者
（204） Landmark recognition and retrieval: From 2D to 3D, ACM MULTIMEDIA CONFERENC (MM), 2011, 第 2 作者
（205） Video reshuffling with narratives toward effective video browsing, INTERNATIONAL CONFERENCE ON IMAGE AND GRAPHICS (ICIG), 2011, 第 3 作者
（206）基于上下文主题空间搜索的交互式广告推荐, Multimedia Tools and Applications, 2011, 第 1 作者
（207） Image Classification Using Spatial Pyramid Coding and Visual Word Reweighting, ASIAN CONFERENCE ON COMPUTER VISION (ACCV), 2011, 第 5 作者
（208） Global trajectory construction across multi-cameras via graph matching, INTERNATIONAL CONFERENCE ON IMAGE AND GRAPHICS (ICIG), 2011, 第 3 作者
（209） Using context saliency for movie shot classification, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2011, 第 1 作者
（210）基于局部感知多特征分类器提升学习的目标检测, Computer Vision and Image Understanding, 2011, 通讯作者
（211） Adaptive model for robust pedestrian counting, LECTURE NOTES IN COMPUTER SCIENCE (INCLUDING SUBSERIES LECTURE NOTES IN ARTIFICIAL INTELLIGENCE AND LECTURE NOTES IN BIOINFORMATICS), 2011, 第 1 作者
（212） Grid-Based Retargeting with Transformation Consistency Smoothing, ADVANCES IN MULTIMEDIA MODELING, PT II, 2011, 第 3 作者
（213） Boosting part-sense multi-feature learners toward effective object detection, COMPUTER VISION AND IMAGE UNDERSTANDING, 2011, 通讯作者
（214） Adaptive Model for Robust Pedestrian Counting, ADVANCES IN MULTIMEDIA MODELING, PT I, 2011, 第 2 作者
（215） Specific vehicle detection and tracking in road environment, ACM INTERNATIONAL CONFERENCE PROCEEDING SERIES, 2011, 第 1 作者
（216） Landmark image classification using 3D point clouds, ACM MULTIMEDIA CONFERENC (MM), 2010, 第 2 作者
（217） Fast feature selection and training for AdaBoost-based concept detection with large scale datasets, ACM MULTIMEDIA CONFERENC (MM), 2010, 第 1 作者
（218） Interactive service recommendation based on ad concept hierarchy, INTERNATIONAL CONFERENCE ON INTERNET MULTIMEDIA COMPUTING AND SERVICE (ICIMCS), 2010, 第 1 作者
（219） Effective logo retrieval with adaptive local feature selection, ACM MULTIMEDIA CONFERENC (MM), 2010, 第 2 作者
（220） Interactive web video advertising with context analysis and search, INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 2010, 第 2 作者
（221） Sports video retargeting, ACM MULTIMEDIA CONFERENCE, WITH CO-LOCATED WORKSHOPS AND SYMPOSIUMS (MM), 2009, 第 2 作者
（222） Spatial pyramid based histogram representation for visual tracking with partial occlusion, PROCEEDINGS OF THE FIRST INTERNATIONAL CONFERENCE ON INTERNET MULTIMEDIA COMPUTING AND SERVICE, 2009, 第 2 作者
（223） Context saliency based image summarization, IEEEINTERNATIONALCONFERENCEONMULTIMEDIAANDEXPOICME, 2009, 第 2 作者
（224） A Hierarchical Semantics-Matching Approach for Sports Video Annotation, ADVANCES IN MULTIMEDIA INFORMATION PROCESSING - PCM 2009, 2009, 第 4 作者
（225） Boosted forest for human detection, INTERNATIONAL CONFERENCE ON INTERNET MULTIMEDIA COMPUTING AND SERVICE (ICIMCS), 2009, 第 1 作者
（226） Consumer video retargeting: Context assisted spatial-temporal grid optimization, ACM MULTIMEDIA CONFERENC (MM), 2009, 第 1 作者
（227） LINKING VIDEO ADS WITH PRODUCT OR SERVICE INFORMATION BY WEB SEARCH, ICME: 2009 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-3, 2009, 通讯作者
（228） Real-time visual tracking via incremental covariance model update on Log-Euclidean Riemannian manifold, CHINESE CONFERENCE ON PATTERN RECOGNITION (CCPR), AND CJK JOINT WORKSHOP ON PATTERN RECOGNITION (CJKPR), 2009, 第 1 作者
（229） Semantic Linking between Video Ads and Web Services with Progressive Search, 2009 IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW 2009), 2009, 第 2 作者
（230） Hand posture recognition with co-training, 无, 2008, 第 3 作者
（231） A multimodal scheme for program segmentation and representation in broadcast video streams, IEEE TRANSACTIONS ON MULTIMEDIA, 2008, 通讯作者
（232） A NOVEL CONTEXTUAL DESCRIPTORS FOR CATEGORY RECOGNITION, 2008 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-4, 2008, 第 4 作者
（233）基于多模态融合的广播视频分割与表达, IEEE Transactions on Multimedia, 2008, 第 1 作者
（234） Digesting commercial clips from TV streams, IEEE MULTIMEDIA, 2008, 第 3 作者
（235） Web Image Mining Based on Modeling Concept-Sensitive Salient Regions, PROCEEDINGS OF THE 2006 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, 2006, 第 4 作者
（236） Target tracking in infrared image sequences using diverse AdaBoostSVM, ICICIC 2006: FIRST INTERNATIONAL CONFERENCE ON INNOVATIVE COMPUTING, INFORMATION AND CONTROL, VOL 2, PROCEEDINGS, 2006, 第 3 作者
（237） A Robust Method for TV Logo Tracking in Video Streams, PROCEEDINGS OF THE 2007 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, 2006, 第 2 作者
（238）汽车真空助力器性能测试装置, The Measuring Apparatus for Performance of Automobile Vacuum Strengthener, 液压与气动, 2003, 第 1 作者
（239）集成电路模塑封装机液压系统, The Hydraulic System of Plastic Packaging Press for Intgrated Circuit, 液压与气动, 2003, 第 3 作者
（240）基于COM技术的开放式卷板数控系统的研究与开发, Research on the open architecture special bending CNC system based on COM, 制造业自动化, 2003, 第 1 作者
（241） FreConv: Frequency Branch-and-Integration Convolutional Networks, 第 7 作者

科研活动

科研项目

（ 1 ）基于语义分析和视觉关注的视频自适应研究, 负责人, 国家任务, 2010-01--2012-12
（ 2 ）面向移动终端的视频检索与浏览, 负责人, 国家任务, 2013-01--2016-12
（ 3 ）基于深度学习的车型识别, 负责人, 境内委托项目, 2016-10--2018-12
（ 4 ）基于物件的图像识别项目, 负责人, 境内委托项目, 2016-10--2019-12
（ 5 ）综合AR识别引擎开发, 负责人, 境内委托项目, 2017-04--2018-04
（ 6 ）基于结构关系和知识学习的大规模目标检索, 负责人, 国家任务, 2018-01--2021-12
（ 7 ）面向视频识别的视频图像计算与识别, 负责人, 境内委托项目, 2018-02--2019-01
（ 8 ）视频AI处理算法开发, 负责人, 境内委托项目, 2017-10--2018-12
（ 9 ）视频分析研究合作协议, 负责人, 境内委托项目, 2017-08--2018-12
（ 10 ）视频深度分析联合实验, 负责人, 境内委托项目, 2017-11--2020-06
（ 11 ） quiXmart零售商品机器视觉方法, 负责人, 境内委托项目, 2017-07--2018-12
（ 12 ）车辆特征多维感知与精细识别技术, 负责人, 境内委托项目, 2019-01--2019-12
（ 13 ）视频镜头检测算法开发, 负责人, 境内委托项目, 2019-01--2019-05
（ 14 ）图像多物体检测研究项目, 负责人, 境内委托项目, 2019-07--2022-07
（ 15 ）健康管理关键技术融合动作感知与理解, 负责人, 境内委托项目, 2019-07--2021-07
（ 16 ）监控视频中多目标时空定位及复杂事件检测算法开发, 负责人, 境内委托项目, 2019-08--2020-12
（ 17 ）深色人脸识别项目, 负责人, 境内委托项目, 2019-09--2021-12
（ 18 ）拉美本地化车纹识别相关算法开发, 负责人, 境内委托项目, 2020-02--2020-11
（ 19 ）多媒体内容塑造和取证关键技术研究, 负责人, 国家任务, 2020-01--2023-12
（ 20 ）车辆特征多维感知与精细识别技术, 负责人, 中国科学院计划, 2019-01--2020-12
（ 21 ）交通一体化平台车辆识别相关算法开发, 负责人, 境内委托项目, 2020-04--2020-11
（ 22 ）智能化目标检测与定位、身份识别、行为检测系统, 负责人, 境内委托项目, 2020-05--2020-12
（ 23 ）适用于Atlas500的视频分析处理技术, 负责人, 境内委托项目, 2020-06--2021-06
（ 24 ）人脸识别算法研究, 负责人, 境内委托项目, 2020-12--2021-12
（ 25 ）室内零售安防场景中的人体动作识别关键技术研究, 负责人, 境内委托项目, 2021-01--2022-01
（ 26 ）基于图像识别的卷烟零售店面数据采集和智能分析研究, 负责人, 境内委托项目, 2021-01--2021-12
（ 27 ）面向新零售的视频图像分析算法开发, 负责人, 境内委托项目, 2021-07--2022-07
（ 28 ）智慧城市复杂场景下的行为识别与分析测试模块, 负责人, 境内委托项目, 2021-08--2023-04
（ 29 ）拼图软件开发项目, 负责人, 境内委托项目, 2021-08--2022-03
（ 30 ）面向工业场景的视觉自监督表征学习与结构设计, 负责人, 境内委托项目, 2021-08--2022-08
（ 31 ）基于海量数据的大规模路多模态预训练系统, 负责人, 境内委托项目, 2021-08--2023-01
（ 32 ）金融业分布式核心业务系统, 负责人, 国家任务, 2020-05--2021-12
（ 33 ）基于跨模态预训练模型的自主可控人机对话平台, 负责人, 中国科学院计划, 2021-01--2021-12
（ 34 ）智能视频语义计算与泛化能力提升项目, 负责人, 境内委托项目, 2022-01--2024-01
（ 35 ）基于跨模态预训练模型的自主可控人机对话平台, 负责人, 中国科学院计划, 2022-01--2022-12
（ 36 ）基于局部关系与语义约束的视觉检索, 负责人, 国家任务, 2022-11--2026-12
（ 37 ）基于硬件约束的自动网络结构编译技术研究, 负责人, 国家任务, 2021-10--2024-10
（ 38 ）模拟集成电路版图智能化生成方法, 负责人, 国家任务, 2022-06--2025-05
（ 39 ）紫东太初大模型, 负责人, 国家任务, 2022-01--2024-12
（ 40 ）知识增强的多模态协同学习, 负责人, 中国科学院计划, 2023-01--2025-12

指导学生

已指导学生

李佳妮硕士研究生 085208-电子与通信工程

李超鹏硕士研究生 085211-计算机技术

梁孝庆硕士研究生 085211-计算机技术

胡海猛硕士研究生 085211-计算机技术

江南飞硕士研究生 085211-计算机技术

王素琴硕士研究生 085211-计算机技术

冯文霓硕士研究生 085211-计算机技术

胡益珲硕士研究生 085211-计算机技术

台琰硕士研究生 085410-人工智能

李晓东硕士研究生 085400-电子信息

杜晓杰硕士研究生 085410-人工智能

赵弘胤硕士研究生 085410-人工智能

杨蓓莹硕士研究生 085410-人工智能

罗锦钊硕士研究生 081104-模式识别与智能系统

凃鸣非硕士研究生 085211-计算机技术

现指导学生

王海鑫博士研究生 081203-计算机应用技术

贺靖涵博士研究生 081104-模式识别与智能系统

于涛博士研究生 081104-模式识别与智能系统

朱袁兵硕士研究生 081203-计算机应用技术

乔冠辉博士研究生 081203-计算机应用技术

詹宇飞博士研究生 081104-模式识别与智能系统

李朝闻博士研究生 081104-模式识别与智能系统

牛蕴方博士研究生 081203-计算机应用技术

陶满礼博士研究生 081104-模式识别与智能系统

李碧莹博士研究生 081104-模式识别与智能系统

谭颖韬博士研究生 081104-模式识别与智能系统

张琦硕士研究生 085410-人工智能

安永琪博士研究生 081104-模式识别与智能系统

郑姝榕博士研究生 081104-模式识别与智能系统

杨帆博士研究生 081104-模式识别与智能系统

张羽丰博士研究生 081104-模式识别与智能系统

李蕾硕士研究生 085410-人工智能

何嘉欣硕士研究生 085410-人工智能

王茗硕士研究生 085410-人工智能

张艾恬硕士研究生 085410-人工智能

蔡鹏祥硕士研究生 085400-电子信息

武鑫鑫硕士研究生 085410-人工智能

丁文超硕士研究生 085410-人工智能

张宁博硕士研究生 085410-人工智能

姜昕雪硕士研究生 085410-人工智能

赵晓新硕士研究生 085410-人工智能

彭叶华硕士研究生 085410-人工智能

赵婧彤博士研究生 081104-模式识别与智能系统