高科-中国科学院大学-UCAS

研究领域

多模态大模型，代码大模型

多模态内容理解与生成

深度强化学习

因果表征学习

招生信息

招生专业

081203-计算机应用技术

招生方向

多模态大模型，代码大模型，视频内容分析与理解，深度强化学习，因果表征学习

教育背景

2004-09--2009-07 中国科学院计算技术研究所博士/硕博连读
2000-09--2004-07 西安交大学士/本科

工作经历

工作简历

2024-01~现在, 中国科学院软件研究所, 副研究员
2021-03~2023-12,阿里巴巴, 高级算法专家
2015-09~2016-09,新加坡国立大学, 访问学者
2013-09~2021-03,中国科学院计算技术研究所, 副研究员
2009-09~2013-07,中国科学院计算技术研究所, 助理研究员

社会兼职

2012-01-01-今,研究生辅导员,

教授课程

多媒体技术

专利与奖励

奖励信息

（1）北京市科学技术一等奖, 一等奖, 市地级, 2021
（2）北京市科学技术一等奖, 一等奖, 市地级, 2014
（3）学术百星, 一等奖, 研究所（学校）, 2012
（4）北京市重点实验室优秀论文一等奖, 一等奖, 专项, 2012
（5）国际视频检索评测大赛拷贝检测任务总成绩第一名, 一等奖, 其他, 2009

专利成果

（ 1 ）一种基于多帧音视频融合网络的人物识别方法及系统, 2021, 第 1 作者, 专利号: CN110222719B

（ 2 ）基于渐进式未知域扩展的单域泛化方法, 发明专利, 2021, 第 3 作者, 专利号: CN113313202A

（ 3 ）基于渐进式未知域扩展的单域泛化方法, 发明专利, 2021, 第 3 作者, 专利号: CN113313202A

（ 4 ）一种基于多帧音视频融合网络的人物识别方法及系统, 发明专利, 2019, 第 1 作者, 专利号: CN110222719A

（ 5 ）一种基于信息损失函数的视频描述方法和系统, 发明专利, 2019, 第 1 作者, 专利号: CN109684912A

（ 6 ）为图像特征点确定比较点对及二进制描述子的方法及系统, 2019, 第 6 作者, 专利号: CN106384127B

（ 7 ）一种基于稠密图的视频分类方法和系统, 发明专利, 2019, 第 1 作者, 专利号: CN109376683A

（ 8 ）一种基于代表性局部模式的图像指纹提取方法及系统, 2018, 第 1 作者, 专利号: CN104881668B

（ 9 ）为图像特征点确定比较点对及二进制描述子的方法及系统, 专利授权, 2017, 第 6 作者, 专利号: CN106384127A

（ 10 ）图像显著区域检测方法, 2016, 第 2 作者, 专利号: CN103514595B

（ 11 ）一种基于颜色对比度的局部区域检测子提取方法及系统, 发明专利, 2015, 第 3 作者, 专利号: CN104881669A

（ 12 ）一种基于代表性局部模式的图像指纹提取方法及系统, 发明专利, 2015, 第 1 作者, 专利号: CN104881668A

（ 13 ）基于分布熵的局部敏感哈希高维索引方法, 2014, 第 2 作者, 专利号: CN102609441B

（ 14 ）图像显著区域检测方法, 发明专利, 2014, 第 2 作者, 专利号: CN103514595A

（ 15 ）基于分布熵的局部敏感哈希高维索引方法, 发明专利, 2012, 第 2 作者, 专利号: CN102609441A

（ 16 ）一种基于聚类的图像查询方法, 发明专利, 2010, 第 1 作者, 专利号: CN101211355B

（ 17 ）一种基于显著区域的图像查询方法, 2009, 第 1 作者, 专利号: CN100573523C

（ 18 ）一种基于聚类的图像查询方法, 发明专利, 2008, 第 1 作者, 专利号: CN101211355A

（ 19 ）一种基于显著区域的图像查询方法, 发明专利, 2008, 第 1 作者, 专利号: CN101211356A

出版信息

发表论文

（1） Progressive Domain Expansion Network for Single Domain Generalization, CVPR, 2021, 通讯作者
（2）深度光流估计方法研究进展, Research Progress of Deep Optical Flow Estimation, 计算机辅助设计与图形学学报, 2021, 第 4 作者
（3） Refocused Attention: Long Short-Term Rewards Guided Video Captioning, NEURAL PROCESSING LETTERS, 2020, 通讯作者
（4） PREDICTABILITY ANALYSISING: DEEP REINFORCEMEN LEARNING FOR EARLY ACTION RECOGNITION, ICME, 2019, 第 1 作者
（5） Context-adaptive matching for optical flow, MULTIMEDIA TOOLS AND APPLICATIONS, 2019, 通讯作者
（6） Cost-free Transfer Learning Mechanism: Deep Digging Relationships of Action Categories, ACm M, 2019, 通讯作者
（7） Scene-adaptive coded aperture imaging, MULTIMEDIA TOOLS AND APPLICATIONS, 2019, 第 4 作者
（8） Not All Words Are Equal: Video-specific Information Loss for Video Captioning., BMVC, 2018, 第 1 作者
（9） Saliency guided fast interpolation for large displacement optical flow, 2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 2018, 第 2 作者
（10） Task-Driven Dynamic Fusion: Reducing Ambiguity in Video Description, 30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017), 2017, 第 2 作者
（11） Matryoshka Peek: Towards Learning Fine-grained, Robust, Discriminative Features for Product Search, IEEE Trans. on MultiMedia, 2017, 第 1 作者
（12） Trip Outfits Advisor: Location-Oriented Clothing Recommendation, IEEE TRANSACTIONS ON MULTIMEDIA, 2017, 第 3 作者
（13） Matryoshka Peek: Toward Learning Fine-Grained, Robust, Discriminative Features for Product Search, IEEE TRANSACTIONS ON MULTIMEDIA, 2017, 第 3 作者
（14） Visual homograph: A novel basic visual element, NEUROCOMPUTING, 2016, 第 2 作者
（15）面向大规模图像拷贝检测的一种目标级签名提取方法, Efficient Extraction of Object Level Signature for Large-Scale Image Copy Detection, 计算机辅助设计与图形学学报, 2016, 第 3 作者
（16） Maximally Visual-Homogeneous Region Detector for Large Scale Image Retrieval, ICMR'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL, 2015, 第 2 作者
（17） Efficient Perceptual Region Detector based on Object Boundary, MMM(International Conference on MultiMedia Modeling), 2015, 第 1 作者
（18） SALIENT REGION DETECTION : INTEGRATE BOTH GLOBAL AND LOCAL CUES, 2014 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 2014, 第 3 作者
（19） Efficient binary code indexing with pivot based locality sensitive clustering, MULTIMEDIA TOOLS AND APPLICATIONS, 2014, 第 2 作者
（20）高通量视频内容分析技术, High-Throughput Content-Based Video Analysis Technologies, 工程研究：跨学科视野中的工程, 2014, 第 2 作者
（21）基于鲁棒特征挖掘的图像副本检索, Duplicate Image Retrieval Based on Robust Feature Mining, 计算机辅助设计与图形学学报, 2013, 第 2 作者
（22） Accurate off-line query expansion for large-scale mobile visual search, SIGNAL PROCESSING, 2013, 第 1 作者
（23） Learning Affine Robust Binary Codes Based on Locality Preserving Hash, the International Conference on MultiMedia Modeling(MMM)，Huangshan，China，2013, 2013, 第 2 作者
（24） Robust common visual pattern discovery using graph matching, JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION, 2013, 第 3 作者
（25） Geometric context- Preserving Progressive Transmission in Mobile Visual Search, ACM MM （International Conference on Multimedia）, 2012, 第 1 作者
（26） Visual Stem Mapping and Geometric Tense Coding for Augmented Visual Vocabulary, 2012 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2012, 通讯作者
（27） A Method for Detecting Salient Regions Using Integrated Features, ACM MM （International Conference on Multimedia）, 2012, 第 1 作者
（28） Efficient Approximate Nearest Neighbor Search with Integrated Binary Codes, the ACM Multimedia (MM)，Scottsdale，Arizona，USA，2011, 2011,
（29） LOCAL GEOMETRIC CONSISTENCY CONSTRAINT FOR IMAGE RETRIEVAL, 2011 18TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2011, 第 2 作者
（30） Efficient Feature Detection and Effective Post-Verification for Large Scale Near-Duplicate Image Search, IEEE TRANSACTIONS ON MULTIMEDIA, 2011, 第 2 作者
（31） Mining concise and distinctive affine-stable features for object detection in large corpus, INTERNATIONAL JOURNAL OF COMPUTER MATHEMATICS, 2011, 通讯作者
（32） GPU-BASED FAST SCALE INVARIANT INTEREST POINT DETECTOR, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010, 第 2 作者
（33） Affine Stable Characteristic based Sample Expansion for Object Detection, ICMR(原CIVR), 2010, 第 1 作者
（34）基于多特征匹配的视频拷贝检测算法, Video Copy Detection Based on Multiple Visual Feature Matching, 计算机辅助设计与图形学学报, 2010, 第 2 作者
（35）基于GPU的快速图像拷贝检测, GPU-Based Fast Image Copy Detection, 计算机辅助设计与图形学学报, 2010, 第 2 作者
（36） LOGO DETECTION BASED ON SPATIAL-SPECTRAL SALIENCY AND PARTIAL SPATIAL CONTEXT, ICME: 2009 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-3, 2009, 通讯作者
（37） Object-based Image Retrieval with Attention Analysis and Spatial Re-ranking, INTELLIGENT INFORMATION PROCESSING IV, 2008, 通讯作者
（38） Attention model based SIFT keypoints filtration for image retrieval, 7TH IEEE/ACIS INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE IN CONJUNCTION WITH 2ND IEEE/ACIS INTERNATIONAL WORKSHOP ON E-ACTIVITY, PROCEEDINGS, 2008, 通讯作者
（39）基于空间上下文的目标图像检索, Object-Based Image Retrieval Using Spatial Context, 计算机辅助设计与图形学学报, 2008, 第 1 作者
（40）图像检索中一种有效的SVM相关反馈算法, Efficient Relevance Feedback Scheme Based on SVM in Image Retrieval, 计算机辅助设计与图形学学报, 2007, 第 2 作者
（41）图像内容理解与检索技术, Image Content Understanding and Retrieval, 数字图书馆论坛, 2006, 第 1 作者

科研活动

科研项目

（ 1 ）移动视觉搜索关键技术研究(61271428), 负责人, 国家任务, 2013-01--2016-12
（ 2 ）面向海量图像高速拷贝检测的视觉指纹提取与匹配(61003163), 负责人, 国家任务, 2011-01--2011-12
（ 3 ） XXX 快速鲁棒视频检测技术研究, 负责人, 国家任务, 2013-06--2017-06
（ 4 ） XXX工程－视频分析与展现系统, 参与, 国家任务, 2010-12--2011-12
（ 5 ）国家973计划课题(2007CB311105), 参与, 国家任务, 2007-07--2011-08
（ 6 ）北京市科委重点研究规划课题--基于多模态类脑强化学习的微视频内容理解技术研究, 负责人, 地方任务, 2017-01--2018-12
（ 7 ）基于深度聚焦的XX视频图像内容检测与识别, 负责人, 国家任务, 2018-02--2021-12
（ 8 ）真伪商品智能鉴定技术, 负责人, 境内委托项目, 2019-04--2020-05
（ 9 ）阿里巴巴AIR国际创新研究计划--基于神经辐射场的视频内容理解与生成, 负责人, 境内委托项目, 2022-01--2022-12
（ 10 ）阿里巴巴AIR国际创新研究计划--面向视频密集描述与应用的多模态大模型, 负责人, 境内委托项目, 2023-01--2023-12

指导学生

已指导学生

王永杰硕士研究生 085212-软件工程

陈潇凯硕士研究生 081203-计算机应用技术

董嘉蓉硕士研究生 081203-计算机应用技术

周家豪硕士研究生 081202-计算机软件与理论

王万能硕士研究生 081203-计算机应用技术

马雅楠硕士研究生 085211-计算机技术