基本信息


张堃博  副研究员 硕导
中国科学院自动化研究所
多模态人工智能系统全国重点实验室
模式识别北京市重点实验室


电子邮件: kunbo.zhang@ia.ac.cn
通信地址: 北京市海淀区中关村东路95号智能化大厦1509
邮政编码: 100190

招贤纳士

以科技创新突破和重大应用需求为导向,借助更全面信息在更高维度认识世界和改造世界。

欢迎有意向的本科生、研究生、实习生、工程师和博士后积极联系,已指导和联合指导博士和硕士研究生13名,主持国内外50余项超3亿元智能技术与智能系统项目,应用部署于世界四大洲。

已发表论文40余篇,近五年发表SCI/EI/中文核心论文35篇(SCI 1区12篇),共申请发明和PCT专利39项(授权发明专利17项、PCT专利2项),取得软件著作权11项,参与制定已颁布6项国家标准。

个人主页      研究成果与应用展示


研究方向

围绕模式识别与智能系统、计算机视觉、人工智能技术应用等方向,突破核心技术,构建系统性解决方案满足国计民生重大需求。主要包括:

1. 安全可信的人工智能  (Trustworthy AI)——针对信息获取、信息处理和人机交互造成的高纬认知瓶颈,探索物理与数据协同的感知交互机理,实现安全可信的多模态世界观测与建模。

2. 生物医学交叉研究  (AI4Science)——基于多模态无标记影像技术,建立多维多模态生物信息空间表型,在肿瘤诊疗、药物开发、基础科研等领域的多种场景提供软硬件一体的通用型智能装备。(多维多模态生物医学图像预处理和编码表征,肺、肝、乳腺、胆管、耳鼻喉、类器官、毒理等应用场景的诊断分析)

3. 智能系统应用  (AI Applications)——科研诚信、智能制造等领域的应用。


招生专业

081104-模式识别与智能系统 


招生方向

计算机视觉、医学影像分析,智能系统应用

教育和工作经历

教育经历:

2006-09--2011-06   State University of New York at Stony Brook   硕士、博士
2002-09--2006-06   北京理工大学   学士

工作经历
2016-06~现在, 中国科学院自动化研究所,多模态人工智能系统全国重点实验室,模式识别北京市重点实验室, 博士后(合作导师:谭铁牛院士)、助理研究员、副研究员
2011-09~2016-04,Nexteer Automotive, Michigan, U.S.(原通用汽车), 高级研发工程师
社会兼职
2025-11-02-今,中国图象图形学会, 企业联络与标准化工作委员会秘书长
2019-10-20-今,中国图象图形学会, 机器视觉专委会委员、视觉大数据专委会委员
2016-06-12-今,天津中科智能识别有限公司(原天津中科智能识别产业技术研究院), 副总经理,副院长

奖励与专利

天津市科学技术进步二等奖(2025,排名第一)

天津市滨海新区科技创新领军人才(2024)

CASC科技进步一等奖(2024)

威力Wiley中国高贡献作者奖(2024)

天津市留学人员科技活动启动项目择优资助—优秀类(2018)

北京市优秀毕业生(2006)

奖励信息
(1) 国际生物特征大会最佳会议论文第二名, 其他, 2020
专利成果
( 1 ) 活体虹膜检测方法、装置、电子设备和存储介质, 发明专利, 2024, 第 2 作者, 专利号: CN117935342A

( 2 ) 步态分类方法、装置及电子设备, 发明专利, 2023, 第 3 作者, 专利号: CN116486436A

( 3 ) 基于双目液体透镜的视线估计方法、设备和存储介质, 发明专利, 2023, 第 1 作者, 专利号: CN116594172A

( 4 ) 一种视线估计装置和视线估计方法, 发明专利, 2023, 第 1 作者, 专利号: CN116483196A

( 5 ) 行为识别方法及装置, 发明专利, 2023, 第 2 作者, 专利号: CN115966017A

( 6 ) 偏振图像生成方法、装置、电子设备和可读存储介质, 发明专利, 2022, 第 1 作者, 专利号: CN115424327A

( 7 ) 一种基于偏振成像的人脸活体检测方法, 发明专利, 2020, 第 1 作者, 专利号: CN111539348A

( 8 ) 多目标人群的虹膜图像获取装置与方法, 发明专利, 2023, 第 2 作者, 专利号: CN112395949B

( 9 ) 基于模板自适应匹配瓶体标签的缺陷检测方法, 发明专利, 2022, 第 1 作者, 专利号: CN113537301B

出版信息

发表论文

  1.  Exploring Near-infrared Iris Image Sequences for High Throughput Iris Recognition, IEEE Transactions on Information Forensics and Security ,2025,第3作者. 

  2. Open-Vocabulary Text-Driven Human Image Generation (May, 10.1007/s11263-024-02079-7, 2024), INTERNATIONAL JOURNAL OF COMPUTER VISION, 2025, 第 4 作者  通讯作者

  3. 基于拆分联邦学习的元宇宙视线交互中的隐私主动保护方法研究, 计算机科学, 2025, 第 5 作者  通讯作者

  4. 基于深度学习的人脸属性编辑研究概述, 计算机应用与软件, 2025, 第 4 作者

  5. Text-Driven 3D Human Generation via 2D Image Collections, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024), 第3作者 通讯作者

  6. Cross-Optical Property Image Translation for Face Anti-Spoofing: From Visible to Polarization, IEEE Transactions on Information Forensics and Security, 2024, 第 2 作者  通讯作者

  7. A comprehensive research on light field imaging: Theory and application, IET Computer Vision, 2024, 第 5 作者  通讯作者(2024年第四季度威立Wiley中国高贡献作者奖)

  8. 三维人脸成像及重建技术综述, 中国图象图形学报, 2024, 第 2 作者

  9. CASIA-iris-africa: A large-scale african iris image database, Machine Intelligence Research, 2024, 第 4 作者

  10. Boosting multi-modal ocular recognition via spatial feature reconstruction and unsupervised image quality estimation, Machine Intelligence Research, 2024, 第 3 作者

  11. Polarized Image Translation From Nonpolarized Cameras for Multimodal Face Anti-Spoofing, IEEE Transactions on Information Forensics and Security, 2023, 第 3 作者  通讯作者

  12. AIF-LFNet: All-in-Focus Light Field Super-Resolution Method Considering the Depth-Varying Defocus, IEEE Transactions on Circuits and Systems for Video Technology, 2023, 第 5 作者

  13. Multiscale Dynamic Graph Representation for Biometric Recognition With Occlusions, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 第 4 作者

  14. Sensing micro-motion human patterns using multimodal mmradar and video signal for affective and psychological intelligence, Proceedings of the 31st ACM International Conference on Multimedia, 2023, 第 5 作者

  15. Pose-appearance relational modeling for video action recognition, IEEE Transactions on Image Processing, 2022, 第 3 作者

  16. A novel deep-learning pipeline for light field image based material recognition, 2020 25th International Conference on Pattern Recognition (ICPR), 2021, 第 2 作者

  17. High-fidelity view synthesis for light field imaging with extended pseudo 4DCNN, IEEE Transactions on Computational Imaging, 2020, 第 3 作者

  18. All-in-focus iris camera with a great capture volume, 2020 IEEE International Joint Conference on Biometrics (IJCB), 2020, 第 1 作者(Google Best Paper Runner-up 最佳论文第二名)

  19. LFNet: A Novel Bidirectional Recurrent Convolutional Neural Network for Light-Field Image Super-Resolution, IEEE TRANSACTIONS ON IMAGE  PROCESSING, 2018, 第 3 作者 


参与制定标准

[1] GB/T 40660-2021 《信息安全技术 生物特征识别信息保护基本要求》

[2] GB/T 41819-2022 《信息安全技术 人脸识别数据安全要求》

[3] GB/T 41871-2022 《信息安全技术 汽车数据处理安全要求》

[4] GB/T 41988-2022 《公共安全 虹膜识别应用 图像技术要求》

[5] GB/T 41990-2022 《公共安全 虹膜识别应用 采集设备》

[6] GB/T 41989-2022 《公共安全 虹膜识别应用算法评测方法》

发表论文
(1) Open-Vocabulary Text-Driven Human Image Generation (May, 10.1007/s11263-024-02079-7, 2024), INTERNATIONAL JOURNAL OF COMPUTER VISION, 2025, 第 4 作者  通讯作者
(2) 基于拆分联邦学习的元宇宙视线交互中的隐私主动保护方法研究, 计算机科学, 2025, 第 5 作者  通讯作者
(3) 基于深度学习的人脸属性编辑研究概述, 计算机应用与软件, 2025, 第 4 作者
(4) Exploring Near-infrared Iris Image Sequences for High Throughput Iris Recognition, IEEE Transactions on Information Forensics and Security, 2025, 第 3 作者
(5) Open-Vocabulary Text-Driven Human Image Generation, INTERNATIONAL JOURNAL OF COMPUTER VISION, 2024, 第 4 作者
(6) Cross-Optical Property Image Translation for Face Anti-Spoofing: From Visible to Polarization, IEEE Transactions on Information Forensics and Security, 2024, 第 2 作者  通讯作者
(7) A comprehensive research on light field imaging: Theory and application, IET Computer Vision, 2024, 第 5 作者  通讯作者
(8) 三维人脸成像及重建技术综述, 中国图象图形学报, 2024, 第 2 作者
(9) CASIA-iris-africa: A large-scale african iris image database, Machine Intelligence Research, 2024, 第 4 作者
(10) Boosting multi-modal ocular recognition via spatial feature reconstruction and unsupervised image quality estimation, Machine Intelligence Research, 2024, 第 3 作者
(11) Polarized Image Translation From Nonpolarized Cameras for Multimodal Face Anti-Spoofing, IEEE Transactions on Information Forensics and Security, 2023, 第 3 作者  通讯作者
(12) GB/T 41989-2022《公共安全 虹膜识别应用 算法评测方法》标准释义, 中国安全防范技术与应用, 2023, 第 2 作者
(13) AIF-LFNet: All-in-Focus Light Field Super-Resolution Method Considering the Depth-Varying Defocus, IEEE Transactions on Circuits and Systems for Video Technology, 2023, 第 5 作者
(14) Multiscale Dynamic Graph Representation for Biometric Recognition With Occlusions, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 第 4 作者
(15) Sensing micro-motion human patterns using multimodal mmradar and video signal for affective and psychological intelligence, Proceedings of the 31st ACM International Conference on Multimedia, 2023, 第 5 作者
(16) Pose-appearance relational modeling for video action recognition, IEEE Transactions on Image Processing, 2022, 第 3 作者
(17) A novel deep-learning pipeline for light field image based material recognition, 2020 25th International Conference on Pattern Recognition (ICPR), 2021, 第 2 作者
(18) High-fidelity view synthesis for light field imaging with extended pseudo 4DCNN, IEEE Transactions on Computational Imaging, 2020, 第 3 作者
(19) All-in-focus iris camera with a great capture volume, 2020 IEEE International Joint Conference on Biometrics (IJCB), 2020, 第 1 作者
(20) LFNet: A Novel Bidirectional Recurrent Convolutional Neural Network for Light-Field Image Super-Resolution, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2018, 第 3 作者

合作情况

主要合作对象包括在工业、医学、科技、安全领域的科技部、公安部三所、中信所、电子四院、航天科技、中电科、中海油、蚂蚁数科、301、清华长庚、上海胸科、飞秒科技等数十家头部单位,以及北京理工大学、北京邮电大学、天津大学等科研院所。