基本信息

周宇

研究员、博士生导师

中国科学院信息工程研究所

第六研究室


InTime组负责人

InTime:INterpret Text In MEdia

InTime:文附图,一图胜千言;景嵌字,数字藏万象


研究方向为计算机视觉、多模态人工智能、深度学习与人工智能安全,专注于:

1)可视文字处理、提取与理解

(Visual Text,含场景/文档图像文字等)

2)多模态大模型与内容生成等

3)自监督、增量与对抗学习等


电子邮箱:zhouyu@iie.ac.cn

DBLP & Google Scholar


教育经历

2009.12,哈尔滨工业大学,学士、硕士、博士


工作经历

2012.03,上海交通大学,博士后

2012.04至今,中国科学院信息工程研究所,助理研究员、副研究员、硕士生导师、博士生导师、研究员

最新主页

本人将于近期加入南开大学计算机学院/网络空间安全学院。实时维护主页变更为:https://intimelab.github.io

学术论文

可视文字     自监督学习     增量检测     其他工作     

2024

  1. Y Zhang, C Liu, Y Zhou*, W Wang, Q Ye, X Ji. "Beyond Instance Discrimination: Relation-aware Contrastive Self-supervised Learning." TMM, 2024. (SCI一区CCF-BPDF)
  2. X Yang, D Yang, Z Qiao, Y Zhou. "Accurate and Robust Scene Text Recognition via Adversarial Training." ICASSP, 2024. (CCF-B, PDF)

  3. X Yang, Z Qiao, J Wei, D Yang, Y Zhou*. "Masked and Permuted Implicit Context Learning for Scene Text Recognition." IEEE SPL, 2024. (CCF-C, SCIPDF)

  4. Y Shu, W Zeng, Z Li, F Zhao, Y Zhou*. "Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing." arXiv, 2024. (PDF)

  5. J Lyu, J Wei, G Zeng, Z Li, E Xie, W Wang, Y Zhou*. "TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model." arXiv, 2024. (PDF)

2023

  1. 张言,李强,申化文,曾港艳,周宇*,马灿,张远,王伟平. "以文字为中心的图像理解技术综述." 中国图象图形学报, 2023. (PDF)
  2. B Fang, W Wu, C Liu, Y Zhou*, M Yang, Y Song, F Li, W Wang, X Ji, W Ouyang. "UATVR: Uncertainty-adaptive Text-Video Retrieval." ICCV, 2023. (CCF-APDF)
  3. H Shen, X Gao, J Wei, L Qiao, Y Zhou*, Q Li, Z Cheng. "Divide Rows and Conquer Cells: Towards Structure Recognition for Large Tables." IJCAI, 2023. (CCF-A, Oral Presentation, Acceptance Rate 15.0%, PDF
  4. D Yang, Y Zhou*, X Hong, A Zhang, W Wang. "One-shot Replay: Boosting Incremental Object Detection via Retrospecting One Object." AAAI, 2023. (CCF-AOral Presentation, Acceptance Rate 约11.0%PDF)
  5. X Qin, P Lyu, C Zhang, Y Zhou*, K Yao, P Zhang, H Lin, W Wang. "Towards Robust Real-time Scene Text Detection: From Semantic to Instance Representation Learning." ACM MM, 2023. (CCF-AOral Presentation, PDF)
  6. Y Shu, W Wang, Y Zhou*, S Liu, A Zhang, D Yang, W Wang. "Perceiving Ambiguity and Semantics without Recognition: An Efficient and Effective Ambiguous Scene Text Detector." ACM MM, 2023. (CCF-AOral Presentation, PDF)
  7. G Zeng, Y Zhang, Y Zhou*, B Fang, G Zhao, X Wei, W Wang. "Filling in the Blank: Rationale-augmented Prompt Tuning for TextVQA." ACM MM, 2023. (CCF-AOral Presentation, PDF)
  8. D Yang, Y Zhou*, X Hong, A Zhang, X Wei, L Zeng, Z Qiao, W Wang. "Pseudo Object Replay and Mining for Incremental Object Detection." ACM MM, 2023. (CCF-A, Oral Presentation, PDF)
  9. G Zeng, Y Zhang, Y Zhou*, X Yang, N Jiang, G Zhao, W Wang, XC Yin. "Beyond OCR + VQA: Towards End-to-end Reading and Reasoning for Robust and Accurate TextVQA." PR, 2023. (SCI一区CCF-BPDF)
  10. C Liu, Y Yao, D Luo, Y Zhou, Q Ye. "Self-supervised Motion Perception for Spatio-temporal Representation Learning." TNNLS, 2023. (SCI一区, CCF-B, PDF)
  11. X Yang, D Yang, Y Zhou, Y Guo, W Wang. "Mask-guided Stamp Erasure for Real Document Image." ICME, 2023. (CCF-B, PDF)
  12. Y Shu, S Liu, Y Zhou, H Xu, F Jiang. "EI2SR: Learning an Enhanced Intra-instance Semantic Relationship for Arbitrary-shaped Scene Text Detection." ICASSP, 2023. (CCF-BPDF)
  13. X Sun, J Lyu, Y Zhang, G Zeng, B Fang, Y Zhou*, E Xie, C Ma. "Feature Enhancement with Text-specific Region Contrast for Scene Text Detection." PRCV, 2023. (CCF-C, Oral Presentation, Acceptance Rate 2.3%, PDF)
  14. X Yang, Z Qiao, Y Zhou*, W Wang. "IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition." arXiv, 2023. (PDF)

2022

  1. 周宇*,吕嘉昊,申化文,王威,魏谨,曾港艳,曾维超,王伟平. "从检测、识别到理解:场景文字相关领域研究进展." 中国自动化学会模式识别与机器智能专委会通讯特约专栏, 2022. (链接)
  2. B Fang, W Wu, C Liu, Y Zhou*, D He, W Wang. "MaMiCo: Macro-to-micro Semantic Correspondence for Self-supervised Video Representation Learning." ACM MM, 2022. (CCF-AOral Presentation, Acceptance Rate 5.0%PDF)
  3. W Wang, Y Zhou*, J Lv, D Wu, G Zhao, N Jiang, W Wang. "TPSNet: Reverse Thinking of Thin Plate Splines for Arbitrary Shape Scene Text Representation." ACM MM, 2022. (CCF-APDF)
  4. J Wei, Y Zhang, Y Zhou*, G Zeng, Z Qiao, Y Guo, H Wu, H Wang, W Wang. "TextBlock: Towards Scene Text Spotting without Fine-grained Detection." ACM MM, 2022. (CCF-APDF)
  5. X Chen, Y Zhou, D Wu, W Zhang, Y Zhou, B Li, W Wang. "Imagine by Reasoning: A Reasoning-based Implicit Semantic Data Augmentation for Long-tailed Classification." AAAI, 2022. (CCF-APDF)
  6. D Yang, Y Zhou*, A Zhang, X Sun, D Wu, W Wang, Q Ye. "Multi-view Correlation Distillation for Incremental Object Detection." PR, 2022. (SCI一区CCF-BPDF)
  7. Y Zhou, X Li, Y Zhou, Y Wang, Q Hu, W Wang. "Deep Collaborative Multi-task Network: A Human Decision Process Inspired Model for Hierarchical Image Classification." PR, 2022. (SCI一区CCF-BPDF)
  8. D Yang, Y Zhou*, W Shi, D Wu, W Wang. "RD-IOD: Two-level Residual-distillation-based Triple Network for Incremental Object Detection." TOMM, 2022. (SCI一区CCF-BPDF)
  9. D Luo, Y Zhou*, B Fang, Y Zhou, D Wu, W Wang. "Exploring Relations in Untrimmed Videos for Self-supervised Learning." TOMM, 2022. (SCI一区CCF-BPDF)
  10. Y Guo, Y Zhou*, X Qin, E Xie, W Wang. "UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection." ICME, 2022. (CCF-BOral PresentationPDF)
  11. C Fang, G Zeng, Y Zhou*, D Wu, C Ma, D Hu, W Wang."Towards Escaping from Language Bias and OCR Error: Semantics-centered Text Visual Question Answering." ICME, 2022. (CCF-BPDF)
  12. W Li, D Luo, B Fang, X Li, Y Zhou*, W Wang. "Video Motion Perception for Self-supervised Representation Learning." ICANN, 2022. (CCF-CPDF)

2021

  1. Z Qiao, Y Zhou*, J Wei, W Wang, Y Zhang, N Jiang, H Wang, W Wang. "PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition." ACM MM, 2021. (CCF-ABest Paper Candidate [5/1942=2.5‰]PDF)
  2. G Zeng, Y Zhang, Y Zhou*, X Yang. "Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA." ACM MM, 2021. (CCF-AOral PresentationAcceptance Rate 9.2%PDF)
  3. X Li, Y Zhou*, Y Zhang, A Zhang, W Wang, N Jiang, H Wu, W Wang. "Dense Semantic Contrast for Self-supervised Visual Representation Learning." ACM MM, 2021. (CCF-AOral PresentationAcceptance Rate 9.2%PDF)
  4. X Qin, Y Zhou*, Y Guo, D Wu, Z Tian, N Jiang, H Wang, W Wang. "Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-shaped Scene Text Detection." ACM MM, 2021. (CCF-APDF)
  5. W Zhang, D Wu, Y Zhou, B Li, W Wang, D Meng. "Binary Neural Network Hashing for Image Retrieval." SIGIR, 2021. (CCF-APDF)
  6. X Qin, Y Zhou*, Y Guo, D Wu, W Wang. "FC2RN: A Fully Convolutional Corner Refinement Network for Accurate Multi-oriented Scene Text Detection." ICASSP, 2021. (CCF-BPDF)
  7. G Zeng, Y Zhang, Y Zhou*, X Yang. "A Cost-efficient Framework for Scene Text Detection in the Wild." PRICAI, 2021. (CCF-CPDF)
  8. Y Guo, Y Zhou*, X Qin, W Wang. "Which and Where to Focus: A Simple yet Accurate Framework for Arbitrary-shaped Nearby Text Detection in Scene Images." ICANN, 2021. (CCF-CPDF)
  9. X Li, Y Zhou, Y Zhou, W Wang. "MMF: Multi-task Multi-structure Fusion for Hierarchical Image Classification." ICANN, 2021. (CCF-CPDF)
  10. H Li, Y Guo, Y Zhou*, W Wang. "Density-Net: A Density-aware Network for 3D Object Detection." ICTAI, 2021. (CCF-CPDF)
2020
  1. Z Qiao, Y Zhou*, D Yang, Y Zhou, W Wang. "SEED: Semantics Enhanced Encoder-decoder Framework for Scene Text Recognition." CVPR, 2020. (CCF-A, Acceptance Rate 22%, 229 CitationsPDF)
  2. Y Yao, C Liu, D Luo, Y Zhou, Q Ye. "Video Playback Rate Perception for Self-supervised Spatio-temporal Representation Learning." CVPR, 2020. (CCF-A, Acceptance Rate 22%, 180 CitationsPDF)
  3. D Luo, C Liu, Y Zhou*, D Yang, C Ma, Q Ye, W Wang. "Video Cloze Procedure for Self-supervised  Spatio-temporal Learning." AAAI, 2020. (CCF-AOral Presentation, Acceptance Rate 5.8%, 161 CitationsPDF)
  4. W Zhang, D Wu, Y Zhou, B Li, W Wang, D Meng. "Deep Unsupervised Hybrid-similarity Hadamard Hashing." ACM MM, 2020. (CCF-APDF)
  5. S Zhao, D Wu, W Zhang, Y Zhou, B Li, W Wang. "Asymmetric Deep Hashing for Efficient Hash Code Compression." ACM MM, 2020. (CCF-APDF)
  6. Y Chen, W Wang, Y Zhou*, F Yang, D Yang, W Wang. "Self-training for Domain Adaptive Scene Text Detection." ICPR, 2020. (CCF-C, Oral Presentation, Acceptance Rate 4.4%PDF)
  7. Z Qiao, X Qin, Y Zhou*, F Yang, W Wang. "Gaussian Constrained Attention Network for Scene Text Recognition." ICPR, 2020. (CCF-C, PDF)
  8. Y Zhang, C Liu, Y Zhou*, W Wang, W Wang, Q Ye. "Progressive Cluster Purification for Unsupervised Feature Learning." ICPR, 2020. (CCF-CPDF)
  9. Y Zhou, Y Wang, J Cai, Y Zhou, Q Hu, W Wang. "Expert Training: Task Hardness Aware Meta-learning for Few-shot Classification." arXiv preprint, 2020. (PDF)
2019&Pre,参见DBLP & Google Scholar

竞赛奖项

  1. ACM MM 2021, Best Paper Candidate, 5篇/1942篇, 2021
  2. ICDAR ReST 2023,印章主体文字检测,第三名,2023
  3. 中国图象图形学学会CSIG 2022票据识别与分析挑战赛,冠军,2022
  4. 首届粤港澳大湾区(黄埔)国际算法算例大赛-街景图像店面招牌文字识别,三等奖,2022
  5. CVPR DocVQA 2020,任务一第三名,2020
  6. 中国人工智能·多媒体信息识别技术竞赛,手写/印刷文本OCR两项高校组冠军,2019
  7. ICDAR ReCTS 2019,“字符识别”、“端到端识别”高校组第三名,2019
  8. CVPR SkelNetOn 2019,1项第二名,2019
  9. ACCV IWRR 2014 最佳论文奖,2014 

专利软著

发明专利

  1. 基于对抗训练的场景文字识别方法及装置,2024,受理号:202410434598.9
  2. 基于提示学习的生成式文本视觉问答方法机系统,2023,受理号:202311267037.6
  3. 基于对比学习特征增强的场景文字检测方法及装置,2023,受理号:202311298617.1
  4. 基于伪目标重放与挖掘的增量目标检测方法及装置,2023,受理号:202311216027.X
  5. 基于Transformer 的逐行扫描的表格结构识别方法及系统,2023,受理号:202311025547.2
  6. 基于掩模引导的去除印章噪声的图像生成方法及系统,2023,受理号:202310733846.5
  7. 基于单目标重放的增量目标检测方法及装置,2023,受理号:202310102438.X
  8. 无需细粒度检测的场景文本提取方法、系统,2022,受理号:202211233226.7
  9. 基于宏观到微观语义关联对比的视频自监督表征学习方法, 2022, 受理号:202211237958.3
  10. 面向场景文本检测的文本检测器训练方法及文本检测方法, 2022, 受理号:202210492865.9
  11. 一种成本高效的场景文字检测方法及系统, 2021, 受理号: 202111295077.2
  12. 单阶段3D点云目标检测方法及装置、计算机设备、介质, 2021, 受理号:202111271651.0
  13. 基于并行迭代模仿解码的场景文字识别系统及方法, 2021, 受理号:202111026162.9
  14. 文本视觉问答方法和装置, 2021, 专利号:2021 1 1186856.9
  15. 基于多层感知机掩膜解码器的文字检测系统及方法, 2021, 受理号:202111034219.X
  16. 一种面向场景图像中任意形状邻近文本的检测系统及方法, 2021, 受理号:202111004566.8
  17. 一种基于密集语义对比的自监督视觉模型预训练方法, 2021, 受理号:202110988818.9
  18. 基于全卷积角点修正网络的多向场景文字检测方法及装置, 2021, 专利号:ZL 2021 1 0235490.3
  19. 基于语义强化编码器解码器框架的场景文字识别方法,2020,专利号:ZL 2020 1 0416704.2
  20. 一种基于自训练的文本检测器训练方法及系统,2020,专利号:ZL 2020 1 0428815.5
  21. 基于高斯约束注意力机制网络的场景文字识别方法及系统,2020,专利号:ZL 2020 1 0767079.6
  22. 基于完形填空任务的视频自监督学习方法,2019,专利号:ZL 2019 1 1348018.X
  23. 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器,2019,专利号:ZL 2019 1 0614874.9
  24. 基于特征压缩与特征选择的歪斜场景文字识别方法, 2015, 专利号:ZL 2015 1 0014950.4
  25. 一种基于三分类器协同训练学习的网络协议识别方法及系统, 2014, 专利号: ZL 2014 1 0575510.1
  26. 基于直方图和超像素的场景图像文字检测方法及系统, 2014, 专利号: ZL 2014 1 0168244.0
  27. 一种基于语义敏感的网络协议识别方法及系统, 2014, 专利号:ZL 2014 1 0652834.0
  28. 一种未知网络协议识别方法及系统, 2013, 专利号: ZL 2013 1 0189079.2
  29. 一种用户隐私信息保护方法及系统, 2013, 专利号: ZL 2013 1 0722437.1

软件著作权

  1. 基于数据手套的中国手语识别软件系统,2009,软著登记号:2009SR02392

科研项目

  • 视听内容理解与关联技术,主持,国家重点研发计划课题,2022.12-2025.11
  • 视觉与语义融合的场景文字检测与识别技术研究,主持,国家自然科学基金面上项目,2024.01-2027.12
  • 印章识别及通用文字识别,主持,企业横向项目,2022.07-2024.06
  • 场景文字检测识别引擎,主持,国家广电总局项目,2022.01-2023.12
  • 关于印章处理和小字体识别的OCR研究,主持,企业横向项目,2021.04-2022.10
  • 面向媒体融合与传播的富媒体信息智能提取技术,主持,国家重点实验室开放课题,2020.08-2021.07
  • 多媒体数据分析系统,主持,某部委工程建设项目,2018.09-2019.08
  • 实时数据检测分析系统, 主持, 国家重点研发计划子课题, 2017.10-2020.09
  • 基于云化平台的仿冒网站检测微引擎技术研究, 联合主持, 某部委预研项目, 2014.06-2017.06
  • 基于多示例学习和半监督学习的手势语识别研究, 主持, 国家自然科学基金青年基金项目, 2014.01-2016.12
  • 多媒体内容取证方法研究, 参与, 国家自然科学基金重点项目, 2013.01-2016.12
  • 海量信息分析系统, 参与, 某部委第一个自主建设重大工程, 2014.06-2016.06
  • 文字图像中特定光学字符的快速检测方法研究, 主持, 中科院信工所自主部署课题, 2013.06-2014.06
  • 面向复杂动态背景和可变环境的多模态手势语识别研究, 主持, 中国博士后科学基金, 2011.06-2012.06

学术服务

学术报告

  • 2023年10月13日,“视觉与语义融合的场景文字检测、识别与理解技术”,CSIG文档图像分析与识别专委会2023年学术年会

  • 2023年03月09日,“场景文字检测、识别与理解技术研究”,信息科学与技术前沿课,中国传媒大学

  • 2022年09月30日,“场景文字表示与提取技术研究”,图像智能分析与应用国际学术研讨会,西北民族大学

  • 2022年06月16日,“场景文字检测、识别与理解技术研究”,企业交流报告

  • 2022年04月24日,“低质量场景文字识别技术研究”,中国图象图形学学会“OCR学术前沿及产业应用”高峰论坛(报告视频),在线观众峰值8000余人

专委会

  • 中国图象图形学学会文档图像分析与识别专委会,委员
评审咨询
  • 国家自然科学基金委,项目评审专家
  • 国家广播电视总局,项目评审专家

会议

  • Area Chair: ICME-24, ICME-23, ICME-22, ICME-21, PRCV-24
  • SPC Member: IJCAI-21, ICDAR-24
  • PC Member: CVPR-24/23/22/21, ICCV-23/21, ECCV-24/22, NeurIPS-23, ICLR-24, ICML-24, AAAI-24/23/22/21, IJCAI-24/23/22, ACM MM-24/23/22/21, ICDAR-23/21,  ICPR-24/20, ChinaMM-21, ...
  • Session Chair: ICME-21, TrustCom-14

期刊

  • Reviewer: IEEE TIP/TMM/TCSVT/TITS/MM, ACM TOMM, PR, CVIU, IJPRAI ...
  • 审稿人:JCST、计算机学报、中国图象图形学报

课程

  • 2021年夏季学期,人工智能安全

  • 2024年春季学期,文献阅读

学生指导

*含与王伟平研究员、马灿研究员、中国传媒大学张远教授、哈尔滨工业大学刘绍辉教授联合指导学生

*CCF-A     、SCI一区     、CCF-B     

*在读-斜体

  1. 杨东宝,2020级博士生(在职),发表期刊会议论文近20篇(含一作AAAI Oral、ACM MM OralPRTOMM等),中科院信工所助理研究员
  2. 秦绪功,2017级博士生,一作ACM MM-23 Oral、ACM MM-21、ICASSP-21、ICDAR-19,优秀毕业生,入职南理工(教职)
  3. 陈语地,2017级硕士生,一作ICPR-20、PRICAI-19,3项国内外竞赛前三名,入职抖音
  4. 张宜飞,2018级硕博生,一作TMM-24、ICPR-20,在读
  5. ,2018级硕士生,一作ACM MM-21 Best Paper Candidate、CVPR-20、ICPR-20,院长奖提名、国奖、优秀毕业生,入职好未来(SSP Offer)
  6. 罗德昭,2018级硕士生,一作AAAI-20 Oral、TOMM-22,国奖、所长特别奖、优秀毕业生,QMUL龚少刚教授博士生
  7. 李晓倪,2019级硕士生,一作ACM MM-21 Oral、PR-22、ICANN-21,三好学生标兵,入职北京银行
  8. 过友辉,2019级硕士生,一作ICME-22、ICANN-21,入职科大讯飞(飞星计划
  9. 曾港艳,2020级博士生,一作ACM MM-21 Oral、ACM MM-23 Oral、PR-23、PRICAI-21,入职南理工(教职)
  10. ,2020级硕士生,一作ACM MM-22,CSIG 2022票据识别与分析挑战赛冠军,国奖,第二届中国图象图形学报研究生学术论坛优秀报告,入职上海人工智能实验室
  11. 2020级硕士生,一作ICCV-23、ACM MM-22 Oral,国奖,香港城市大学博士生
  12. 2020级硕士生,一作ACM MM-22,入职联想研究院
  13. 杨欣烨,2020级硕士生,一作ICME-23,入职中科院软件所
  14. ,2020级硕士生,一作ICANN-22,入职重庆赛力斯技术有限公司
  15. 申化文,2021级硕博生,一作IJCAI-23 Oral,CSIG 2022票据识别与分析挑战赛冠军,在读
  16. ,2021级硕士生,一作ACM MM-23 Oral、ICASSP-23,多伦多大学博士生