基本信息
徐波  男  博导  中国科学院自动化研究所
电子邮件: xubo@ia.ac.cn
通信地址: 北京市海淀区中关村东路95号自动化大厦807房间
邮政编码: 100190

研究领域

​语音识别与合成;自然语言处理;类脑认知计算模型;博弈智能等

招生信息

   
招生专业
081104-模式识别与智能系统
081203-计算机应用技术
招生方向
类脑认知计算模型
群体智能与博弈对抗
语音识别与合成,自然语言处理与应用

教育背景

1990-09--1997-06   中国科学院自动化研究所   硕士博士
1984-09--1988-06   浙江大学   本科
学历
中国科学院自动化研究所         博士毕业
学位
19886月毕业于浙江大学电机工程系并获学士学位;
19924月获中国科学院自动化所硕士学位;
19977月获中国科学院自动化所博士学位。

工作经历

   
工作简历

  徐波,博士,研究员。任中科院自动化研究所所长,中国科学院人工智能创新研究院院长,中国科学院大学人工智能学院院长,兼任国家新一代人工智能战略咨询委员会委员,中科院脑科学与智能技术卓越创新中心副主任,北京市脑科学专项专家组成员,中国人工智能产业发展联盟副理事长等职,长期从事智能语音处理和人工智能技术研究和应用。1998-2003年任模式识别国家重点实验室副主任;2001年至2006年担任国际口语信息处理学会中文口语信息处理分会主席,并任中国中文信息学会副理事长至今;2004.72011.7担任国家863计划信息技术领域专家组专家; 2008年在新加坡建立中新数字媒体研究院并担任院长,开展人类跨语言沟通技术研究。由于在汉语声学模型和识别、大规模口语发音评测技术、媒体内容识别与监测等创新性工作,获得过国际中文口语信息处理优秀论文一等奖、中国科学院杰出青年奖”、“王选新闻科技进步一等奖”等奖项。指导发表科技论文200余篇,申请发明专利40余项,软件著作权10余项,主持完成国家标准一个。2010年以来以口语对话翻译和机器人智能等背景,进行深度认知计算和类脑认知计算研究,从基本认知单元和任务多脑区协同等角度研究建立类脑智能计算模型。2001年起担任国际口语信息处理联合会中文口语信息处理分会主席;2004.72011.7担任国家863计划信息技术领域专家组专家;2006年开始担任中国中文信息学会副理事长,2018年开始担任国家新一代人工智能战略咨询委员会委员、中国人工智能产业发展联盟副理事长、中国科学院大学人工智能学院院长、中科院脑科学与智能技术卓越创新中心副主任等职位;分别获得过国际中文口语信息处理优秀论文一等奖、“中国科学院杰出青年奖”、“王选新闻科技进步一等奖”等奖项;主持多项国家支撑、863973以及自然科学基金项目重点项目,实现口语评估、口语识别和翻译等技术转移转化若干。

  近年来主要研究方向是类脑认知计算、语音识别与合成、自然语言处理与应用及群体智能与博弈对抗。人工智能已经上升到国家战略,被认为是第四次工业革命的重要引擎。视听觉和语言是人类的基本能力,也是人工智能皇冠上的明珠,极具挑战性。通过类脑机制研究视听觉感知和语言认知问题对于解决大多数人工智能具有重要价值。目前,如何借鉴大脑脉冲神经网络工作机制,研究探索神经动力学、机器学习以及博弈理论等相统一的智能产生机理和范式,如何借鉴大脑听觉处理机制,使得在极其嘈杂环境下达到类人语音听辩能力达到或者超越人类,即鸡尾酒效应问题。如何借鉴人类认知机制,研究基于博弈方法的智慧医疗领域等应用,是拟解决的重大科学问题或工程问题。由此应运而生的未来技术拟将产生超级听觉能力的语音前端系统,能集中顶尖医生智慧的超级医疗技术以及产生可人机共进的新一代人工智能。

社会兼职

  目前任中科院自动化研究所所长,中国科学院人工智能创新研究院院长,中国科学院大学人工智能学院院长,兼任国家新一代人工智能战略咨询委员会委员,中科院脑科学与智能技术卓越创新中心副主任,北京市脑科学专项专家组成员,中国人工智能产业发展联盟副理事长等职

教授课程

类脑智能导论

科研成果

近五年来,指导发表科技论文76篇,申请及授权发明专利22项,其中国际专利4项。目前承担包括中科院“脑功能联结图谱和类脑智能研究”先导B项目和北京市脑科学专项“大脑认知功能计算模型”在内的类脑智能研究项目。

先后获得过国际中文口语信息处理优秀论文一等奖、“中国科学院杰出青年奖”、“王选新闻科技进步一等奖”、政府特殊津贴、中国科学院杰出青年、新世纪百千万人才工程国家级人选、CIUR中国产学研合作创新奖等奖项。

先后担任国际口语信息处理学会中文口语信息处理分会主席,国家863计划信息技术领域专家组专家,并在在新加坡建立中新数字媒体研究院并担任院长。现任中国科学院自动化研究所所长,中国科学院大学人工智能学院院长,中国科学院脑科学与智能技术卓越创新中心副主任,北京市脑科学专项专家组成员,“新一代人工智能实施专家组组长”,国家新一代人工智能战略咨询委员会委员,国家广播电视总局媒体融合发展人才工程优秀专家学者成员。

    在科研方面,开展人类跨语言沟通技术研究,由于在汉语声学模型和识别、大规模口语发音评测技术、媒体内容识别与监测等创新性工作,近年来更是以口语对话翻译和机器人智能等背景,进行深度认知计算和类脑认知计算研究,从基本认知单元和多脑区协同等角度研究建立类脑智能计算模型。

发表论文
(1) Speaker-Conditional Chain Model for Speech Separation and Extraction, In Proceedings of the 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020, CCF-C), 2020, 第 5 作者
(2) A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party Environments, In Proceedings of the 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020, CCF-C), 2020, 通讯作者
(3) LISNN: Improving Spiking Neural Networks with Lateral Interactions for Robust Object Recognition, In Proceedings of the 29th International Joint Conference on Artificial Intelligence (IJCAI2020, CCF-A), 2020, 通讯作者
(4) DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog, In Proceedings of the 34th AAAI Conference on Artificial Intelligence (AAAI2020, CCF-A), 2020, 第 5 作者
(5) CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition, International Conference on Acoustic Speech and Signal Processing (ICASSP), 2020, 第 2 作者
(6) LOW-FREQUENCY GUIDED SELF-SUPERVISED LEARNING FOR HIGH-FIDELITY 3D FACE RECONSTRUCTION IN THE WILD, IEEE International Conference on Multimedia and Expo (ICME2020), 2020, 第 3 作者
(7) "A Biologically Plausible Supervised Learning Method for Spiking Neural Networks Using the Symmetric STDP Rule", neural networks, 2019, 第 4 作者
(8) Modelling Speaker-dependent Auditory Attention Using A Spiking Neural Network with Temporal Coding and Supervised Learning, ICONIP2019, 2019, 第 3 作者
(9) Effectively Training Neural Machine Translation with Monolingual Data, NeuroComputing, 2019, 第 4 作者
(10) The World in My Mind: Visual Dialog with Adversarial Multi-modal Feature Encoding, NAACL2019, 2019, 第 3 作者
(11) "A Unified Multi-output Semi-supervised Network for 3D Face Reconstruction", International Joint Conference on Neural Network (IJCNN), 2019, 第 4 作者
(12) Research Advances and Perspectives on the Cocktail Party Problem and Related Auditory Models, Acta Automatica Sinica, 2019, 第 4 作者
(13) "EFFICIENT AND ACCURATE FACE SHAPE RECONSTRUCTION BY FUSION OF MULTIPLE LANDMARK DATABASES", International Conference on Image Processing (ICIP), 2019, 第 4 作者
(14) Adapting Translation Models for Transcript Disfluency Detection, AAAI2019, 2019, 第 6 作者
(15) Concept Learning through Deep Reinforcement Learning with Memory-Augmented Neural Networks, Neural Networks, 2018, 2018, 第 2 作者
(16) Distant Supervision for Relation Extraction with Hierarchical Selective Attention., Neural Networks, 2018, 2018, 第 2 作者
(17) Cascaded Mutual Modulation for Visual Reasoning, In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP2018), 2018, 第 2 作者
(18) Learning to Activate Logic Rules for Textual Reasoning., Neural Networks, 2018, 2018, 第 2 作者
(19) Improving Speech Separation with Adversarial Network and Reinforcement Learning., In Proceedings of the 30th International Joint Conference on Neural Network (IJCNN2018), 2018, 第 2 作者
(20) Distilled Binary Neural Network for Monaural Speech Separation., In Proceedings of the 30th International Joint Conference on Neural Network (IJCNN2018), 2018, 第 2 作者
(21) Modeling Attention and Memory for Auditory Selection in a Cocktail Party Environment, AAAI 2018, 2018, 第 2 作者
(22) A Comparison of Modeling Units in Sequence-to-Sequence Speech Recognition with the Transformer on Mandarin Chinese.release, ICONIP2018, 2018, 第 4 作者
(23) Generative Adversarial Training in Neural Machine Translation, NeuroComputing, 2018, 第 4 作者
(24) SPEECH-TRANSFORMER: A No-Recurrence Sequence-to-Sequence Model for Speech Recognition, International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2018, 第 3 作者
(25) Exending Recurrent Neural Aligner for Streaming End-to-End Speech Recognition in Mandarin, Interspeech2018, 2018, 第 4 作者
(26) Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets, North American Chapter of the Association for Computational Lingustics(NAACL), 2018, 第 1 作者
(27) Syllable-Based Acoustic Modeling with CTC for Multi-Scenarios Mandarin speech recognition, IJCNN, 2018, 第 1 作者
(28) Unsupervised Neural Machine Translation with Weight Sharing, The Association for Computational Linguistics(ACL), 2018, 第 1 作者
(29) Self-Attention Based Network for Punctuation Restoration, International Comference on Pattern Recognition(ICPR), 2018, 第 1 作者
(30) Unsupervised Domain Adaptation for Neural Machine Translation, International Comference on Pattern Recognition(ICPR), 2018, 第 1 作者
(31) A Cascaded Framework For Model-Based 3D Face Reconstruction, International Conference on Acoustics, Speech and Signal Processing(ICASSP 2018), 2018, 第 1 作者
(32) CBLDNN-BASED SPEAKER-INDEPENDENT SPEECH SEPARATION VIA GENERATIVE ADVERSARIAL TRAINING, International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2018, 第 1 作者
(33) Recurrent Neural Network Based Small-footprint Wake-up-word Speech Recognition System with a Score Calibration Method, International Conference on Pattern Recognition(ICPR), 2018, 第 1 作者
(34) Compression of Acoustic Model via Knowledge Distillation and Pruning, International Conference on Pattern Recognition(ICPR), 2018, 第 1 作者
(35) Listen, Think and Listen Again: Capturing Top-down Auditory Attention for Speaker-independent Speech Separation, IJCAI2018, 2018, 第 1 作者
(36) Paraphrase Recognition via Combination of Neural Classifier and Keywords, IJCNN 2018: International Joint Conference on Neural Networks, 2018, 第 1 作者
(37) Paraphrase Recognition via Combination of Neural Classifier and Keywords, IJCNN 2018: International Joint Conference on Neural Networks, 2018, 第 1 作者
(38) Paraphrase Recognition via Combination of Neural Classifier and Keywords, IJCNN 2018: International Joint Conference on Neural Networks, 2018, 第 1 作者
(39) Hierarchical Tree Long Short-Term Memory for Sentence Representations, IJCNN 2018: International Joint Conference on Neural Networks, 2018, 第 1 作者
(40) Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, ACL 2017, 2017, 第 2 作者
(41) Multilingual Recurrent Neural Networks with Residual Learning for Low-Resource Speech Recognition, InterSpeech 2017, 2017, 第 2 作者
(42) Multilingual Recurrent Neural Networks with Residual Learning for Low-Resource Speech Recognition, InterSpeech 2017, 2017, 第 2 作者
(43) Self-Taught convolutional neural networks for short text clustering, Neural Networks, 2017, 第 2 作者
(44) Towards Compact and Fast Neural Machine Translation Using a Combined Method, EMNLP 2017, 2017, 第 2 作者
(45) End-to-End Chinese Image Text Recognition with Attention Model, ICONIP 2017, 2017, 第 2 作者
(46) "Hierarchical Hybrid Attention Networks for Chinese Conversation Topic Classification ", The International Conference On Neural Information Processing(ICONIP 2017), 2017, 第 2 作者
(47) Constructing a Chinese Conversation Corpus for Sentiment Analysis, The Natural Language Processing and Chinese Computing(NLPCC 2017), 2017, 第 2 作者
(48) Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation, The Eighth International Joint Conference on Natural Language Processing (IJCNLP 2017), 2017, 第 2 作者
(49) Named Entity Recognition with Gated Convolutional Neural Networks, Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data (CCL 2017, NLP-NABD 2017), 2017, 第 2 作者
(50) COMBINING UNIDIRECTIONAL LONG SHORT-TERM MEMORY WITH CONVOLUTIONAL OUTPUT LAYER FOR HIGH-PERFORMANCE SPEECH SYNTHESIS, International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2017, 第 2 作者
(51) Hybrid Attention Networks for Chinese Short Text, International Conference on Computational Linguistics and Intelligent Text Processing(CICLing 2017), a special issue of the journal Computación y Sistemas, 2017, 第 4 作者
(52) Encoder-decoder recurrent network model for interactive character animation generation, COMPUTER GRAPHICS INTERNATIONAL 2017 (CGI’17), 2017, 第 3 作者
(53) A Class-specific Copy Network for Handling the Rare Word Problem in Neural Machine Translation, The International Joint Conference on Neural Networks (IJCNN ), 2017, 第 6 作者
(54) Multi-Sense Based Neural Machine Translation, The International Joint Conference on Neural Networks (IJCNN ), 2017, 第 4 作者
(55) Chinese Image Text Recognition with BLSTM-CTC: A Segmentation-free Method, Chinese Conference on Pattern Recognition, CCPR, 2016, 第 4 作者
(56) Text Classification Improved by Integrating Bidirectional LSTM with Two-dimensional Max Pooling, The 26th International Conference on Computational Linguistics (CoLing2016), 2016, 第 6 作者
(57) Hierarchical Memory Networks for Answer Selection on Unknown Words, The 26th International Conference on Computational Linguistics (CoLing2016), 2016, 第 5 作者
(58) Ensemble of Feature Sets and Classification Methods for Stance Detection, The 5th Conference on Natural Language Processing and Chinese Computing ( NLPCC2016), 2016, 第 5 作者
(59) A Neural Network Framework for Relation Extraction, Knowledge-Based Systems (KBS), 2016, 第 6 作者
(60) A Character-Aware Encoder for Neural Machine Translation, The 26th International Conference on Computational Linguistics (CoLing2016), 2016, 第 4 作者
(61) Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification, the 54th Annual Meeting of the Association for Computational Linguistics (ACL2016, short paper), 2016, 第 7 作者
(62) Stable-time Prediction during Incremental Speech Recognition, 2016 IEEE International Conference of Online Analysis and Computing Science(ICOACS 2016), 2016, 第 2 作者
(63) GATING RECURRENT MIXTURE DENSITY NETWORKS FOR ACOUSTIC MODELING IN, International Conference on Acoustics,Speech and Signal Processing(ICASSP), 2016, 第 3 作者
(64) Joint Learning of Entity Semantics and Relation Pattern for Relation Extraction, The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery(ECML/PKDD), 2016, 通讯作者
(65) Multidimensional Residual Learning Based on Recurrent Neural Networks for Acoustic Modeling, Interspeech2016, 2016, 第 3 作者
(66) End-to-end Language Identification using Attention-based Recurrent Neural Networks, Interspeech2016, 2016, 通讯作者
(67) Gating Recurrent Enhanced Memory Neural Networks on Language Identification, Interspeech2016, 2016, 通讯作者
(68) First Step Towards End-to-end Parametric TTS Synthesis:Generating Spectral Parameters with Neural Attention, Interspeech2016, 2016, 第 3 作者
(69) Automatic Variable-Timing Animation Transition Based on Hierarchical Interpolation Method, the 10th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (GRAPP2015), 2015, 第 4 作者
(70) Multilingual Tandem Bottleneck Feature For Language Identification, Interspeech 2015, 2015, 第 4 作者
(71) Towards End-to-End Speech Recognition for Chinese Mandarin Using Long Short-Term Memory Recurrent Neural Networks, Interspeech 2015, 2015, 第 4 作者
(72) Dialogue Management based on Sentence Clustering., ACL-2015, the 53rd Annual Meeting of the Association for Computational Linguistics, 2015, 第 2 作者
(73) Image Character Recognition Using Deep Convolutional Neural Network learned from different languages, International Conference on Image Processing(ICIP), 2014, 第 4 作者
(74) Chinese image text recognition on grayscale pixels, 2014 International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2014, 第 4 作者
(75) Video to Article Hyperlinking by Multiple Tag Property Exploration, MMM2014, 2014, 通讯作者
(76) Spatial Similarity Measure of Visual Phrases for Image Retrieval, MMM2014, 2014, 第 3 作者
(77) Learning New Semi-Supervised Deep Auto-encoder Features for Statistical Machine Translation, The 52nd Annual Meeting of the Association for Computational Linguisics, 2014, 第 3 作者
(78) A Novel Noise-Robust ASR Method by Applying Partially Connected DNN Model and Mixed-Bandwidth Concept, The 2013 2nd International Symposium on Computer,Communication,Control and Automation(3CA 2013), 2014, 第 4 作者
(79) Parallel Recursive Deep Model for Sentiment Analysis, THE 19TH PACIFIC-ASIA CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 2014, 第 2 作者
(80) Structured Vectors for Chinese Word Representation, The 3RD INTERNATIONAL CONFERENCE ON INFORMATION and INTELLIGENT COMPUTING(ICCIC), 2014, 第 2 作者
(81) Labeling Sequential Data Based on Word Representations and Conditional Random Fields, The 3RD INTERNATIONAL CONFERENCE ON INFORMATION and INTELLIGENT COMPUTING(ICCIC), 2014, 第 2 作者
(82) Exploring One Pass Learning For Deep Neural Network Training With Averaged Stochastic Gradient Descent, 2014 International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2014, 第 3 作者
(83) Variational Bayes Based I-vector for Speaker Diarization of Telephone Conversations, 2014 International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2014, 第 4 作者
(84) An Investigation of summed-channel speaker recognition with multi-session enrollment, 2014 International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2014, 第 4 作者
(85) Recursive Neural Network based Word Topology Model for Hierarchical Phrase-based Speech Translation, 2014 International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2014, 第 4 作者
(86) Improving Wideband Acoustic Models, Interspeech, 2014, 第 2 作者
(87) Investigation of Cross-lingual Bottleneck, Interspeech, 2014, 第 3 作者
(88) Investigation of Stochastic Hessian-Free Optimization In Deep Neural Networks For Speech Recognition, International Symposium on Chinese Spoken Language Processing (ISCSLP), 2014, 第 2 作者
(89) Improving Training Time of Deep Neural Network With Asynchronous Averaged Stochastic Gradient Descent, International Symposium on Chinese Spoken Language Processing (ISCSLP), 2014, 第 2 作者
(90) An iVector Extractor Using Pre-trained Neural Networks for Speaker Verification, International Symposium on Chinese Spoken Language Processing (ISCSLP), 2014, 第 3 作者
(91) Data-driven Tree Structure Based UBM, International Symposium on Chinese Spoken Language Processing (ISCSLP), 2014, 第 2 作者
(92) Learning New Semi-Supervised Deep Auto-encoder Features for Statistical Machine Translation, The 52nd Annual Meeting of the Association for Computational Linguisics, 2014, 第 3 作者
(93) Optimization Control for Biped Motion Trajectory, ICALIP (International Conference on Audio, Language and Image Processing), 2014, 第 4 作者
(94) Chinese Image Character Recognition using DNN and Machine Simulated Training Samples, International Conference on Artificial Neural Networks(ICANN), 2014, 第 4 作者
(95) Improving word embeddings via combining with complementary languages, 27th Canadian Conference on Artificial Intelligence(CAI), 2014, 第 2 作者
(96) Experimental comparison of text information based punctuation recovery algorithms real data, The 3rd International Conference on Computer Science and Network Technology(ICCSNT2013), 2013, 第 3 作者
(97) UNDERSTANDING THE DROPOUT STRATEGY AND ANALYZING ITS EFFECTIVENESS ON LVCSR, International Conference on Acoustics,Speech,and Signal Processing(ICASSP), 2013, 第 3 作者
(98) INVESTIGATION of DEEP BOLTZMANN MACHINES FOR PHONE RECOGNITION, International Conference on Acoustics,Speech,and Signal Processing(ICASSP), 2013, 第 3 作者
(99) Integrating Multi-source Bilingual Information for Chinese Word Segmentation in Statistical Machine Translation, The Twelfth China National Conference on Computational Linguistics,CCL 2013, 2013, 第 4 作者
(100) ASYNCHRONOUS STOCHASTIC GRADIENT DESCENT FOR DNN TRAINING, International Conference on Acoustics,Speech,and Signal Processing(ICASSP), 2013, 通讯作者
(101) MULTI-MODAL TOPIC UNIT SEGMENTATION IN VIDEOS USINGCONDITIONAL RANDOM FIELDS, International Conference on Acoustics,Speech,and Signal Processing(ICASSP), 2013, 第 3 作者
(102) Punctuation prediction for Chinese spoken sentence based on model combination, The 8th International Conference on Intelligent Systems and Knowledge Engineering(ISKE 2013), 2013, 第 3 作者
(103) Phras-based Parallel Fragments Extraction from Comparable Corpore, The 6th International Joint Conference on Natural Language Processing(IJCNLP 2013), 2013, 通讯作者
(104) A General Framework of Video Segmentation to Logical Unit based on Conditional Random Fields, ACM International Conference on Multimedia Retrieval(ICMR), 2013, 第 4 作者
(105) Pseudo in-domain data selection from large-scale web corpus for spoken language translation, The 2nd Conference on Natural Language Processing and Chinese Computing,NLP&CC 2013, 2013, 第 3 作者
(106) BINARIZATION of NATURAL SCENE TEXT BASEDO NL1-NORM PCA, IEEE International Conference on Multimedia and Expo(ICME), 2013, 第 3 作者
(107) Joint and coupled bilingual topic model based sentence representations for language model adaptation, 23rd International Joint Conference on Artificial Intelligence(IJCAI 2013), 2013, 第 4 作者
(108) Mulitple Style Exploration for Story Unit Segmentation of Broadcast News Video, Mulitimedia Systems, 2013, 第 3 作者
(109) Data-driven Gaussian Component Selection for Fast GMM-Based Speaker Verification, Interspeech,2011 , 2011, 第 3 作者
(110) An Empirical Study of Multilingual Spoken Term Detection, Interspeech,2011 , 2011, 第 3 作者
(111) Fusing Multiple Confidence Measures for Chinese Spoken Term Detection, Interspeech,2011 , 2011, 第 3 作者
(112) A Robust Approach to Mining Repeated Sequence in Audio Stream, Interspeech,2011 , 2011, 通讯作者
(113) Context-dependent Duration Modeling with Backoff Strategy and Look-up Tables for Pronunciation Assessment and Mispronunciation Detection, Interspeech,2011 , 2011, 第 4 作者
(114) Restoring the Residual Speaker Information in Total Variability Modeling for Speaker Verification, Interspeech,2011, 2011, 第 3 作者
(115) TV Commercial Detection Using Audiovisual Features and Support Vector Machine, ICCDA2011, 2011, 第 2 作者
(116) Efficient Commercial Video Retrieval using Multi- Modality and Segment-based Search, ICCDA 2011, 2011, 第 4 作者
(117) Commercial Detection by Mining Maximal Repeated Sequence in Audio Stream, ICME 2011, 2011, 通讯作者
(118) Exploring nuisance attribute projection and score normalization for GLDS-SVM based automatic mispronunciation detection method, ICASSP2011, 2011, 第 4 作者
(119) An Exploration on Improving Statistical Machine Translation Performance by Using Post-editing Information, In Proceedings of the 2011 International Conference on Multimedia and Signal Processing, Guilin, 2011, 2011, 第 2 作者
(120) SUBSPACE CONSTRAINED LU DECOMPOSITION OF FMLLR FOR RAPID ADAPTATION, ICASSP 2011, 2011, 第 3 作者
(121) SUBSPACE CONSTRAINED LU DECOMPOSITION OF FMLLR FOR RAPID ADAPTATION, ICASSP 2011, 2011, 第 3 作者
(122) EXPLORING IMPLICIT SCORE NORMALIZATION TECHNIQUES IN SPEAKER VERIFICATION, ICASSP2011 , 2011, 第 3 作者
(123) Data-driven Gaussian Component Selection for Fast GMM-Based Speaker Verification, Interspeech,2011 , 2011, 第 3 作者
(124) Construct a naturalistic 3D avatar with live help interfaces based on multi-layered representation, CISP2010, 2010, 第 2 作者
(125) An Investigation into Direct Scoring Methods without SVM Training in Speaker Verification, interspeech2010, 2010, 第 3 作者
(126) 基于GMM-UBM和GLDS-SVM的英文发音错误检测方法, 自动化学报, 2010, 通讯作者
(127) Monaural Speech Separation Based on MAXVQ and CASA for Robust Speech Recognition, Computer Speech and Language, 2010, 通讯作者
(128) Automatic reference independent evaluation of prosody quality using multiple knowledge fusions, Interspeech2010, 2010, 第 3 作者
(129) Exploring goodness of prosody by diverse matching templates, Interspeech2010, 2010, 第 3 作者
(130) Automatic Pronunciation Error Detection Based on Linguistic knowledge and Pronunciation Space, ICASSP, 2009, 2009, 第 4 作者
(131) Chinese Intonation Assessment Using SEV Feasures, ICASSP, 2009, 2009, 第 2 作者
(132) Exploring the Automatic Mispronunciation Detection of Confusable Phones for Mandarin, ICASSP, 2009, 2009, 第 2 作者
(133) 基于计算听觉场景分析和语者模型信息的语音识别鲁棒前端研究, 自动化学报, 2009, 第 4 作者
(134) 基于能量损失率估计的麦克风阵列语音增强, 声学学报, 2009, 第 3 作者
(135) 一种基于互补声学模型的多系统融合语音关键词检测方法, 自动化学报, 2009, 第 4 作者
(136) Monaural Speech Separation Based on MAXVQ and CASA for Robust Speech Recognition, Computer Speech and Language, 2008, 通讯作者
(137) Improved Phonotactic LID using Random Forest Language Models, ICASSP, 2008, 2008, 第 4 作者
(138) Monaural Speech Separation Based on Computational Auditory Scene Analysis and Objective Quality Asse, IEEE Transactions on Audio, Speech, and Language Processing, 2006, 第 3 作者
(139) 

合作情况

     在新加坡成立了科学院首家海外研究创新单元”中新数字媒体研究院“,担任中方院长,从事人类多模态沟通技术的研究;与日本ATR等亚洲国家级研究机构建立长期合作,实现亚洲语言之间的翻译;长期与国内外著名企业和研究机构开展项目合作,实现技术的转移转化;同时与外企在华研究中心包括Panasonic, Nokia等建立了长期稳定的合作关系。

指导学生

已指导学生

李鹏  博士研究生  081104-模式识别与智能系统  

韩兆兵  博士研究生  081104-模式识别与智能系统  

丁鹏  博士研究生  081104-模式识别与智能系统  

吴友政  博士研究生  081104-模式识别与智能系统  

程葳  博士研究生  081104-模式识别与智能系统  

郑榕  博士研究生  081104-模式识别与智能系统  

贾磊  博士研究生  081104-模式识别与智能系统  

杜金华  博士研究生  081104-模式识别与智能系统  

丁国宏  博士研究生  081104-模式识别与智能系统  

解国栋  博士研究生  081104-模式识别与智能系统  

穆向禹  博士研究生  081104-模式识别与智能系统  

张化云  博士研究生  081104-模式识别与智能系统  

于胜民  博士研究生  081104-模式识别与智能系统  

康永国  博士研究生  081104-模式识别与智能系统  

浦剑涛  博士研究生  081104-模式识别与智能系统  

陈振标  博士研究生  081104-模式识别与智能系统  

孟猛  博士研究生  081104-模式识别与智能系统  

张艳  博士研究生  081104-模式识别与智能系统  

刘非凡  博士研究生  081104-模式识别与智能系统  

高鹏  博士研究生  081104-模式识别与智能系统  

姜洪臣  博士研究生  081104-模式识别与智能系统  

徐为群  博士研究生  081104-模式识别与智能系统  

董宏辉  博士研究生  081104-模式识别与智能系统  

白俊梅  博士研究生  081104-模式识别与智能系统  

苏牧  博士研究生  081104-模式识别与智能系统  

梁家恩  博士研究生  081104-模式识别与智能系统  

张翼燕  博士研究生  081104-模式识别与智能系统  

段湘煜  博士研究生  081104-模式识别与智能系统  

梁伟  博士研究生  081104-模式识别与智能系统  

庞薇  博士研究生  081104-模式识别与智能系统  

张世磊  博士研究生  081104-模式识别与智能系统  

徐爽  博士研究生  081104-模式识别与智能系统  

王卓  博士研究生  081104-模式识别与智能系统  

李鹏  博士研究生  081104-模式识别与智能系统  

杨振东  博士研究生  081104-模式识别与智能系统  

贾川  博士研究生  081104-模式识别与智能系统  

胡晟  硕士研究生  081104-模式识别与智能系统  

岳红强  博士研究生  081104-模式识别与智能系统  

柯登峰  博士研究生  081104-模式识别与智能系统  

王士进  博士研究生  081104-模式识别与智能系统  

周梁  博士研究生  081104-模式识别与智能系统  

王晓瑞  博士研究生  081104-模式识别与智能系统  

于剑  博士研究生  081104-模式识别与智能系统  

阳曦  硕士研究生  081203-计算机应用技术  

魏玮  博士研究生  081104-模式识别与智能系统  

朱磊  博士研究生  081104-模式识别与智能系统  

江杰  博士研究生  081104-模式识别与智能系统  

王磊  博士研究生  081104-模式识别与智能系统  

王韦华  硕士研究生  081104-模式识别与智能系统  

徐景阳  硕士研究生  081104-模式识别与智能系统  

李宏言  博士研究生  081104-模式识别与智能系统  

于东  博士研究生  081104-模式识别与智能系统  

杨雁  博士研究生  081101-控制理论与控制工程  

宋英华  博士研究生  081101-控制理论与控制工程  

黄申  博士研究生  081104-模式识别与智能系统  

朱涛涛  博士研究生  081104-模式识别与智能系统  

马泽君  博士研究生  081104-模式识别与智能系统  

彭星源  博士研究生  081104-模式识别与智能系统  

张波  博士研究生  081104-模式识别与智能系统  

徐夙  博士研究生  081104-模式识别与智能系统  

高鹏飞  硕士研究生  081280-软件工程  

李金柱  硕士研究生  081280-软件工程  

赵知  硕士研究生  081280-软件工程  

陈萧  博士研究生  081104-模式识别与智能系统  

陈见耸  博士研究生  081104-模式识别与智能系统  

张策  博士研究生  081104-模式识别与智能系统  

范利春  博士研究生  081104-模式识别与智能系统  

付晓寅  博士研究生  081104-模式识别与智能系统  

卢世祥  博士研究生  081104-模式识别与智能系统  

郎孚博  硕士研究生  085211-计算机技术  

王昊  硕士研究生  085211-计算机技术  

李长亮  博士研究生  081104-模式识别与智能系统  

游钊  博士研究生  081104-模式识别与智能系统  

白锦峰  博士研究生  081104-模式识别与智能系统  

周世玉  博士研究生  081104-模式识别与智能系统  

张姗姗  博士研究生  081104-模式识别与智能系统  

陈炜  博士研究生  081104-模式识别与智能系统  

李杰  博士研究生  081104-模式识别与智能系统  

周鹏  博士研究生  081104-模式识别与智能系统  

张铁林  博士研究生  081104-模式识别与智能系统  

翟传磊  硕士研究生  081104-模式识别与智能系统  

郝悦星  硕士研究生  085211-计算机技术  

石晶  硕士研究生  085211-计算机技术  

周玉军  博士研究生  081203-计算机应用技术  

汪春奇  硕士研究生  081104-模式识别与智能系统  

张晓伟  硕士研究生  081104-模式识别与智能系统  

王文富  博士研究生  081104-模式识别与智能系统  

赵媛媛  博士研究生  081104-模式识别与智能系统  

王峰  博士研究生  081104-模式识别与智能系统  

吉瑞芳  硕士研究生  081104-模式识别与智能系统  

耿旺  博士研究生  081104-模式识别与智能系统  

王雨萌  博士研究生  081104-模式识别与智能系统  

杨振  博士研究生  081104-模式识别与智能系统  

郑孙聪  博士研究生  081104-模式识别与智能系统  

王秀英  博士研究生  081104-模式识别与智能系统  

邹雨巷  硕士研究生  081104-模式识别与智能系统  

王鹏睿  博士研究生  081104-模式识别与智能系统  

李晨星  博士研究生  081104-模式识别与智能系统  

盛芬芬  博士研究生  081104-模式识别与智能系统  

董林昊  博士研究生  081104-模式识别与智能系统  

姚轶群  博士研究生  081104-模式识别与智能系统  

现指导学生

董倩倩  博士研究生  081104-模式识别与智能系统  

黄燃东  博士研究生  081104-模式识别与智能系统  

阮景晴  博士研究生  081104-模式识别与智能系统  

郝云喆  博士研究生  081104-模式识别与智能系统  

石晶  博士研究生  081104-模式识别与智能系统  

易澄  博士研究生  081104-模式识别与智能系统  

黄雅婷  博士研究生  081104-模式识别与智能系统  

张鹏  硕士研究生  081104-模式识别与智能系统  

程翔  硕士研究生  081104-模式识别与智能系统  

贾顺程  博士研究生  081104-模式识别与智能系统  

赵云龙  博士研究生  081104-模式识别与智能系统  

李曦云  博士研究生  081104-模式识别与智能系统  

胡泽发  博士研究生  081203-计算机应用技术  

范志赟  博士研究生  081104-模式识别与智能系统  

陈修意  博士研究生  081104-模式识别与智能系统  

孟令辉  博士研究生  081104-模式识别与智能系统  

张笃振  博士研究生  081104-模式识别与智能系统  

陈飞龙  博士研究生  081104-模式识别与智能系统  

韩明伦  博士研究生  081104-模式识别与智能系统  

吴浩然  博士研究生  081104-模式识别与智能系统  

专利与奖励

奖励信息
     曾获“中国科学院自然科学进步二等奖”,“王选新闻科技技术一等奖”、“中国科学院盈科优秀青年学者奖”,并获得“中国科学院十大双文明标兵”、“中国科学院杰出青年”、“新世纪百千万人才工程国家级人选”等荣誉称号。

专利成果
     已申请发明专利40余项,获得发明专利授权30余项,软件著作权10余项

奖励信息
(1) CIUR中国产学研合作创新奖, 国家级, 2017
(2) 国家**部科学技术进步奖, 一等奖, 部委级, 2015
(3) 第七届王选新闻科学技术奖, 一等奖, 专项, 2015
(4) 第六届王选新闻科学技术奖, 一等奖, 专项, 2013
(5) 广播电影电视总局2009年度科技创新奖, 一等奖, 部委级, 2009
(6) 2009年度北京市科学技术进步奖, 三等奖, 省级, 2009
(7) 广播电影电视总局2006年度科技创新奖, 二等奖, 部委级, 2007
(8) 第三届王选新闻科学技术奖, 一等奖, 专项, 2007
专利成果
( 1 ) 对多级透镜多视角场景的三维重建的方法, 发明, 2010, 第 2 作者, 专利号: 201010278130.3
( 2 ) 多级透镜的三维成像系统, 实用新型, 2010, 第 2 作者, 专利号: 201010264671.0
( 3 ) 一种运用计算机对开放式短对话进行交互式评分的方法, 发明, 2010, 第 3 作者, 专利号: 201010591491.3
( 4 ) 面向海量广播电视节目的新一代智能编目系统和方法, 发明, 2010, 第 1 作者, 专利号: 201010616492.9
( 5 ) 一种提高开合模机构定位精度的学习方法, 发明, 2010, 第 3 作者, 专利号: ZL200710122476.2
( 6 ) 基于客观标准的自动化口语评估系统, 发明, 2009, 第 1 作者, 专利号: 200901078868.2
( 7 ) 移动设备的空间交互方法, 发明, 2015, 第 2 作者, 专利号: 201210320166.2
( 8 ) 基于深度图像的人体姿态估计方法, 发明, 2015, 第 2 作者, 专利号: 201210271289.1
( 9 ) 长语音连续识别及识别结果实时反馈方法和系统, 发明, 2014, 第 1 作者, 专利号: 201210551379.6
( 10 ) 一种用于语音识别的Ngram模型改进方法, 发明, 2014, 第 2 作者, 专利号: 201210528093.6
( 11 ) 一种用于鲁棒语音识别的语音特征提取方法, 发明, 2014, 第 1 作者, 专利号: 201210449436.X
( 12 ) 一种基于深度图像的多目标分割和跟踪方法, 发明, 2014, 第 2 作者, 专利号: 201110435843.0
( 13 ) 一种基于三维深度图像信息的并行统计学习人体部位检测方法, 发明, 2013, 第 2 作者, 专利号: ZL201110435745.7
( 14 ) 一种声调评测方法, 发明, 2013, 第 2 作者, 专利号: ZL201110370038.4
( 15 ) 测试英文口语韵律水平的方法, 发明, 2013, 第 2 作者, 专利号: ZL201110252779.2
( 16 ) 一种实现与虚拟角色实时互动的表情克隆方法及装置, 发明, 2015, 第 3 作者, 专利号: 201511021376.1
( 17 ) 互联网人物视频交互式标注方法及系统, 发明, 2014, 第 5 作者, 专利号: 201410475211.0
( 18 ) 一种基于搜索匹配的角色标注方法, 发明, 2014, 第 3 作者, 专利号: 201410218854.7
( 19 ) 一种基于图像梯度的三角剖分快速图像融合方法, 发明, 2016, 第 4 作者, 专利号: ZL201310601251.0
( 20 ) 一种多子网格模型上进行面分裂型曲面细分的方法, 发明, 2016, 第 4 作者, 专利号: ZL201310601250.6
( 21 ) 一种对象全景建模方法, 发明, 2013, 第 2 作者, 专利号: 201310560596.6
( 22 ) 一种面向海量广播电视监管的自动新闻拆条方法, 发明, 2016, 第 4 作者, 专利号: ZL201310505496.3
( 23 ) 一种三维几何场景的低噪声实时全局光照绘制方法, 发明, 2016, 第 4 作者, 专利号: ZL201310346962.8
( 24 ) 鲁棒的快速高深度分辨率的散斑三维重建方法, 发明, 2016, 第 2 作者, 专利号: ZL201310196737.0
( 25 ) 一种基于深度图像的多目标分割和跟踪方法, 发明, 2014, 第 1 作者, 专利号: ZL201110435843.0
( 26 ) 基于三维深度图像信息的并行统计学习人体部位检测方法, 发明, 2013, 第 1 作者, 专利号: PCT/CN2012/077884
( 27 ) 基于循环神经网络语音识别中语音数据增强方法及装置, 发明, 2017, 第 1 作者, 专利号: 2017106518662
( 28 ) 基于有监督学习听觉注意的语音提取方法、系统、装置, 发明, 2018, 第 3 作者, 专利号: 201811558212.6
( 29 ) 基于物理环境博弈的自主进化智能对话方法、系统、装置, 发明, 2019, 第 3 作者, 专利号: 201910014369.0
( 30 ) 基于记忆和注意力模型的听觉选择方法和装置, 发明, 2017, 第 3 作者, 专利号: 201711127669.7
( 31 ) 一种基于变量绑定和关系激活的推理方法, 发明, 2017, 第 4 作者, 专利号: 201710755961.7
( 32 ) 一种基于层次化记忆网络的问答方法, 发明, 2016, 第 4 作者, 专利号: 201610447676.4
( 33 ) 低资源多语言的语音识别模型、语音识别方法, 发明, 2019, 第 2 作者, 专利号: 201910732557.7
( 34 ) 语音增强方法、装置、存储介质、电子设备, 发明, 2019, 第 3 作者, 专利号: 201910631894.7
( 35 ) 语音增强方法、装置、存储介质、电子设备, 发明, 2019, 第 3 作者, 专利号: 201910663257.8
( 36 ) 会议纪要生成方法、装置、计算机设备及存储介质, 发明, 2019, 第 3 作者, 专利号: 201910766155.9
( 37 ) 语音发出者身份识别方法、装置、计算机设备及存储介质, 发明, 2019, 第 3 作者, 专利号: 201910766157.8
( 38 ) 视觉声纹辅助的语音分离方法及装置, 发明, 2019, 第 4 作者, 专利号: 201911252373.7
( 39 ) 基于人工智能的视觉对话方法、装置及电子设备, 发明, 2019, 第 5 作者, 专利号: 201911294260.3
( 40 ) 记忆为核心的智能问答方法及系统, 发明, 2020, 第 4 作者, 专利号: 202010792981.3
( 41 ) Auditory Selection Method and Device based on Memory and Attention Model, 发明, 2020, 第 3 作者, 专利号: US 16/632.373