基本信息
张鹏远  男  博导  中国科学院声学研究所
电子邮件: zhangpengyuan@hccl.ioa.ac.cn
通信地址: 北京市海淀区北四环西路21号
邮政编码: 100190

研究领域

语音识别与理解

语音合成

情感识别

丰富音频检测

语音信号处理

招生信息

   
招生专业
081002-信号与信息处理
085400-电子信息
招生方向
语音识别与理解,语音合成,情感识别
丰富音频检测
语音信号处理

工作经历

   
工作简历
2016-03~现在, 中国科学院声学研究所, 研究员
2015-10~现在, 中国科学院大学, 岗位教授
2013-04~2014-03,英国谢菲尔德大学, 公派访问学者
2010-01~2016-02,中国科学院声学研究所, 副研究员
2007-07~2009-12,中国科学院声学研究所, 助理研究员

教授课程

语音识别技术
语音信号处理
语音识别与理解

专利与奖励

   
奖励信息
(1) 智能语音能力平台关键技术及其在智能客服行业应用, 二等奖, 省级, 2019
(2) 中国科学院杰出科技成就奖, 一等奖, 院级, 2014
专利成果
[1] 张鹏远, 王智超, 潘接林, 颜永红. 一种基于CTC的声学模型训练方法. CN: CN108269568B, 2021-07-30.
[2] 张鹏远, 陈树丽, 张学帅, 颜永红. 一种音频检索方法及装置. CN: CN113157967A, 2021-07-23.
[3] 张鹏远, 刘丹阳, 徐及, 颜永红. 一种基于迁移神经网络声学模型的语音识别系统及方法. CN: CN110070855B, 2021-07-23.
[4] 张鹏远, 战鸽, 潘接林, 颜永红. 一种语音特征重建方法及装置. CN: CN110070887B, 2021-04-09.
[5] 张鹏远, 王旭阳, 潘接林, 颜永红. 一种基于自适应学习率的端到端的语音识别方法. CN: CN107293291B, 2021-03-16.
[6] 张鹏远, 林格平, 李文洁, 万辛, 戚梦苑, 沈亮, 颜永红. 一种基于多说话人条件下目标说话人语音提取方法. CN: CN112331181A, 2021-02-05.
[7] 张鹏远, 蒿晓阳, 颜永红. 一种基于变分自编码器的多说话人语音合成方法. CN: CN112289304A, 2021-01-29.
[8] 颜永红, 王寻, 张鹏远, 黎塔, 周军. 一种基础心音识别方法及设备. CN: CN111938691A, 2020-11-17.
[9] 张鹏远, 尚增强, 颜永红. 一种韵律控制语音合成方法、系统及电子装置. CN: CN111754976A, 2020-10-09.
[10] 张鹏远, 缪浩然, 程高峰, 颜永红. 联结主义时间分类和截断式注意力联合在线语音识别技术. CN: CN111179918A, 2020-05-19.
[11] 张鹏远, 尚增强, 颜永红. 一种基于自注意力机制的中文普通话字音转换方法. CN: CN111145718A, 2020-05-12.
[12] 张鹏远, 左玲云, 潘接林, 颜永红. 一种基于长短时记忆网络的语言模型重估方法. CN: CN106803422B, 2020-05-12.
[13] 张鹏远, 缪浩然, 程高峰, 颜永红. 一种在线端对端语音转写方法及系统. CN: CN111128191A, 2020-05-08.
[14] 张鹏远, 邢安昊, 潘接林, 颜永红. 一种神经网络声学模型压缩及语音识别方法. CN: CN106847268B, 2020-04-24.
[15] 胡琦, 张鹏远, 潘接林, 颜永红. 一种连续语音流中的叠音检测方法. CN: CN106847267B, 2020-04-14.
[16] 张鹏远, 张震, 邬龙, 王丽, 李鹏, 侯炜. 一种基于空时残差神经网络的远场语音识别方法. CN: CN110895933A, 2020-03-20.
[17] 徐及, 刘丹阳, 张鹏远, 颜永红. 基于语言种类和语音内容协同分类的多语言语音识别方法. CN: CN110895932A, 2020-03-20.
[18] 张鹏远, 李文洁, 潘接林, 颜永红. 一种多通道远场语音识别方法. CN: CN110867178A, 2020-03-06.
[19] 张鹏远, 张一珂, 潘接林, 颜永红. 一种基于N元文法神经网络语言模型的语音识别方法. CN: CN110858480A, 2020-03-03.
[20] 张鹏远, 王旭阳, 潘接林, 颜永红. 基于前向神经网络语言模型的汉语语音关键词检索方法. CN: CN106856092B, 2019-11-15.
[21] 张鹏远, 王旭阳, 潘接林, 颜永红. 一种基于字和词混合语言模型的汉语语音关键词检索方法. CN: CN106294460B, 2019-10-22.
[22] 张鹏远, 张一珂, 潘接林, 颜永红. 一种基于生成对抗网络的语言模型数据增强方法. CN: CN110085215A, 2019-08-02.
[23] 张鹏远, 张宇, 潘接林, 颜永红. 基于空间特征补偿的多通道语音识别声学建模方法及装置. CN: CN110047478A, 2019-07-23.
[24] 张鹏远, 张一珂, 潘接林, 颜永红. 一种基于统计语言模型得分规整的语音识别方法及系统. CN: CN109427330A, 2019-03-05.
[25] 张鹏远, 张宇, 潘接林, 颜永红. 一种基于滤波网络声学模型的多通道语音识别方法. CN: CN109427328A, 2019-03-05.
[26] 张鹏远, 董振江, 张宇, 贾霞, 李洁, 张恒生. 一种基于HLSTM模型的声学建模方法和装置. 中国: CN108461080A, 2018-08-28.
[27] 张鹏远, 张一珂, 黎塔, 颜永红. 一种基于统计规律的中文词汇表未登录词比率的估计方法. 中国: CN108109624A, 2018-06-01.
[28] 张鹏远, 邢安昊, 潘接林, 颜永红. 一种神经网络声学模型激活函数定点量化方法. 中国: CN107292382A, 2017.10.24.
[29] 王丽, 张鹏远, 刘建, 颜永红. 一种拼音拼读的发音质量评测系统. 中国: CN106856095A, 2017.06.16.
[30] 张鹏远, 邢安昊, 潘接林, 颜永红. 数据驱动的基于奇异值分解的神经网络声学模型裁剪方法. 中国: CN106297778A, 2017-01-04.
[31] 张鹏远, 潘接林, 颜永红. 一种低资源嵌入式语音识别的拒识方法. 中国: CN105321518A, 2016-02-10.

出版信息

   
发表论文
[1] Liu, Zuozhen, Li, Ta, Zhang, Pengyuan. Neural keyword confidence estimation for open-vocabulary keyword spotting. ELECTRONICS LETTERS[J]. 2022, 58(3): 133-135, [2] 石倩, 陈航艇, 张鹏远. 波达方向初始化空间混合概率模型的语音增强. 声学学报. 2022, 47(1): 139-150, http://lib.cqvip.com/Qikan/Article/Detail?id=7106448197.
[3] Deng, Keqi, Cheng, Gaofeng, Miao, Haoran, Zhang, Pengyuan, Yan, Yonghong, IEEE. HISTORY UTTERANCE EMBEDDING TRANSFORMER LM FOR SPEECH RECOGNITION. 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021)null. 2021, 5914-5918, [4] 杨润延, 程高峰, 缪浩然, 黎塔, 张鹏远, 颜永红. Keyword search using attention-based end-to-end ASR and framesynchronous phoneme alignments. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)[J]. 2021, [5] Miao, Xiaoxiao, McLoughlin, Ian, Wang, Wenchao, Zhang, Pengyuan. D-MONA: A dilated mixed-order non-local attention network for speaker and language recognition. NEURAL NETWORKS[J]. 2021, 139: 201-211, http://dx.doi.org/10.1016/j.neunet.2021.03.014.
[6] Liu, Zongming, Huang, Zhihua, Wang, Li, Zhang, Pengyuan. A Pronunciation Prior Assisted Vowel Reduction Detection Framework with Multi-Stream Attention Method. APPLIED SCIENCES-BASEL[J]. 2021, 11(18): http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000699353300001.
[7] Chen, Hangting, Zhang, Pengyuan. A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation. NEURAL NETWORKS[J]. 2021, 141: 238-248, http://dx.doi.org/10.1016/j.neunet.2021.04.023.
[8] Liu, Danyang, Xu, Ji, Zhang, Pengyuan, Yan, Yonghong. A unified system for multilingual speech recognition and language identification. SPEECH COMMUNICATION[J]. 2021, 127: 17-28, http://dx.doi.org/10.1016/j.specom.2020.12.008.
[9] Miao Haoran, Cheng Gaofeng, Gao Changfeng, Zhang Pengyuan, Yan Yonghong. Transformer-based Online CTC/attention End-to-End Speech Recognition Architecture. 2020, http://arxiv.org/abs/2001.08290.
[10] Zhang, Xueshuai, Zhan, Ge, Wang, Wenchao, Zhang, Pengyuan, Yan, Yonghong. Robust audio retrieval method based on anti-noise fingerprinting and segmental matching. ELECTRONICS LETTERS[J]. 2020, 56(5): 245-+, http://dx.doi.org/10.1049/el.2019.3086.
[11] Zhu, Han, Zhao, Jiangjiang, Ren, Yuling, Wang, Li, Zhang, Pengyuan. Domain Adaptation Using Class Similarity for Robust Speech Recognition. 2020, http://arxiv.org/abs/2011.02782.
[12] Liu, Danyang, Xu, Ji, Zhang, Pengyuan. End-to-End Multilingual Speech Recognition System with Language Supervision Training. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS[J]. 2020, E103D(6): 1427-1430, https://www.webofscience.com/wos/woscc/full-record/WOS:000537798100027.
[13] Miao, Haoran, Cheng, Gaofeng, Zhang, Pengyuan, Yan, Yonghong. Online Hybrid CTC/Attention End-to-End Automatic Speech Recognition Architecture. IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING[J]. 2020, 28: 1452-1465, https://www.webofscience.com/wos/woscc/full-record/WOS:000538078300002.
[14] 蔚文婧, 王寻, 张鹏远, 颜永红. 一种基于多层感知器的房颤心电图检测方法. 中国医学物理学杂志[J]. 2020, 37(3): 332-336, http://lib.cqvip.com/Qikan/Article/Detail?id=7101257472.
[15] Zhu, Han, Wang, Li, Zhang, Pengyuan, Yan, Yonghong. Multi-Accent Adaptation based on Gate Mechanism. 2020, http://arxiv.org/abs/2011.02774.
[16] 张鹏远, 卢春晖, 王睿敏. 基于预训练语言表示模型的汉语韵律结构预测. 天津大学学报:自然科学与工程技术版[J]. 2020, 53(3): 265-271, http://lib.cqvip.com/Qikan/Article/Detail?id=7100758669.
[17] Liu, Chang, Zhang, Pengyuan, Li, Ta, Yan, Yonghong. Semantic Features Based N-Best Rescoring Methods for Automatic Speech Recognition. APPLIED SCIENCES-BASEL[J]. 2019, 9(23): https://www.webofscience.com/wos/woscc/full-record/WOS:000509476600075.
[18] Lu, Chunhui, Zhang, Pengyuan, Yan, Yonghong, IEEE. SELF-ATTENTION BASED PROSODIC BOUNDARY PREDICTION FOR CHINESE SPEECH SYNTHESIS. 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)null. 2019, 7035-7039, [19] Zhang, Pengyuan, Chen, Hangting, Bai, Haichuan, Yuan, Qingsheng. Deep Scattering Spectra with Deep Neural Networks for Acoustic Scene Classification Tasks. CHINESE JOURNAL OF ELECTRONICS[J]. 2019, 28(6): 1177-1183, http://lib.cqvip.com/Qikan/Article/Detail?id=7100348154.
[20] Chen, Hangting, Zhang, Pengyuan, Yan, Yonghong, IEEE. AN AUDIO SCENE CLASSIFICATION FRAMEWORK WITH EMBEDDED FILTERS AND A DCT-BASED TEMPORAL MODULE. 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)null. 2019, 835-839, [21] Liu, Danyang, Xu, Ji, Zhang, Pengyuan, Yan, Yonghong. Investigation of knowledge transfer approaches to improve the acoustic modeling of Vietnamese ASR system. IEEE-CAA JOURNAL OF AUTOMATICA SINICA[J]. 2019, 6(5): 1187-1195, http://lib.cqvip.com/Qikan/Article/Detail?id=7002805124.
[22] Yao, Shengyu, Zhou, Ruohua, Zhang, Pengyuan. Speaker-Phonetic I-Vector Modeling for Text-Dependent Speaker Verification with Random Digit Strings. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS[J]. 2019, E102D(2): 346-354, [23] ZHANG Yike, ZHANG Pengyuan, YAN Yonghong. Language Model Score Regularization for Speech Recognition. 电子学报:英文版[J]. 2019, 604-609, http://lib.cqvip.com/Qikan/Article/Detail?id=69689088504849574851485051.
[24] Li Wenjie, Ge Fengpei, Zhang Pengyuan, Yan Yonghong. Spatial Smoothing Regularization for Bi-direction Long Short-term Memory Model. JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY[J]. 2019, 41(3): 544-550, [25] Li, Wenjie, Zhang, Pengyuan, Yan, Yonghong. TEnet: target speaker extraction network with accumulated speaker embedding for automatic speech recognition. ELECTRONICS LETTERS[J]. 2019, 55(14): 816-818, https://www.webofscience.com/wos/woscc/full-record/WOS:000474637500023.
[26] Zhang, Yike, Zhang, Pengyuan, Yan, Yonghong. Tailoring an Interpretable Neural Language Model. IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING[J]. 2019, 27(7): 1164-1178, http://ir.xjipc.cas.cn/handle/365002/5751.
[27] Danyang Liu, Ji Xu, Pengyuan Zhang, Yonghong Yan. Investigation of Knowledge Transfer Approaches to Improve the Acoustic Modeling of Vietnamese ASR System. 自动化学报:英文版[J]. 2019, 6(5): 1187-1195, http://lib.cqvip.com/Qikan/Article/Detail?id=7002805124.
[28] Cheng, Gaofeng, Zhang, Pengyuan, Xu, Ji. Automatic Speech Recognition System with Output-Gate Projected Gated Recurrent Unit. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS[J]. 2019, E102D(2): 355-363, https://www.webofscience.com/wos/woscc/full-record/WOS:000457312000013.
[29] 张舸, 张鹏远, 刘建, 颜永红. 基于动态时间规整的语音关键词检索算法. 网络新媒体技术[J]. 2019, 8(1): 18-23, http://lib.cqvip.com/Qikan/Article/Detail?id=7001336032.
[30] Zhang Yike, Zhang Pengyuan, Yan Yonghong. Language Model Score Regularization for Speech Recognition. CHINESE JOURNAL OF ELECTRONICS[J]. 2019, 28(3): 604-609, http://lib.cqvip.com/Qikan/Article/Detail?id=69689088504849574851485051.
[31] Huang, Lu, Cheng, Gaofeng, Zhang, Pengyuan, Yang, Yi, Xu, Shumin, Sun, Jiasong, IEEE. Utterance-level Permutation Invariant Training with Latency-controlled BLSTM for Single-channel Multi-talker Speech Separation. 2019 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)null. 2019, 1256-1261, [32] Wu, Sifan, Li, Fei, Zhang, Pengyuan, IEEE. Weighted Feature Fusion Based Emotional Recognition for Variable-length Speech using DNN. 2019 15TH INTERNATIONAL WIRELESS COMMUNICATIONS & MOBILE COMPUTING CONFERENCE (IWCMC)null. 2019, 674-679, [33] 李文洁, 张鹏远, 颜永红, 摆亮. 基于维特比算法的深度神经网络语音端点检测. 重庆邮电大学学报(自然科学版)[J]. 2018, 210-215, [34] Li, Wenjie, Zhang, Yu, Zhang, Pengyuan, Ge, Fengpei, IEEE. MULTICHANNEL ASR WITH KNOWLEDGE DISTILLATION AND GENERALIZED CROSS CORRELATION FEATURE. 2018 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2018)null. 2018, 463-469, [35] Zhang, Yu, Zhang, Pengyuan, Zhao, Qingwei. Improve Multichannel Speech Recognition with Temporal and Spatial Information. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS[J]. 2018, E101D(7): 1963-1967, [36] 张宇, 张鹏远, 颜永红. 基于注意力LSTM和多任务学习的远场语音识别. 清华大学学报:自然科学版. 2018, 58(3): 249-253, http://lib.cqvip.com/Qikan/Article/Detail?id=674769627.
[37] Zhang Yike, Zhang Pengyuan, Yan Yonghong, Int Speech Commun Assoc. Improving Language Modeling with an Adversarial Critic for Automatic Speech Recognition. 19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6null. 2018, 3348-3352, [38] 张学帅, 邹学强, 胡琪, 张鹏远. 基于指纹权重的音频模板检索方法. 中国科技论文. 2018, 13(20): 2295-2300, http://lib.cqvip.com/Qikan/Article/Detail?id=7001181155.
[39] Liu Danyang, Wan Xinxin, Xu Ji, Zhang Pengyuan, IEEE. Multilingual Speech Recognition Training and Adaptation with Language-Specific Gate Units. 2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)null. 2018, 86-90, http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000469313700018.
[40] Yao, Shengyu, Zhou, Ruohua, Zhang, Pengyuan, Yan, Yonghong. Discriminatively learned network for i-vector based speaker recognition. ELECTRONICS LETTERS[J]. 2018, 54(22): 1302-1303, https://www.webofscience.com/wos/woscc/full-record/WOS:000448327900028.
[41] Li Wenjie, Cheng Gaofeng, Ge Fengpei, Zhang Pengyuan, Yan Yonghong, Int Speech Commun Assoc. Investigation on the combination of batch normalization and dropout in BLSTM-based acoustic modeling for ASR. 19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6null. 2018, 2888-2892, [42] Wu Long, Wang Li, Zhang Pengyuan, Li Ta, Yan Yonghong, IEEE. Space-Time Residual LSTM Architechture for Distant Speech Recognition. 2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)null. 2018, 379-383, http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000469313700077.
[43] Chen Hangting, Zhang Pengyuan, Bai Haichuan, Yuan Qingsheng, Bao Xiuguo, Yan Yonghong, Int Speech Commun Assoc. Deep Convolutional Neural Network with Scalogram for Audio Scene Modeling. 19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6null. 2018, 3304-3308, [44] Liu Chang, Zhang Yike, Zhang Pengyuan, Yan Yonghong. Neural Network Language Modeling Using an Improved Topic Distribution Feature. JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY[J]. 2018, 40(1): 219-225, [45] Liu Chang, Zhang Yike, Zhang Pengyuan, Wang Yaofeng, IEEE. Evaluating Modeling Units and Sub-word Features in Language Models for Turkish ASR. 2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)null. 2018, 414-418, http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000469313700084.
[46] Zhang Yu, Li Wenjie, Zhang Pengyuan, Yan Yonghong, IEEE. IMPROVING MULTICHANNEL SPEECH RECOGNITION WITH GENERALIZED CROSS CORRELATION INPUTS AND MULTITASK LEARNING. 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)null. 2018, 5704-5708, http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000446384605173.
[47] 张鹏远. 一种小资源下语音识别算法设计与优化. 清华大学学报. 2017, [48] Zhang Ge, Zhang Pengyuan, Pan Jielin, Yan Yonghong. Fast Decoding Algorithm for Automatic Speech Recognition Based on Recurrent Neural Networks. JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY[J]. 2017, 39(4): 930-937, [49] Zhang Yu, Zhang Pengyuan, Yan Yonghong, Int Speech Commun Assoc. Attention-based LSTM with Multi-task Learning for Distant Speech Recognition. 18TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2017), VOLS 1-6null. 2017, 3857-3861, [50] 张舸, 张鹏远, 潘接林, 颜永红. 基于递归神经网络的语音识别快速解码算法. 电子与信息学报. 2017, 39(4): 930-937, http://lib.cqvip.com/Qikan/Article/Detail?id=671721806.
[51] 张鹏远, 计哲, 侯炜, 金鑫, 韩卫生. 小资源下语音识别算法设计与优化. 清华大学学报. 自然科学版[J]. 2017, 57(2): 147-152, [52] Wang Xuyang, Zhang Pengyuan, Na Xingyu, Pan Jielin, Yan Yonghong. Handling OOV Words in Mandarin Spoken Term Detection with an Hierarchical n-Gram Language Model. CHINESE JOURNAL OF ELECTRONICS[J]. 2017, 26(6): 1239-1244, https://www.webofscience.com/wos/woscc/full-record/WOS:000415662500019.
[53] 张一珂, 张鹏远, 颜永红. 基于多任务学习的神经网络语言模型建模方法. 2017, http://ir.xjipc.cas.cn/handle/365002/5368.
[54] 张宇, 张鹏远, 颜永红. 基于注意力LSTM和多任务学习的远场语音识别. 2017, http://ir.xjipc.cas.cn/handle/365002/5367.
[55] Zhang Ge, Zhang Pengyuan, Pan Jielin, Yan Yonghong, Liu Y, Zhao L, Cai G, Xiao G, Li KL, Wang L. Fast Variable-Frame-Rate Decoding of Speech Recognition Based on Deep Neural Networks. 2017 13TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)null. 2017, 821-825, http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000437355300131.
[56] 邢安昊, 张鹏远, 潘接林, 颜永红. 基于SVD的DNN裁剪方法和重训练. 清华大学学报. 自然科学版[J]. 2016, 56(7): 772-776, [57] Zhang, Yike, Zhang, Pengyuan, Li, Ta, Yan, Yonghong, IEEE. AN UNSUPERVISED VOCABULARY SELECTION TECHNIQUE FOR CHINESE AUTOMATIC SPEECH RECOGNITION. 2016 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2016)null. 2016, 420-425, [58] Wang, Xuyang, Zhang, Pengyuan, Zhao, Qingwei, Pan, Jielin, Yan, Yonghong. Improved End-to-End Speech Recognition Using Adaptive Per-Dimensional Learning Rate Methods. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS[J]. 2016, E99D(10): 2550-2553, https://www.webofscience.com/wos/woscc/full-record/WOS:000388743500015.
[59] Wang Xuyang, Li Ta, Zhang Pengyuan, Pan Jielin, Yan Yonghong, Watada J, Ito A, Pan JS, Chao HC, Chen CM. Enhanced Out of Vocabulary Word Detection Using Local Acoustic Information. 2014 TENTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP 2014)null. 2014, 594-597, http://dx.doi.org/10.1109/IIH-MSP.2014.154.
[60] Liu Yulan, Zhang Pengyuan, Hain Thomas, IEEE. USING NEURAL NETWORK FRONT-ENDS ON FAR FIELD MULTIPLE MICROPHONES BASED SPEECH RECOGNITION. 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)null. 2014, [61] 王旭阳, 张鹏远, 潘接林, 颜永红. 汉语语言集外词检索算法的改进研究. 网络新媒体技术. 2014, 30-32, http://lib.cqvip.com/Qikan/Article/Detail?id=661915997.
[62] Liu ZhaoJie, Shao Jian, Zhang PengYuan, Zhao QingWei, Yan YongHong, Feng Ji. Research on tone recognition in Chinese spontaneous speech. ACTA PHYSICA SINICA[J]. 2007, 56(12): 7064-7069, http://ir.iphy.ac.cn/handle/311004/52087.
[63] Liu ZhaoJie, Shao Jian, Zhang PengYuan, Zhao QingWei, Yan YongHong, Feng Ji. Research on tone recognition in Chinese spontaneous speech. ACTA PHYSICA SINICA[J]. 2007, 56(12): 7064-7069, http://ir.iphy.ac.cn/handle/311004/52087.
[64] 张鹏远, 韩疆, 颜永红. 关键词检测系统中基于音素网格的置信度计算. 电子与信息学报[J]. 2007, 29(9): 2063-2066, http://lib.cqvip.com/Qikan/Article/Detail?id=25584985.
[65] 张鹏远, 邵健, 赵庆卫, 颜永红. 广播新闻语音的关键词检测系统. 通信学报[J]. 2007, 28(12): 131-135, http://lib.cqvip.com/Qikan/Article/Detail?id=26223503.
[66] 韩疆, 刘晓星, 颜永红, 张鹏远, 潘接林. 一种任务域无关的语音关键词检测系统. 2005, http://kns.cnki.net/KCMS/detail/detail.aspx?QueryID=0&CurRec=97&recid=&FileName=ZGTH200508007011&DbName=CPFD9908&DbCode=CPFD&yx=&pr=&URLID=&bsm=.
[67] 韩疆, 刘晓星, 潘接林, 张建平, 颜永红, 张鹏远, 吕萍, 刘建. 一种网络信息安全中的语音关键词检测系统. 2004, http://kns.cnki.net/KCMS/detail/detail.aspx?QueryID=0&CurRec=98&recid=&FileName=ZGTH200408003017&DbName=CPFD9908&DbCode=CPFD&yx=&pr=&URLID=&bsm=.

科研活动

   
科研项目
( 1 ) 多语言言语数据的获取、标注和分析, 负责人, 国家任务, 2016-01--2020-12
( 2 ) ****技术研究与实现, 负责人, 国家任务, 2016-06--2017-06
( 3 ) ****关键词识别技术研究, 负责人, 国家任务, 2015-10--2016-10
( 4 ) 语种无关的语音关键词检测技术研究, 负责人, 研究所自选, 2015-08--2016-12
( 5 ) “语音地图”构建的理论与技术研究, 负责人, 国家任务, 2016-01--2018-12
( 6 ) ****技术研究, 负责人, 国家任务, 2016-12--2019-12
( 7 ) ****识别技术研究, 负责人, 国家任务, 2017-04--2018-03
( 8 ) ****技术研究与实现, 负责人, 国家任务, 2017-11--2018-11
( 9 ) 大规模连续语音识别领域的声学模型算法开发和改进, 负责人, 企业委托, 2017-06--2018-05
( 10 ) 适用于在线语音识别的声学模型拓扑结构研究, 负责人, 企业委托, 2017-10--2018-10
( 11 ) ****挖掘与分析, 负责人, 地方任务, 2016-10--2020-12
( 12 ) Multi-source Speech Recognition with Permutation Invariant Training, 负责人, 企业委托, 2018-07--2019-06
( 13 ) ****技术研究, 负责人, 国家任务, 2019-02--2022-01
( 14 ) 鲁棒音频场景识别技术研究, 负责人, 国家任务, 2021-01--2024-12
( 15 ) 语音生成对抗技术, 负责人, 国家任务, 2020-11--2021-12
( 16 ) 语音识别技术, 负责人, 中国科学院计划, 2020-01--2022-12
( 17 ) 语音综合分析技术, 负责人, 国家任务, 2020-12--2021-06
( 18 ) 语音信息挖掘技术, 负责人, 国家任务, 2020-09--2021-08
( 19 ) 听觉感知信号增强技术, 负责人, 国家任务, 2019-12--2023-12
( 20 ) 仿生信号生成技术, 负责人, 国家任务, 2020-03--2022-12
( 21 ) 音频真伪识别技术研究, 负责人, 国家任务, 2022-06--2024-06
参与会议
(1)音频鉴伪研究进展及展望   2021年声纹识别研究与应用学术研讨会   2021-11-20
(2)IMPROVING MULTICHANNEL SPEECH RECOGNITION WITH GENERALIZED CROSS CORRELATION INPUTS AND MULTITASK LEARNING   2018年国际声学、语音与信号处理会议   2018-04-15
(3)Attention-based LSTM with Multi-task Learning for Distant Speech Recognition   2016年国际语音通信协会年会   2017-08-20
(4)A DNN-HMM Approach to Non-negative Matrix Factorization Based Speech Enhancement   2016年国际语音通信协会年会   2016-09-07

指导学生

已指导学生

战鸽  博士研究生  081002-信号与信息处理  

卢春晖  硕士研究生  081002-信号与信息处理  

缪浩然  博士研究生  081002-信号与信息处理  

苗晓晓  博士研究生  081002-信号与信息处理  

刘畅  博士研究生  081002-信号与信息处理  

刘丹阳  博士研究生  081002-信号与信息处理  

陈航艇  博士研究生  081002-信号与信息处理  

邬龙  博士研究生  081002-信号与信息处理  

李文洁  博士研究生  081002-信号与信息处理  

张学君  博士研究生  081002-信号与信息处理  

刘钰卓  博士研究生  081002-信号与信息处理  

李昭奇  博士研究生  081002-信号与信息处理  

周博林  硕士研究生  085208-电子与通信工程  

张学帅  博士研究生  081002-信号与信息处理  

陈子毅  硕士研究生  081002-信号与信息处理  

王猛  硕士研究生  081002-信号与信息处理  

张浩哲  硕士研究生  081002-信号与信息处理  

现指导学生

杨润延  博士研究生  081002-信号与信息处理  

尚增强  博士研究生  081002-信号与信息处理  

刘育坤  博士研究生  081002-信号与信息处理  

杨家豪  博士研究生  081002-信号与信息处理  

柳宗铭  博士研究生  081002-信号与信息处理  

高长丰  博士研究生  081002-信号与信息处理  

孙国伦  博士研究生  081002-信号与信息处理  

胡澳林  硕士研究生  081002-信号与信息处理  

张宇翔  博士研究生  081002-信号与信息处理  

赵振铎  博士研究生  081002-信号与信息处理