基本信息
黎塔  男  博导  中国科学院声学研究所
电子邮件: lita@hccl.ioa.ac.cn
通信地址: 北京市北四环西路21号
邮政编码:

招生信息

   
招生专业
081002-信号与信息处理
招生方向
语音信号处理,语音识别

教育背景

2005-09--2010-07   中国科学院声学研究所   博士
1999-09--2003-07   南京大学   本科学历,学士

工作经历

   
工作简历
2018-07~现在, 中国科学院声学研究所, 研究员
2012-12~2018-06,中国科学院声学研究所, 副研究员
2010-07~2012-12,中国科学院声学研究所, 助理研究员

专利与奖励

   
奖励信息
(1) 北京市科技进步奖, 二等奖, 省级, 2019
(2) 中国科学院杰出成就奖, 特等奖, 院级, 2014
专利成果
[1] 程高峰, 杨润延, 黎塔, 张鹏远, 颜永红. 一种语音关键词检索方法、系统和电子装置. CN: CN113192535A, 2021-07-30.

[2] 颜永红, 王寻, 张鹏远, 黎塔, 周军. 一种基础心音识别方法及设备. CN: CN111938691B, 2022-03-18.

[3] 赵江江, 李昭奇, 任玉玲, 李青龙, 黎塔, 颜永红. 语音关键词识别方法和装置. CN: CN111798840A, 2020-10-20.

[4] 黎塔, 邬龙, 张鹏远, 颜永红. 一种端到端远场语音识别方法及系统. CN: CN111179920A, 2020-05-19.

[5] 黎塔, 张震, 程高峰, 万辛, 颜永红. 一种基于无网格最大互信息准则的神经网络训练加速方法. CN: CN108629412A, 2018-10-09.

[6] 张鹏远, 张一珂, 黎塔, 颜永红. 一种基于统计规律的中文词汇表未登录词比率的估计方法. CN: CN108109624A, 2018-06-01.

[7] 黎塔, 刘作桢, 张鹏远. 一种语音唤醒方法及装置. CN: CN112951211A, 2021-06-11.

[8] 赵江江, 李昭奇, 任玉玲, 李青龙, 黎塔, 颜永红. 语音关键词识别方法和装置. CN: CN111798840B, 2023-08-08.

[9] 黎塔, 邬龙, 张鹏远, 颜永红. 一种端到端远场语音识别方法及系统. CN: CN111179920B, 2023-01-24.

[10] 黎塔, 缪浩然, 张鹏远, 高圣翔, 黄远, 沈亮, 林格平. 一种基于自适应热词权重的语音识别方法及系统. CN: CN111354347B, 2023-08-15.

[11] 颜永红, 黎塔, 赵庆卫, 潘接林. 一种双向语音识别处理系统及方法. CN: CN101645270A, 2010-02-10.

出版信息

   
发表论文
[1] 刘作桢, 吴愁, 黎塔, 赵庆卫. 面向自定义语音唤醒的关键词相关的单通道语音增强. 声学学报[J]. 2023, 48(2): 415-424, http://lib.cqvip.com/Qikan/Article/Detail?id=7109411384.
[2] Junyu Peng, Weihang Nie, Ta Li, Ji Xu. An end-to-end DOA estimation method based on deep learning for underwater acoustic array. Oceans 2022null. 2022, [3] 李昭奇, 黎塔. 基于wav2vec预训练的样例关键词识别. 计算机科学[J]. 2022, 49(1): 59-64, http://lib.cqvip.com/Qikan/Article/Detail?id=7106430423.
[4] Liu, Zuozhen, Li, Ta, Zhang, Pengyuan. Neural keyword confidence estimation for open-vocabulary keyword spotting. ELECTRONICSLETTERS[J]. 2022, 58(3): 133-135, http://dx.doi.org/10.1049/ell2.12368.
[5] Gao, Changfeng, 程高峰, Li, Ta, Zhang, Pengyuan, Yan, Yonghong. Self-Supervised Pre-Training for Attention-Based Encoder-Decoder ASR Model. IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING[J]. 2022, 30: 1763-1774, http://dx.doi.org/10.1109/TASLP.2022.3171967.
[6] 何文龙, 高长丰, 黎塔, 刘建. 基于对抗训练的端到端语音翻译研究. 信号处理[J]. 2021, 37(5): 893-901, http://lib.cqvip.com/Qikan/Article/Detail?id=7104751012.
[7] 杨润延, 程高峰, 缪浩然, 黎塔, 张鹏远, 颜永红. Keyword search using attention-based end-to-end ASR and framesynchronous phoneme alignments. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)[J]. 2021, [8] Li Ta. Improves Neural Acoustic Word Embeddings Query by Example Spoken Term Detection with Wav2vec Pretraining and Circle Loss. iscslp2021. 2021, [9] Liu, Zuozhen, Li, Ta, Zhang, Pengyuan, IEEE. RNN-T BASED OPEN-VOCABULARY KEYWORD SPOTTING IN MANDARIN WITH MULTI-LEVEL DETECTION. 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021)null. 2021, 5649-5653, [10] 王文超, 黎塔. 基于多时间尺度的深层说话人特征提取研究. 网络新媒体技术[J]. 2019, [11] Liu, Chang, Zhang, Pengyuan, Li, Ta, Yan, Yonghong. Semantic Features Based N-Best Rescoring Methods for Automatic Speech Recognition. APPLIED SCIENCES-BASEL[J]. 2019, 9(23): http://dx.doi.org/10.3390/app9235053.
[12] Long Wu, Ta Li, Li Wang, Yonghong Yan. Improving Hybrid CTC/Attention Architecture with Time-Restricted Self-Attention CTC for End-to-End Speech Recognition. APPLIED SCIENCES[J]. 2019, 9(21): https://doaj.org/article/18b538b09c53488cb25b993ec03278b7.
[13] Wu, Long, Li, Ta, Wang, Li, Yan, Yonghong. Improving Hybrid CTC/Attention Architecture with Time-Restricted Self-Attention CTC for End-to-End Speech Recognition. APPLIED SCIENCES-BASEL[J]. 2019, 9(21): http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000498058600164.
[14] 邬龙, 黎塔, 王丽. 基于限时自关注CTC的混合CTC/Attention结构在端到端语音识别中的改进. APPLIED SCIENCES[J]. 2019, 9(21): 4639-, [15] Wu Long, Wang Li, Zhang Pengyuan, Li Ta, Yan Yonghong, IEEE. Space-Time Residual LSTM Architechture for Distant Speech Recognition. 2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)null. 2018, 379-383, http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000469313700077.
[16] 左玲云, 张晴晴, 黎塔. 电话交谈语音识别中基于 LSTM-DNN 语言模型的重评估方法研究. 重庆邮电大学学报 (自然科学版)[J]. 2016, 28(28): 180-186, [17] Zhang, Yike, Zhang, Pengyuan, Li, Ta, Yan, Yonghong, IEEE. AN UNSUPERVISED VOCABULARY SELECTION TECHNIQUE FOR CHINESE AUTOMATIC SPEECH RECOGNITION. 2016 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2016)null. 2016, 420-425, [18] Xing Anhao, Jin Xin, Li Ta, Wang Xuyang, Pan Jielin, Yan Yonghong, IEEE. Speeding up Deep Neural Networks for Speech Recognition on ARM Cortex-A Series Processors. 2014 10TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION (ICNC)null. 2014, 123-127, [19] Wang Xuyang, Li Ta, Xiao Yeming, Pan Jielin, Yan Yonghong, IEEE. Improved Mandarin Spoken Term Detection by Using Deep Neural Network for Keyword Verification. 2014 10TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION (ICNC)null. 2014, 144-148, [20] Si Yujing, Li Ta, Pan Jielin, Yan Yonghong. A Prefix Tree Based n-best List Re-scoring Strategy for Recurrent Neural Network Language Model. CHINESE JOURNAL OF ELECTRONICS[J]. 2014, 23(1): 70-74, https://www.webofscience.com/wos/woscc/full-record/WOS:000330089800013.
[21] Wang Xuyang, Li Ta, Zhang Pengyuan, Pan Jielin, Yan Yonghong, Watada J, Ito A, Pan JS, Chao HC, Chen CM. Enhanced Out of Vocabulary Word Detection Using Local Acoustic Information. 2014 TENTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP 2014)null. 2014, 594-597, http://dx.doi.org/10.1109/IIH-MSP.2014.154.
[22] Si Yujing, Zhang Qingqing, Li Ta, Pan Jielin, Yan Yonghong, Bimbot F, Cerisara C, Fougeron C, Gravier G, Lamel L, Pellegrino F, Perrier P. Prefix Tree based N-best list Re-scoring for Recurrent Neural Network Language Model used in Speech Recognition System. 14THANNUALCONFERENCEOFTHEINTERNATIONALSPEECHCOMMUNICATIONASSOCIATIONINTERSPEECH2013VOLS15null. 2013, 3386-3390, [23] 邢安昊, 黎塔, 颜永红. 利用二重打分方法的激活词语音识别. 声学技术[J]. 2013, 211-212, http://lib.cqvip.com/Qikan/Article/Detail?id=1005596859.
[24] 黎塔, 蔡尚, 赵庆卫, 潘接林, 颜永红. 嵌入式语音识别中一种高效的图搜索算法. 东南大学学报(自然科学版)[J]. 2009, 39(增刊): 215-218, http://lib.cqvip.com/Qikan/Article/Detail?id=1003857120.
[25] Zhang Qingqing, Li Ta, Pan Jielin, Yan Yonghong, ISCAINST SPEECH COMMUNICATION ASSOC. Nonnative Speech Recognition Based on State-Candidate Bilingual Model Modification. INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5null. 2008, 2366-2369, http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000277026101170.

科研活动

   
科研项目
( 1 ) 面向多语言层次化和结构化的声学模型建模方法与系统集成, 参与, 国家级, 2016-01--2020-12
( 2 ) 语音信号技术合作项目, 主持, 院级, 2019-06--2020-06
( 3 ) 客服机器人质检分析, 主持, 院级, 2019-08--2024-12
( 4 ) 基于领域先验的汉语语音识别结果纠错技术研究, 主持, 市地级, 2016-12--2020-12