基本信息

谢旭荣  男  硕导  中国科学院软件研究所
电子邮件: xurong@iscas.ac.cn
通信地址:北京市海淀区中关村南四街4号中科院软件园5号楼715
邮政编码:100190

研究领域

语音和语言处理、机器学习、计算统计、人机交互、计算认知科学

招生信息

   
招生专业
085400-电子信息
083500-软件工程
081203-计算机应用技术
招生方向
语音和语言处理,语音识别,语音合成
机器学习,计算统计
人机交互,计算认知科学

教育背景

   
学位

学士:中山大学 哲学专业

学士:中山大学 数学与应用数学专业

硕士:伦敦大学学院(UCL)计算统计与机器学习专业

博士:香港中文大学 电子工程学专业

个人简介

谢旭荣现任中国科学院软件研究所副研究员,研究方向包括语音和语言处理(如语音识别与合成)、人机交互、机器学习、计算认知科学,以及基于多通道信息的疾病诊断与康复技术等,在语音领域顶会Interspeech、ICASSP,顶刊IEEE/ACM Transactions on Audio, Speech, and Language Processing等共发表论文40余篇,提出的神经网络声学模型贝叶斯自适应技术(BLHUC: Bayesian learning of hidden unit contributions for deep neural network speaker adaptation)获得语音处理领域顶会ICASSP 2019最佳学生论文奖。博士期间及毕业后他先后在香港中文大学电子工程系数字信号处理与语音技术实验室、语言与沟通障碍研究中心、系统工程与工程管理系学习及担任研究助理,是香港中文大学言语障碍语音处理系统的主要贡献者及首批研发人员之一。同时他在中国科学院深圳先进技术研究院的环绕智能与多模态系统研究实验室联合培养。硕士期间他曾在UCL盖茨比(Gatsby)计算神经科学中心学习。他于2023年获得“中国科学院软件研究所优秀青年科技人才计划”以及“中国科学院青年创新促进会会员”人才类项目资助。

科研主页:

ResearchGate https://www.researchgate.net/profile/Xurong-Xie/research

Google Scholar https://scholar.google.com/citations?hl=en&user=bGD7wa0AAAAJ

社会兼职
2023-08-24-今,CCF人机交互专业委员会执行委员,
2021-01-21-2021-01-23,ISCSLP 2021 Session chair,
2017-05-29-今,Interspeech、ICASSP、ISCSLP、CHI、IEEE/ACM TASLP、Artificial Intelligence Review、Expert Systems With Applications、Scientific Reports等审稿人,

专利与荣誉

   
荣誉信息
(1) 中国科学院软件所优秀青年科技人才计划, , 研究所(学校), 2023
(2) 中国科学院青年创新促进会会员, , 院级, 2023
(3) IEEE ICASSP 2019 最佳学生论文奖, , 其他, 2019
(4) SPS grant (ICASSP travel grant), , 其他, 2019
(5) 香港中文大学全额博士奖学金, , 研究所(学校), 2015
(6) ISCA grant (Interspeech travel grant), 其他, 2014
(7) UCL优秀(Distinction)硕士学位, , 研究所(学校), 2012
专利成果
( 1 ) 音频数据可视化方法及装置, 专利授权, 2017, 第 1 作者, 专利号: CN106649703A

( 2 ) 一种自适应语言训练方法和平台, 发明专利, 2014, 第 4 作者, 专利号: CN103605492A

( 3 ) 基于超声的多模态发音数据采集方法和系统, 发明专利, 2023, 第 2 作者, 专利号: 2023105531701

出版信息

   
发表论文
(1) Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024, 第 2 作者  通讯作者
(2) Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask, Interspeech 2024, 2024, 第 2 作者  通讯作者
(3) Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition, Interspeech 2024, 2024, 第 3 作者  通讯作者
(4) Towards High-Performance and Low-Latency Feature-Based Speaker Adaptation of Conformer Speech Recognition Systems, ICASSP, 2024, 第 2 作者
(5) Towards Automatic Data Augmentation for Disordered Speech Recognition, ICASSP, 2024, 第 2 作者
(6) Use of Speech Impairment Severity for Dysarthric Speech Recognition, Interspeech, 2023, 第 9 作者
(7) Probing Lexical Ambiguity in Chinese Characters via Their Word Formations: Convergence of Perceived and Computed Metrics, COGNITIVE SCIENCE, 2023, 第 3 作者
(8) Exploring self-supervised pre-trained asr models for dysarthric and elderly speech recognition, ICASSP, 2023, 第 2 作者
(9) Confidence Score Based Speaker Adaptation of Conformer Speech Recognition systems, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 2023, 第 2 作者  通讯作者
(10) ChallengeDetect: Investigating the Potential of Detecting In-Game Challenge Experience from Physiological Measures, Conference on Human Factors in Computing Systems, 2023, 第 2 作者
(11) Unsupervised model-based speaker adaptation of end-to-end lattice-free MMI model for speech recognition, ICASSP, 2023, 第 1 作者
(12) Adversarial data augmentation using vae-gan for disordered speech recognition, ICASSP, 2023, 第 2 作者
(13) Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems, Interspeech, 2023, 第 3 作者
(14) Exploiting cross-domain and cross-lingual ultrasound tongue imaging features for elderly and dysarthric speech recognition, Interspeech, 2023, 第 2 作者
(15) On-the-fly feature based speaker adaptation for dysarthric and elderly speech recognition, Interspeech, 2023, 第 2 作者
(16) Detecting challenge from physiological signals- A primary study with a typical game scenario, CHI Conference on Human Factors in Computing Systems Extended Abstracts, 2022, 第 3 作者
(17) Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For Disordered Speech Recognition, ICASSP, 2022, 第 3 作者
(18) Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric and Elderly Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2022, 第 2 作者
(19) Neural Architecture Search for LF-MMI Trained Time Delay Neural Networks, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2022, 第 2 作者
(20) Confidence Score Based Conformer Speaker Adaptation for Speech Recognition, Interspeech, 2022, 第 2 作者
(21) Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition, Interspeech, 2021, 第 4 作者
(22) Adversarial Data Augmentation for Disordered Speech Recognition, Interspeech, 2021, 第 3 作者
(23) Variational Auto-Encoder Based Variability Encoding for Dysarthric Speech Recognition, Interspeech, 2021, 第 1 作者
(24) Recent Progress in the CUHK Dysarthric Speech Recognition System, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 4 作者
(25) Bayesian Learning for Deep Neural Network Adaptation, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 1 作者
(26) Bayesian Learning of LF-MMI Trained Time Delay Neural Networks for Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 2 作者
(27) NEURAL ARCHITECTURE SEARCH FOR LF-MMI TRAINED TIME DELAY NEURAL NETWORKS, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 2 作者
(28) Bayesian Parametric and Architectural Domain Adaptation of LF-MMI Trained TDNNs for Elderly and Dysarthric Speech Recognition, Interspeech, 2021, 第 5 作者
(29) Investigation of Data Augmentation Techniques for Disordered Speech Recognition, Interspeech, 2020, 第 2 作者
(30) Exploiting Cross-Domain Visual Feature Generation for Disordered Speech Recognition, Interspeech2020, 2020, 第 2 作者
(31) BLHUC: BAYESIAN LEARNING OF HIDDEN UNIT CONTRIBUTIONS FOR DEEP NEURAL NETWORK SPEAKER ADAPTATION, 2019IEEEINTERNATIONALCONFERENCEONACOUSTICSSPEECHANDSIGNALPROCESSINGICASSP, 2019, 第 1 作者

科研活动

   
科研项目
( 1 ) 中国科学院软件研究所重大项目:人机增强智能计算平台, 参与, 研究所自主部署, 2024-06--2026-05
( 2 ) 中国科学院软件所优秀青年科技人才计划, 负责人, 研究所自主部署, 2023-12--2026-12
( 3 ) 中国科学院青年创新促进会项目, 负责人, 中国科学院计划, 2023-03--2027-03
( 4 ) "新一代人工智能"重大项目"面向神经系统疾病预警的智能人机交互关键技术"子课题“自然交互场景认知神经功能解析”, 负责人, 国家任务, 2023-03--2027-03
( 5 ) 新一代人工智能”重大项目"面向神经系统疾病预警的智能人机交互关键技术", 参与, 国家任务, 2023-03--2027-03
( 6 ) 广州市民政局“揭榜挂帅”项目:基于依恋理论的困境儿童情绪行为问题早期干预研究, 参与, 地方任务, 2023-01--2025-12
( 7 ) 广西人机交互与智能决策重点实验室开放课题:远程教育中的视听协同行为分析研究, 负责人, 研究所自主部署, 2022-07--2025-06
( 8 ) 国家自然科学基金青年项目:面向构音障碍者的个性化语音重构方法研究, 负责人, 国家任务, 2022-01--2024-12
( 9 ) 科技部国家重点研发计划-发声与言语功能障碍康复训练系统:汉语发声与言语器官运动多模态数据获取与处理, 参与, 国家任务, 2020-07--2023-06
( 10 ) 国家自然科学基金通用技术联合基金重点支持项目:复杂环境下语音数据的目标识别与内容转写, 参与, 国家任务, 2018-01--2021-12

合作情况

   
项目协作单位

香港中文大学

中国科学院深圳先进技术研究院