谢旭荣-中国科学院大学-UCAS

研究领域

语音和语言处理、机器学习、计算统计、人机交互、计算认知科学

招生信息

招生专业

085400-电子信息
083500-软件工程
081203-计算机应用技术

招生方向

语音和语言处理，语音识别，语音合成
机器学习，计算统计
人机交互，计算认知科学

教育背景

学位

学士：中山大学哲学专业

学士：中山大学数学与应用数学专业

硕士：伦敦大学学院（UCL）计算统计与机器学习专业

博士：香港中文大学电子工程学专业

个人简介

谢旭荣现任中国科学院软件研究所副研究员，研究方向包括语音和语言处理（如语音识别与合成）、人机交互、机器学习、计算认知科学，以及基于多通道信息的疾病诊断与康复技术等，在语音领域顶会Interspeech、ICASSP，顶刊IEEE/ACM Transactions on Audio, Speech, and Language Processing等共发表论文40余篇，提出的神经网络声学模型贝叶斯自适应技术（BLHUC: Bayesian learning of hidden unit contributions for deep neural network speaker adaptation）获得语音处理领域顶会ICASSP 2019最佳学生论文奖。加入软件所之前他先后在UCL盖茨比(Gatsby)计算神经科学中心、中国科学院深圳先进技术研究院环绕智能与多模态系统研究实验室、香港中文大学电子工程系数字信号处理与语音技术实验室、语言与沟通障碍研究中心、系统工程与工程管理系等学习及担任研究助理，是香港中文大学言语障碍语音处理系统的主要贡献者及首批研发人员之一。他于2023年获得“中国科学院软件研究所优秀青年科技人才计划”以及“中国科学院青年创新促进会会员”人才类项目资助。

科研主页：

ResearchGate https://www.researchgate.net/profile/Xurong-Xie/research

Google Scholar https://scholar.google.com/citations?hl=en&user=bGD7wa0AAAAJ

社会兼职

2024-11-07-2024-11-10,ISCSLP 2024 Session chair,
2024-08-18-今,CCF语音对话与听觉专业委员会执行委员,
2023-08-24-今,CCF人机交互专业委员会执行委员,
2021-01-21-2021-01-23,ISCSLP 2021 Session chair,
2017-05-28-今,Interspeech、ICASSP、ISCSLP、CHI、IEEE/ACM TASLP、Artificial Intelligence Review、Expert Systems With Applications、Scientific Data、Scientific Reports等审稿人,

专利与荣誉

荣誉信息

（1） Multimodal Dysarthria Severity Assessment Challenge 2024 第三名, 其他, 2024
（2） IEEE ICASSP 2019 最佳学生论文奖, , 其他, 2019
（3） SPS grant (ICASSP travel grant), , 其他, 2019
（4）香港中文大学全额博士奖学金, , 研究所（学校）, 2015
（5） ISCA grant (Interspeech travel grant), 其他, 2014
（6） UCL优秀（Distinction）硕士学位, , 研究所（学校）, 2012

专利成果

（ 1 ）音频数据可视化方法及装置, 专利授权, 2017, 第 1 作者, 专利号: CN106649703A

（ 2 ）一种自适应语言训练方法和平台, 发明专利, 2014, 第 4 作者, 专利号: CN103605492A

（ 3 ）基于超声的多模态发音数据采集方法和系统, 发明专利, 2023, 第 2 作者, 专利号: 202310553170.1

（ 4 ）一种用于病理语音识别的语音变异性编码方法, 发明专利, 2024, 第 2 作者, 专利号: 202411144881.4

（ 5 ）基于语音数据检索增强技术的障碍语音识别和重构方法, 发明专利, 2024, 第 2 作者, 专利号: 202411141494.5

（ 6 ）一种基于超声的语音识别和重构方法与系统, 发明专利, 2024, 第 2 作者, 专利号: 202410818727.4

（ 7 ）一种淡漠综合征的自动检测方法、装置、设备和存储介质, 发明专利, 2024, 第 3 作者, 专利号: 202410420226.0

（ 8 ）基于多模态大模型的困境儿童依恋状态评估方法、装置, 发明专利, 2024, 第 3 作者, 专利号: 202410745472.3

（ 9 ）计算机辅助情感社交康复训练方法、装置、设备和介质, 发明专利, 2024, 第 5 作者, 专利号: 202410330903.X

（ 10 ）基于内嵌三维参数的驾驶员注视估计方法及装置, 发明专利, 2023, 第 4 作者, 专利号: 202310917593.7

（ 11 ）基于循环特征提取的音乐生成模型的训练方法、训练装置, 发明专利, 2021, 第 4 作者, 专利号: 202110379387.6

（ 12 ）音乐生成模型的训练方法及训练装置、存储介质、设备, 发明专利, 2021, 第 4 作者, 专利号: 202110378669.4

出版信息

发表论文

（1） Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024, 第 2 作者  通讯作者
（2） Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask, Interspeech 2024, 2024, 第 2 作者  通讯作者
（3） Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition, Interspeech 2024, 2024, 第 3 作者  通讯作者
（4） Towards High-Performance and Low-Latency Feature-Based Speaker Adaptation of Conformer Speech Recognition Systems, ICASSP, 2024, 第 2 作者
（5） Towards Automatic Data Augmentation for Disordered Speech Recognition, ICASSP, 2024, 第 2 作者
（6） Use of Speech Impairment Severity for Dysarthric Speech Recognition, Interspeech, 2023, 第 9 作者
（7） Probing Lexical Ambiguity in Chinese Characters via Their Word Formations: Convergence of Perceived and Computed Metrics, COGNITIVE SCIENCE, 2023, 第 3 作者
（8） Exploring self-supervised pre-trained asr models for dysarthric and elderly speech recognition, ICASSP, 2023, 第 2 作者
（9） Confidence Score Based Speaker Adaptation of Conformer Speech Recognition systems, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 2023, 第 2 作者  通讯作者
（10） ChallengeDetect: Investigating the Potential of Detecting In-Game Challenge Experience from Physiological Measures, Conference on Human Factors in Computing Systems, 2023, 第 2 作者
（11） Unsupervised model-based speaker adaptation of end-to-end lattice-free MMI model for speech recognition, ICASSP, 2023, 第 1 作者
（12） Adversarial data augmentation using vae-gan for disordered speech recognition, ICASSP, 2023, 第 2 作者
（13） Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems, Interspeech, 2023, 第 3 作者
（14） Exploiting cross-domain and cross-lingual ultrasound tongue imaging features for elderly and dysarthric speech recognition, Interspeech, 2023, 第 2 作者
（15） On-the-fly feature based speaker adaptation for dysarthric and elderly speech recognition, Interspeech, 2023, 第 2 作者
（16） Detecting challenge from physiological signals- A primary study with a typical game scenario, CHI Conference on Human Factors in Computing Systems Extended Abstracts, 2022, 第 3 作者
（17） Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For Disordered Speech Recognition, ICASSP, 2022, 第 3 作者
（18） Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric and Elderly Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2022, 第 2 作者
（19） Neural Architecture Search for LF-MMI Trained Time Delay Neural Networks, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2022, 第 2 作者
（20） Confidence Score Based Conformer Speaker Adaptation for Speech Recognition, Interspeech, 2022, 第 2 作者
（21） Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition, Interspeech, 2021, 第 4 作者
（22） Adversarial Data Augmentation for Disordered Speech Recognition, Interspeech, 2021, 第 3 作者
（23） Variational Auto-Encoder Based Variability Encoding for Dysarthric Speech Recognition, Interspeech, 2021, 第 1 作者
（24） Recent Progress in the CUHK Dysarthric Speech Recognition System, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 4 作者
（25） Bayesian Learning for Deep Neural Network Adaptation, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 1 作者
（26） Bayesian Learning of LF-MMI Trained Time Delay Neural Networks for Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 2 作者
（27） NEURAL ARCHITECTURE SEARCH FOR LF-MMI TRAINED TIME DELAY NEURAL NETWORKS, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 2 作者
（28） Bayesian Parametric and Architectural Domain Adaptation of LF-MMI Trained TDNNs for Elderly and Dysarthric Speech Recognition, Interspeech, 2021, 第 5 作者
（29） Investigation of Data Augmentation Techniques for Disordered Speech Recognition, Interspeech, 2020, 第 2 作者
（30） Exploiting Cross-Domain Visual Feature Generation for Disordered Speech Recognition, Interspeech2020, 2020, 第 2 作者
（31） BLHUC: BAYESIAN LEARNING OF HIDDEN UNIT CONTRIBUTIONS FOR DEEP NEURAL NETWORK SPEAKER ADAPTATION, 2019IEEEINTERNATIONALCONFERENCEONACOUSTICSSPEECHANDSIGNALPROCESSINGICASSP, 2019, 第 1 作者

科研活动

科研项目

（ 1 ）中国科学院软件研究所重大项目：人机增强智能计算平台, 参与, 研究所自主部署, 2024-06--2026-05
（ 2 ）中国残联课题残疾人事业综合课题研究-孤独症谱系障碍儿童情感社交康复训练系统开发及应用研究, 参与, 国家任务, 2024-03--2027-12
（ 3 ）中国科学院软件所优秀青年科技人才计划, 负责人, 研究所自主部署, 2023-12--2026-12
（ 4 ）多模态交互软件, 参与, 国家任务, 2023-06--2024-11
（ 5 ）中国科学院青年创新促进会项目, 负责人, 中国科学院计划, 2023-03--2027-03
（ 6 ） "新一代人工智能"重大项目"面向神经系统疾病预警的智能人机交互关键技术"子课题“自然交互场景认知神经功能解析”, 负责人, 国家任务, 2023-03--2027-03
（ 7 ）新一代人工智能”重大项目"面向神经系统疾病预警的智能人机交互关键技术", 参与, 国家任务, 2023-03--2027-03
（ 8 ）广州市民政局“揭榜挂帅”项目：基于依恋理论的困境儿童情绪行为问题早期干预研究, 参与, 地方任务, 2023-01--2025-12
（ 9 ）国家自然科学基金青年项目：面向构音障碍者的个性化语音重构方法研究, 负责人, 国家任务, 2022-01--2024-12
（ 10 ）科技部国家重点研发计划-发声与言语功能障碍康复训练系统：汉语发声与言语器官运动多模态数据获取与处理, 参与, 国家任务, 2020-07--2023-06
（ 11 ）国家自然科学基金通用技术联合基金重点支持项目：复杂环境下语音数据的目标识别与内容转写, 参与, 国家任务, 2018-01--2021-12

合作情况

项目协作单位

香港中文大学

中国科学院深圳先进技术研究院

指导学生

现指导学生

郑天硕士研究生 083500-软件工程

陈易翔硕士研究生 085405-软件工程