基本信息

许家铭  男  副研究员  硕导  中国科学院自动化研究所
电子邮件: jiaming.xu@ia.ac.cn
通信地址: 北京市海淀区中关村东路95号智能化大厦808室
邮政编码:100190


团队Github: https://github.com/aispeech-lab

研究领域

研究方向围绕智能语音对话交互系统中语音识别抗噪差和语言理解能力低的两大痛点问题展开,具体如下:
1. 多模态人机交互
2. 语音与语言处理
3. 语音分离与识别
4. 智能问答与对话

在相关领域发表论文50余篇,包括AAAI, IJCAI, NeurIPS, ACL, EMNLP, ECML-PKDD, COLING, ICASSP, INTERSPEECH和IEEE Trans等国际会议和期刊。相关研究得到科技部、国家自然科学基金、北京市科委、中国科学院等项目经费支持,并与国内外多家科研院所和企业开展合作研究。

科学问题

1. 借鉴人耳听觉注意机理构建高鲁棒和可信的类人听觉系统;
2. 基于脑电等技术解码人耳听觉注意线索引导听觉注意建模;
3. 面向复杂交互场景基于半监督和强化学习的人机对话交互
4. 面向端侧芯片的超低比特轻量化听觉模型建模与移植部署

如上研究涉及到计算科学、神经科学、脑机接口、智能芯片等多学科领域。欢迎对智能语音交互及多学科交叉感兴趣的同学加入团队,共同探索听觉、语言、及视听觉等多模态感知与语义理解过程中的关键科学问题和技术问题,提升人机对话交互体验。

招生信息

招生专业
081104-模式识别与智能系统
招生方向

多模态人机交互
语音与语言处理

教育背景

2014-06--2014-08   香港中文大学   访学交流
2012-09--2016-01   中国科学院大学   工学博士
2009-09--2012-01   北京科技大学   工学硕士

工作经历

工作简历
2018-10~现在, 中国科学院自动化研究所, 副研究员, 硕导
2016-02~2018-10,中国科学院自动化研究所, 助理研究员
社会兼职

2020-10~今, 中国计算机学会, 语音对话与听觉专委会, 委员
2017-12~今, 中文信息学会, 青年工作委员会, 委员
2020-10~今, 人工智能学会, 青年工作委员会, 委员
2021-02~今, 中国图象图形学学会, 类脑视觉专委会, 委员
AAAI, ACL, ICONIP等程序委员会委员
IEEE TNNLS, Neural Networks, EMNLP, COLING, ICASSP, INTERSPEECH等国际会议和期刊审稿人

专利与奖励

奖励信息
(5) 中国科学院脑科学与智能技术卓越创新中心青年人才激励, 其他, 2020
(4) IBM PowerAI2017 Q3: AI马拉松编程, 二等奖, 其他, 2017
(3) NLPCC2016 Shared Task: 基于文档的开放域自动问答评测, 二等奖, 其他, 2016
(2) NDBC2015 Cup: 短文本语义相关度计算, 三等奖, 其他, 2015
(1) JIST2015 Challenge: 基于链接数据的实体类型预测, 二等奖, 其他, 2015
授权专利
( 13 ) 基于记忆和注意力模型的听觉选择方法和装置, 发明, 2017, 第 1 作者, 专利号: 201711127669.7
( 12 ) 基于有监督学习听觉注意的语音提取方法、系统、装置, 发明, 2022, 第 1 作者, 专利号: ZL201811558212.6
( 11 ) 语音增强方法、装置、存储介质、电子设备, 发明, 2022, 第 2 作者, 专利号: ZL201910631894.7
( 10 ) 语音增强方法、装置、存储介质、电子设备, 发明, 2021, 第 1 作者, 专利号: ZL201910631894.7
( 9 ) Speech Extraction Method, System, and Device Based on Supervised Learning Auditory Attention, 发明, 2021, 第 1 作者, 专利号: US10923136B2
( 8 ) Auditory Selection Method and Device based on Memory and Attention Model, 发明, 2020, 第 1 作者, 专利号: US10818311B2
( 7 ) 基于物理环境博弈的自主进化智能对话方法、系统、装置, 发明, 2019, 第 1 作者, 专利号: 201910014369.0
( 6 ) 一种基于变量绑定和关系激活的自动问答方法, 2020, 第 1 作者, 专利号: ZL201710755961.7 
( 5 ) 一种基于层次化记忆网络的问答方法, 发明, 2019, 第 1 作者, 专利号: ZL201610447676.4
( 4 ) 一种基于多粒度主题模型的短文本哈希学习方法, 发明, 2018, 第 2 作者, 专利号: ZL201410729347.X
( 3 ) 一种基于深度语义特征学习的短文本聚类方法, 发明, 2018, 第 2 作者, 专利号: ZL201510270028.1
( 2 ) 一种基于层次卷积网络的实体与段落链接方法, 发明, 2018, 第 3 作者, 专利号: ZL201510372795.3
( 1 ) 融合隐式语义特征的短文本哈希学习方法, 发明, 2017, 第 2 作者, 专利号: ZL201510096518.4

出版信息

发表著作

(1) 许家铭, 石晶, 徐波. 听觉系统与鸡尾酒会问题, The Auditory System at the Cocktail Party, 机械工业出版社, 2020-12, 第 1 作者


发表论文 [Google Scholar]

(32)Zhiwei Jiang, Jiaming Xu, Tielin Zhang, Muming Poo, Bo Xu. Origin of the efficiency of spike timing-based neural computation for processing temporal informationNeural Networks, 2022, 第 2 作者
(31)Jiaming Xu, Jian Cui, Yunzhe Hao, Bo Xu. Multi-Cue Guided Semi-Supervised Learning toward Target Speaker Separation in Real Environments, 2022 (under review), 第 1 作者
(30)Yating Huang, Yunzhe Hao, 
Jiaming Xu, Bo Xu. Compressing Speaker Extraction Model with Ultra-low Precision Quantization and Knowledge Distillation, Neural Networks, 2022, 通讯作者 [Code]
(29)Qinghua Liu, Yating Huang, Yunzhe Hao, Jiaming Xu, Bo Xu. LiMuSE: Lightweight Multi-modal Speaker Extraction, SLT, 2022, 通讯作者 [Code]
(28) Ziyi Ni, Jiaming Xu, Yuwei Wu, Mengfan Li, Guizhi Xu, Bo Xu. Improving Cross-State and Cross-Subject Visual ERP-Based BCI With Temporal Modeling and Adversarial Training, TNSRE, 2022, 共同 1 作 [Code]
27) Xiyun Li, Yong Xu, Meng Yu, Shi-Xiong Zhang, Jiaming Xu, Bo Xu, Dong Yu. MIMO Self-attentive RNN Beamformer for Multi-speaker Speech SeparationINTERSPEECH, 2021, 其他作者
26) 
Chenxing Li, Jiaming Xu, Nima Mesgarani, Bo XuSpeaker and Direction Inferred Dual-Channel Speech SeparationICASSP, 2021, 通讯作者 [Code]
(25) Yunzhe Hao, Jiaming Xu, Bo Xu. WASE: Learning When to Attend for Speaker Extraction in Cocktail Party EnvironmentsICASSP, 2021, 通讯作者 [Code]
(24) Yunzhe Hao, Jiaming Xu, Jing Shi, Peng Zhang, Lei Qin, Bo Xu. A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party Environments, INTERSPEECH, 2020, 通讯作者
(23) Jing Shi, Jiaming Xu, Yusuke Fujita, Shinji Watanabe, Bo Xu. Speaker-Conditional Chain Model for Speech Separation and Extraction, INTERSPEECH, 2020, 第 2 作者
(22) Jing Shi, Xuankai Chang, Pengcheng Guo, Shinji Watanabe, Yusuke Fujita, Jiaming Xu, Bo Xu, Lei Xie. Sequence to Multi-Sequence Learning via Conditional Chain Mapping for Mixture Signals, NeurIPS, 2020, 其他作者
(21) Feilong Chen, Fandong Meng, Jiaming Xu, Peng Li, Bo Xu, Jie Zhou. DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog, AAAI, 2020, 通讯作者
(20) Xiang Cheng, Yunzhe Hao, Jiaming Xu, Bo Xu. LISNN: Improving Spiking Neural Networks with Lateral Interactions for Robust Object RecognitionIJCAI, 2020, 通讯作者
(19) Jing Shi, Jiaming Xu, Yiqun Yao, Bo Xu. Concept Learning through Deep Reinforcement Learning with Memory-Augmented Neural NetworksNeural Networks, 2019, 第 2 作者
(18) 黄雅婷, 石晶, 许家铭, 徐波. 鸡尾酒会问题与相关听觉模型的研究现状与展望, Research Advances and Perspectives on the Cocktail Party Problem and Related Auditory Models自动化学报, 2019, 通讯作者
(17) Yiqun Yao, Jiaming Xu, Bo Xu. The World in My Mind: Visual Dialog with Adversarial Multi-modal Feature EncodingNAACL, 2019, 第 2 作者(16) Xiuyi Chen, Jiaming Xu, Bo Xu. A Working Memory Model for Task-oriented Dialog Response GenerationACL, 2019, 第 2 作者
(15) 刘广灿, 曹宇, 许家铭, 徐波. 基于对抗正则化的自然语言推理, Natural Language Inference Based on Adversarial Regularization自动化学报, 2019, 通讯作者
(14) Jing Shi, Jiaming Xu, Bo Xu. Which Ones Are Speaking? Speaker-inferred Model for Multi-talker Speech SeparationINTERSPEECH, 2019, 第 2 作者
(13) Jiaming Xu, Jing Shi, Guangcan Liu, Xiuyi Chen, Bo Xu. Modeling Attention and Memory for Auditory Selection in a Cocktail Party EnvironmentAAAI, 2018, 第 1 作者
(12) Jing Shi, Jiaming Xu, Guangcan Liu, Bo Xu. Listen, Think and Listen Again: Capturing Top-down Auditory Attention for Speaker-independent Speech SeparationIJCAI, 2018, 共同 1 作
(11) Yiqun Yao, Jiaming Xu, Jing Shi, Bo Xu. Learning to Activate Logic Rules for Textual ReasoningNeural Networks, 2018, 第 2 作者
(10) Yiqun Yao, Jiaming Xu, Feng Wang, Bo Xu. Cascaded Mutual Modulation for Visual ReasoningEMNLP, 2018, 第 2 作者
(9) Peng Zhou, Jiaming Xu, Zhenyu Qi, Hongyun Bao, Zhineng Chen, Bo Xu. Distant Supervision for Relation Extraction with Hierarchical Selective AttentionNeural Networks, 2018, 第 2 作者
(8) Jiaming Xu, Bo Xu, Peng Wang, Suncong Zheng, Guanhua Tian, Jun Zhao, Bo Xu. Self-Taught Convolutional Neural Networks for Short Text ClusteringNeural Networks, 2017, 第 1 作者
(7) Peng Wang, Bo Xu, Jiaming Xu, Guanhua Tian, Chenglin Liu, Hongwei Hao. Semantic Expansion using Word Embedding Clustering and Convolutional Neural Network for Improving Short Text ClassificationNeurocomputing, 2016, 其他作者
(6) Suncong Zheng, Jiaming Xu, Hongyun Bao, Zhenyu Qi, Jie Zhang, Hongwei Hao, Bo Xu. Joint Learning of Entity Semantics and Relation Pattern for Relation ExtractionECML, 2016, 通讯作者
(5) Peng Zhou, Zhenyu Qi, Suncong Zheng, Jiaming Xu, Hongyun Bao, Bo Xu. Text Classification Improved by Integrating Bidirectional LSTM with Two-dimensional Max PoolingCOLING, 2016, 其他作者
(4) Jiaming Xu, Jing Shi, Yiqun Yao, Suncong Zheng, Bo Xu, Bo Xu. Hierarchical Memory Networks for Answer Selection on Unknown WordsCOLING, 2016, 第 1 作者
(3) Suncong Zheng, Jiaming Xu, Peng Zhou, Hongyun Bao, Zhenyu Qi, Bo Xu. A Neural Network Framework for Relation Extraction: Learning Entity Semantic and Relation PatternKnowledge-Based Systems, 2016, 第 2 作者
(2) Jiaming Xu, Peng Wang, Guanhua Tian, Bo Xu, Jun Zhao, Fangyuan Wang, Hongwei Hao. Convolutional Neural Networks for Text HashingIJCAI, 2015, 第 1 作者
(1) Peng Wang, Jiaming Xu, Bo Xu, Chenglin Liu, Heng Zhang, Fangyuan Wang, Hongwei Hao. Semantic Clustering and Convolutional Neural Network for Short Text CategorizationACL, 2015, 第 2 作者

科研活动

   
科研项目
( 1 ) 基于记忆、推理和注意力机制的端到端神经对话系统研究, 主持, 国家级, 2017-01--2019-12
( 2 ) 听觉与语言自主进化研究, 主持, 部委级, 2018-06--2019-06
( 3 ) 类脑视听觉感知模型, 主持, 部委级, 2017-07--2018-06
( 4 ) 类脑智能信息处理, 参与, 部委级, 2015-07--2017-06
( 5 ) 高级认知功能类脑计算模型, 参与, 部委级, 2018-01--2022-12
( 6 ) 通用场景下视听觉协同的注意选择研究, 主持, 省级, 2018-08--2021-08
( 7 ) 多模态自适应感知模型与算法及验证, 主持, 国家级, 2019-01--2022-12
( 8 ) 面向目标检测识别的类脑模型算法研究, 主持, 国家级, 2019-09--2020-11

指导学生

指导学生

王子翼,硕士研究生,2022.09 - 至今
倪子懿,硕士研究生,2021.09 - 至今

联合指导

郝云喆,博士研究生,2017.09 - 至今
黄雅婷,博士研究生,2016.09 - 至今
张鹏,硕士研究生,2018.09 - 2021.06,面向鸡尾酒会问题的视觉辅助语音分离算法研究
石晶,博士研究生,2017.09 - 2021.01,复杂环境下的听觉感知关键技术研究
李晨星,博士研究生,2015.09 - 2020.06,复杂场景语音前端增强与分离算法研究
刘广灿,硕士研究生,2016.09 - 2019.06,对抗网络在语音和语言任务上的应用
姚轶群,博士研究生,2014.09 - 2019.06,引入物理环境信息的问答技术研究

客座访问

刘清华,天津大学,电子信息工程,2018级本科生,2021.06 - 2022.02,超轻量化视听觉感知建模
伍煜玮,河北工业大学,生物医学工程,2018级硕士研究生,2020.09 - 2020.12,视听觉脑机接口
江智伟,中国科学院神经科学研究所,神经科学计算,2017级博士研究生,2017.11 - 2019.12,脉冲序列编码与学习