基本信息
刘斌  男  硕导  中国科学院自动化研究所
电子邮件: liubin@nlpr.ia.ac.cn
通信地址: 北京市海淀区中关村东路95号智能化大厦710
邮政编码:

招生信息

   
招生专业
081104-模式识别与智能系统
招生方向
情感计算,语音与音频处理,人机交互

教育背景

2011-09--2015-07   中科院自动化所   工学博士
2007-09--2009-07   北京理工大学   工学硕士
2003-09--2007-07   北京理工大学   工学学士

工作经历

   
工作简历
2018-11~现在, 中科院自动化所, 副研究员
2015-07~2018-10,中科院自动化所, 助理研究员
社会兼职
2022-02-14-今,中国指挥学会虚拟现实与人机交互专委会, 委员
2021-05-30-今,中国图象图形学会情感计算与理解专委会, 委员
2021-04-02-今,中国中文信息学会情感计算专委会, 委员
2019-11-28-今,中国图象图形学学会人机交互专委会, 秘书长
2018-12-27-今,中国人工智能学会情感智能专委会, 秘书长

教授课程

情感计算

专利与奖励


奖励信息
(1) The 2021 Multimodal Sentiment in-the-Wild Challenge Prize, , 其他, 2021
(2) 第十三届全国人机语音通讯学术会议最佳论文, 其他, 2021
(3) 中国电子学会技术发明奖, 一等奖, 部委级, 2021
(4) The 2020 Multimodal Sentiment in-the-Wild Challenge Prize, 其他, 2020
(5) 第九届计算与模式识别国际会议最佳论文, , 其他, 2020
(6) 第十九届全国信号处理学术年会最佳论文, , 其他, 2019
(7) 第十三届全国人机语音通讯学术会议最佳论文, , 其他, 2015
(8) 具有个性化自适应能力的高性能语音处理技术及应用, 二等奖, 省级, 2014
专利成果
( 1 ) 一种高效的语音检测方法, 发明专利, 2013, 第 2 作者, 专利号: 201310743203.5
( 2 ) 音频数据的编码方法及解码方法, 发明专利, 2012, 第 2 作者, 专利号: 201210487489.0
( 3 ) 一种语音数据的编码及解码方法, 发明专利, 2013, 第 2 作者, 专利号: 201310176701.6
( 5 ) 发音器官可视语音合成系统, 发明专利, 2012, 第 4 作者, 专利号: 201210265448.7
( 6 ) 语音识别中的正则化口音自适应方法, 发明专利, 2016, 第 4 作者, 专利号: 201610971766.3
( 7 ) 基于LSTM循环神经网络的基频提取模型及训练方法, 发明专利, 2016, 第 4 作者, 专利号: 201611030326.4
( 8 ) 语音带宽扩展模型的训练方法及语音带宽扩展方法, 发明专利, 2016, 第 2 作者, 专利号: 201610634660.4
( 9 ) 面向交互场景的自动谎言检测方法、装置、设备及介质, 发明专利, 2021, 第 3 作者, 专利号: 202110001077.0
( 10 ) 多模态谎言检测方法、装置、设备, 发明专利, 2021, 第 3 作者, 专利号: 202110001041.2
( 11 ) 自动抑郁检测方法、装置、设备, 发明专利, 2021, 第 3 作者, 专利号: 202110001070.9
( 12 ) 时频通道注意力权重计算和向量化的方法和网络, 发明专利, 2021, 第 3 作者, 专利号: 202110216692.3
( 13 ) 海量音视频情感识别系统, 发明专利, 2021, 第 3 作者, 专利号: 202110253708.8
( 14 ) 一种生理信号预测方法, 发明专利, 2021, 第 3 作者, 专利号: 202110196564.7
( 15 ) 多模态维度情感识别方法, 发明专利, 2021, 第 3 作者, 专利号: 202110214208.3
( 16 ) 基于图神经网络的对话情感纠错系统, 发明专利, 2021, 第 3 作者, 专利号: 202110196514.9
( 17 ) 自然场景下的表情识别方法和装置, 发明专利, 2021, 第 3 作者, 专利号: 202110222926.5
( 18 ) 基于混合网络和lp范数池化的抑郁状态检测方法及装置, 发明专利, 2021, 第 3 作者, 专利号: 202110270093.X
( 19 ) 端到端的音视频抑郁症自动检测研究方法, 发明专利, 2021, 第 3 作者, 专利号: 202110188624.0
( 20 ) 融合深度特征和时序模型的语义情感分析方法, 发明专利, 2021, 第 3 作者, 专利号: 202110188618.5
( 21 ) 基于多尺度时空特征神经网络的微表情识别方法, 发明专利, 2021, 第 3 作者, 专利号: 202110188615.1
( 22 ) 多模态情感识别方法, 发明专利, 2021, 第 3 作者, 专利号: 202110200140.3
( 23 ) 基于音视频的鲁棒情感建模系统, 发明专利, 2021, 第 3 作者, 专利号: 202110615003.6
( 24 ) 多模态融合的心理压力分析方法, 发明专利, 2021, 第 3 作者, 专利号: 202110812718.0
( 25 ) 基于微表情视频的视频特征提取方法、微表情识别方法, 发明专利, 2021, 第 3 作者, 专利号: 201910808102
( 26 ) 基于混合网络和lp范数池化的抑郁状态检测方法及装置, 发明专利, 2021, 第 3 作者, 专利号: CN112687390A
( 27 ) 自然场景下的表情识别方法和装置, 发明专利, 2021, 第 3 作者, 专利号: CN112580617A
( 28 ) 时频通道注意力权重计算和向量化的方法和网络, 发明专利, 2021, 第 3 作者, 专利号: CN112581980A
( 29 ) 多模态维度情感识别方法, 发明专利, 2021, 第 3 作者, 专利号: CN112560830A
( 30 ) 多模态情感识别方法, 发明专利, 2021, 第 3 作者, 专利号: CN112559835A
( 31 ) 基于图神经网络的对话情感纠错模型, 发明专利, 2021, 第 3 作者, 专利号: CN112579745A
( 32 ) 一种生理信号预测方法, 发明专利, 2021, 第 3 作者, 专利号: CN112580612A
( 33 ) 基于多尺度时空特征神经网络的微表情识别方法, 专利授权, 2021, 第 3 作者, 专利号: CN112560810B
( 34 ) 基于融合深度特征的微表情识别方法, 发明专利, 2021, 第 3 作者, 专利号: CN112560812A
( 35 ) 端到端的音视频抑郁症自动检测研究方法, 专利授权, 2021, 第 3 作者, 专利号: CN112560811B
( 36 ) 融合深度特征和时序模型的语义情感分析方法, 专利授权, 2021, 第 3 作者, 专利号: CN112560503B
( 37 ) 多模态谎言检测方法、装置、设备, 专利授权, 2021, 第 3 作者, 专利号: CN112329746B
( 38 ) 自动抑郁检测方法、装置、设备, 专利授权, 2021, 第 3 作者, 专利号: CN112331337B
( 39 ) 基于微表情视频的视频特征提取方法、微表情识别方法, 发明专利, 2019, 第 3 作者, 专利号: CN110532950A
( 40 ) 基于LSTM循环神经网络的基频提取模型及训练方法, 专利授权, 2020, 第 4 作者, 专利号: CN106653056B
( 41 ) 语音识别中的正则化口音自适应方法, 专利授权, 2019, 第 4 作者, 专利号: CN106531157B
( 42 ) 语音带宽扩展模型的训练方法及语音带宽扩展方法, 发明专利, 2018, 第 2 作者, 专利号: CN107705801A
( 43 ) 一种高效的语音检测方法, 发明专利, 2014, 第 2 作者, 专利号: CN103646649A
( 44 ) 一种语音数据的编码及解码方法, 发明专利, 2013, 第 2 作者, 专利号: CN103247293A
( 45 ) 音频数据的编码方法及解码方法, 发明专利, 2013, 第 2 作者, 专利号: CN103035238A
( 46 ) 发音器官可视语音合成系统, 发明专利, 2012, 第 4 作者, 专利号: CN102820030A

出版信息

   
发表论文
(1) End-to-End Network Based on Transformer for Automatic Detection of Covid-19, 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, 第 2 作者
(2) SMIN: Semi-supervised Multi-modal Interaction Network for Conversational Emotion Recognition, IEEE Transactions on Affective Computing, 2022, 通讯作者
(3) A time-frequency channel attention and vectorization network for automatic depression level prediction, NEUROCOMPUTING, 2021, 通讯作者
(4) Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 5 作者
(5) F-0-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 4 作者
(6) Multimodal Emotion Recognition and Sentiment Analysis via Attention Enhanced Recurrent Model, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 4 作者
(7) 多通道运动特征融合的微表情识别方法, Aggregation of Motion Features of Multiple Paths for Micro-Expression Recognition, 计算机辅助设计与图形学学报, 2021, 第 2 作者
(8) CTNet: Conversational Transformer Network for Emotion Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 2 作者
(9) Multimodal Sentiment Analysis based on Recurrent Neural Network and Multimodal Attention, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 5 作者
(10) MULTIMODAL CROSS- AND SELF-ATTENTION NETWORK FOR SPEECH EMOTION RECOGNITION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 
(11) TDCA-Net Time-Domain Channel Attention Network for Depression Detection, InterSpeech 2021, 2021, 第 3 作者
(12) Learning long-term temporal contexts using skip RNN for continuous emotion recognition, Virtual Reality & Intelligent Hardware, 2021, 第 2 作者
(13) DECN: Dialogical emotion correction network for conversational emotion recognition, NEUROCOMPUTING, 2021, 通讯作者
(14) Multi-Scale and Multi-Region Facial Discriminative Representation for Automatic Depression Level Detection, ICASSP, 2021, 第 3 作者
(15) Review of micro-expression spotting and recognition in video sequences, Virtual Reality & Intelligent Hardware, 2021, 第 4 作者
(16) AMINN: Attention-Based Multi-Information Neural Network for Emotion Recognition, ICCPR, 2020, 第 2 作者
(17) End-to-End Post-Filter for Speech Separation With Deep Attention Fusion Features, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2020, 通讯作者
(18) Hybrid Network Feature Extraction for Depression Assessment from Speech, Interspeech, 2020, 第 4 作者
(19) Comparison of glottal source parameter values in emotional vowels, Interspeech, 2020, 第 3 作者
(20) MULTIMODAL TRANSFORMER FUSION FOR CONTINUOUS EMOTION RECOGNITION, ICASSP 2020, 2020, 第 3 作者
(21) Conversational Emotion Recognition Using Self-Attention Mechanisms and Graph Neural Networks, Interspeech, 2020, 第 3 作者
(22) Multi-modal Continuous Dimensional Emotion Recognition Using Recurrent Neural Network and Self-Attention Mechanism, The 1st Multimodal Sentiment Analysis Challenge, 2020, 第 2 作者
(23) Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE Transactions on Affective Computing, 2020, 第 3 作者
(24) Learning Utterance-level Representationswith Label Smoothing for Speech Emotion Recognition, Interspeech, 2020, 第 3 作者
(25) Joint Training for Simultaneous Speech Denoising and Dereverberation with Deep Embedding Representations, INTERSPEECH, 2020, 第 3 作者
(26) Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition, Interspeech, 2020, 第 3 作者
(27) Gated Recurrent Fusion of Spatial and Spectral Features for Multi-channel Speech Separation with Deep Embedding Representations, Interspeech, 2020, 第 3 作者
(28) "Automatic Depression Level Detection via lp-norm Pooling", INTERSPEECH 2019, 2019, 第 3 作者
(29) Discriminative Learning for Monaural Speech Separation Using Deep Embedding Features, interspeech2019, 2019, 第 2 作者
(30) 一种基于卷积神经网络的端到端语音分离方法, An End-to-End Speech Separation Method Based on Convolutional Neural Network, 信号处理, 2019, 第 2 作者
(31) Conversational Emotion Analysis via Attention Mechanisms, Interspeech2019, 2019, 第 3 作者
(32) 智能语音识别系统噪声鲁棒性研究, Research on Noisy Robustness of Intelligent Speech Recognition System, 信息技术与标准化, 2019, 第 2 作者
(33) 无菌条件非接触式多通道自然交互手术环境, Non Contact Multi-channel Natural Interactive Surgical Environment under Sterile Conditions, 软件学报, 2019, 第 10 作者
(34) Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition, interspeeh2019, 2019, 第 3 作者
(35) CTC Regularized Model Adaptation for Improving LSTM RNN Based Multi-Accent Mandarin Speech Recognition, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 5 作者
(36) 基于迁移学习的噪声鲁棒语音识别声学建模, Transfer learning for acoustic modeling of noise robust speech recognition, 清华大学学报:自然科学版, 2018, 第 3 作者
(37) Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, Journal of Signal Processing Systems,, 2018, 
(38) Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 4 作者
(39) 联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者
(40) 基于注意力的端到端韵律结构和重音联合预测方法, 第十四届全国人机语音通讯学术会议 (NCMMSC 2017), 2017, 第 5 作者
(41) Investigating Efficient Feature Representation Method and Training Object Function for BLSTM-based Phone Duration Prediction, Interspeech2017, 2017, 第 5 作者
(42) A NOVEL PITCH EXTRACTION BASED ON JOINTLY TRAINED DEEP BLSTM RECURRENT NEURAL NETWORKS WITH BOTTLENECK FEATURES, 2017年IEEE声学,语音和信号处理国际会议(ICASSP 2017), 2017, 第 1 作者
(43) 联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者
(44) Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 5 作者
(45) A Novel Research to Artificial Bandwidth Extension Based on Deep BLSTM Recurrent Neural Networks and Exemplar-based Sparse Representation, interspeech2016, 2016, 第 1 作者
(46) EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, 
(47) Speech Enhancement Based on Analysis-Synthesis Framework with Improved Parameter Domain Enhancement, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2016, 通讯作者
(48) A BLSTM Guided Unit Selection Synthesis System for Blizzard Challenge 2016, Blizzard2016, 2016, 第 5 作者
(49) End-to-end Keywords Spotting Based on Connectionist Temporal Classification for Mandarin, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 
(50) CTC Regularized Model Adaptation for Improving LSTM RNN Based MultiAccent Mandarin Speech Recognition, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 
(51) Text-based sentential stress prediction using continuous lexical embedding for Mandarin speech synthesis, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 4 作者
(52) A Novel Method of Artificial Bandwidth Extension Using Deep Architecture, 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, 通讯作者
(53) User behavior fusion in dialog management with multi-modal history cues, MULTIMEDIA TOOLS AND APPLICATIONS, 2015, 第 8 作者
(54) ESTIMATE ARTICULATORY MRI SERIES FROM ACOUSTIC SIGNAL USING DEEP ARCHITECTURE, 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, 第 4 作者
(55) 面向窄带通信信道的语音质量增强问题研究, 2015, 第 1 作者
(56) 一种改进的基于分析合成框架的语音增强算法, 2015年第十三届全国人机语音通讯会议(NCMMSC2015) (NCMMSC2015), 2015, 第 1 作者
(57) Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 1 作者
(58) Speech Enhancement Based on Analysis–Synthesis Framework With Improved Pitch Estimation and Spectral Envelope Enhancement, ICSP2014, 2014, 第 1 作者
(59) Context features based pre-selection and weight prediction in concatenation speech synthesis system, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 5 作者
(60) 面向窄带通信的极低速率语音编码算法研究, Research on Speech Coding Algorithm at Very Low Bit Rate for Narrow-Band Communication, 信号处理, 2013, 第 1 作者

科研活动

   
科研项目
( 1 ) 情感语音音色分析及补偿方法研究, 主持, 国家级, 2018-01--2021-12
( 2 ) 大数据分析, 参与, 部委级, 2018-10--2023-09
( 3 ) 连续状态空间个性化语音情感识别, 参与, 国家级, 2019-01--2023-12
( 4 ) 多模态情感识别技术, 参与, 院级, 2019-07--2022-06
( 5 ) 大数据多模态协同关键技术, 参与, 国家级, 2017-10--2021-09
( 6 ) 情绪与决策倾向关联与预测, 参与, 国家级, 2020-07--2021-06
( 7 ) 心理实验范式设计和预实验验证技术, 参与, 院级, 2020-12--2023-04
( 8 ) 高频脑电信号采集与处理技术, 参与, 院级, 2020-12--2023-04
( 9 ) 面向互联网金融场景的多模态情感分析技术研究和应用, 参与, 院级, 2021-08--2022-07
( 10 ) 面向小团体目标人物心理生理智能监测技术, 主持, 部委级, 2021-01--2023-12
( 11 ) 音视频融合的抑郁状态检测技术研究, 主持, 国家级, 2020-12--2021-09
( 12 ) 情感识别技术, 参与, 院级, 2020-06--2025-05
( 13 ) 融合情景信息的个性化多模态生理信号复杂情感识别研究, 参与, 省级, 2021-12--2023-11

指导学生

已指导学生

李世渺  硕士研究生  085211-计算机技术  

现指导学生

凡佳辉  硕士研究生  085400-电子信息  

柳晗  硕士研究生  085400-电子信息  

徐名宇  硕士研究生  081104-模式识别与智能系统  

王可心  硕士研究生  081104-模式识别与智能系统  

王于华  硕士研究生  085400-电子信息  

徐珂  硕士研究生  085400-电子信息