刘斌-中国科学院大学-UCAS

招生信息

招生专业

081104-模式识别与智能系统

招生方向

情感计算，语音与音频处理，人机交互

教育背景

2011-09--2015-07   中科院自动化所   工学博士
2007-09--2009-07   北京理工大学   工学硕士
2003-09--2007-07   北京理工大学   工学学士

工作经历

工作简历

2018-11~现在, 中科院自动化所, 副研究员
2015-07~2018-10,中科院自动化所, 助理研究员

社会兼职

2022-02-14-今,中国指挥学会虚拟现实与人机交互专委会, 委员
2021-05-30-今,中国图象图形学会情感计算与理解专委会, 委员
2021-04-02-今,中国中文信息学会情感计算专委会, 委员
2019-11-27-今,中国图象图形学学会人机交互专委会, 委员
2018-12-27-今,中国人工智能学会情感智能专委会, 秘书长

教授课程

情感计算

专利与奖励

奖励信息

（1） The 2023 Facial Micro-Expression Grand Challenge Prize, , 其他, 2023
（2）国科大-华为“智能基座”优秀教师, 院级, 2023
（3）第24届中国专利优秀奖, , 国家级, 2023
（4） The 2022 Multimodal Sentiment in-the-Wild Challenge Prize, 一等奖, 其他, 2022
（5）中国科学院大学研究生优秀课程, 二等奖, 研究所（学校）, 2021
（6）中国电子学会技术发明奖, 一等奖, 部委级, 2021
（7）第十三届全国人机语音通讯学术会议最佳论文, 其他, 2021
（8） The 2021 Multimodal Sentiment in-the-Wild Challenge Prize, , 其他, 2021
（9）第九届计算与模式识别国际会议最佳论文, , 其他, 2020
（10） The 2020 Multimodal Sentiment in-the-Wild Challenge Prize, 其他, 2020
（11）第十九届全国信号处理学术年会最佳论文, , 其他, 2019
（12）第十三届全国人机语音通讯学术会议最佳论文, , 其他, 2015
（13）具有个性化自适应能力的高性能语音处理技术及应用, 二等奖, 省级, 2014

专利成果

[1] Jianhua Tao, Hao Zhang, Bin Liu, SHE Wenxiang. Micro-expression recognition method based on multi-scale spatiotemporal feature neural network. US17471384, 2022-08-25.

[2] Jianhua Tao, Zheng Lian, Bin Liu, Liu Xuefei. Dialogue emotion correction method based on graph neural network. US17472511, 2022-08-25.

[3] Jianhua Tao, Cai Cong, Bin Liu, Mingyue Niu. Automatic depression detection method based on audio-video. US17472191, 2022-08-25.

[4] Jianhua Tao, Sun Licai, Bin Liu, Zheng Lian. Multimodal dimensional emotion recognition method. US11281945, 2022-03-22.

[5] Jianhua Tao, Sun Licai, Bin Liu, Zheng Lian. Multi-modal lie detection method and apparatus, and device. US11244119, 2022-02-08.

[6] 陶建华, 肖明远, 刘斌, 连政. 基于音视频的疲劳状态检测方法和装置. CN: CN113642522B, 2022-02-08.

[7] Jianhua Tao, Zheng Lian, Bin Liu, Sun Licai. Automatic lie detection method and apparatus for interactive scenarios, device and medium. US11238289, 2022-02-01.

[8] Tao, Jianhua, He, Yu, Liu, Bin, Sun, Licai. Physiological signal prediction method. CN: US11227161(B1), 2022-01-18.

[9] 陶建华, 肖明远, 刘斌, 连政. 基于音视频的疲劳状态检测方法和装置. CN: CN113642522A, 2021-11-12.

[10] 陶建华, 张昊, 刘斌, 连政. 基于微表情、肢体动作和语音的多模态情感识别方法. CN: CN113469153A, 2021-10-01.

[11] 陶建华, 蔡聪, 刘斌, 柳雪飞. 基于多角度分析的多模态精神状态评估方法. CN: CN113274023A, 2021-08-20.

[12] 陶建华, 何宇, 刘斌, 连政. 多模态融合的心理压力分析方法. CN: CN113255635A, 2021-08-13.

[13] 陶建华, 连政, 刘斌, 孙立才. 基于音视频的鲁棒情感建模系统. CN: CN113255800A, 2021-08-13.

[14] 陶建华, 连政, 刘斌, 柳雪飞. 基于图神经网络的对话情感纠错系统. CN: CN112579745B, 2021-06-08.

[15] 陶建华, 牛明月, 刘斌, 蔡聪. 基于混合网络和lp范数池化的抑郁状态检测方法及装置. CN: CN112687390A, 2021-04-20.

[16] 陶建华, 连政, 刘斌, 孙立才. 海量音视频情感识别系统. CN: CN112633263A, 2021-04-09.

[17] 陶建华, 肖明远, 刘斌, 连政. 自然场景下的表情识别方法和装置. CN: CN112580617A, 2021-03-30.

[18] 陶建华, 牛明月, 刘斌, 李永伟. 时频通道注意力权重计算和向量化的方法和网络. CN: CN112581980A, 2021-03-30.

[19] 陶建华, 连政, 刘斌, 柳雪飞. 基于图神经网络的对话情感纠错模型. CN: CN112579745A, 2021-03-30.

[20] 陶建华, 何宇, 刘斌, 孙立才. 一种生理信号预测方法. CN: CN112580612A, 2021-03-30.

[21] 陶建华, 孙立才, 刘斌, 连政. 多模态维度情感识别方法. CN: CN112560830A, 2021-03-26.

[22] 陶建华, 孙立才, 刘斌, 柳雪飞. 多模态情感识别方法. CN: CN112559835A, 2021-03-26.

[23] 陶建华, 张昊, 刘斌, 佘文祥. 基于多尺度时空特征神经网络的微表情识别方法. CN: CN112560810A, 2021-03-26.

[24] 陶建华, 佘文祥, 刘斌, 连政. 基于融合深度特征的微表情识别方法. CN: CN112560812A, 2021-03-26.

[25] 陶建华, 许珂, 刘斌, 李永伟. 融合深度特征和时序模型的语义情感分析方法. CN: CN112560503A, 2021-03-26.

[26] 陶建华, 蔡聪, 刘斌, 牛明月. 端到端的音视频抑郁症自动检测研究方法. CN: CN112560811A, 2021-03-26.

[27] 陶建华, 孙立才, 刘斌, 连政. 多模态谎言检测方法、装置、设备. CN: CN112329746A, 2021-02-05.

[28] 陶建华, 牛明月, 刘斌, 李启飞. 自动抑郁检测方法、装置、设备. CN: CN112331337A, 2021-02-05.

[29] 陶建华, 连政, 刘斌, 孙立才. 面向交互场景的自动谎言检测方法、装置、设备及介质. CN: CN112329748A, 2021-02-05.

[30] 陶建华, 牛明月, 刘斌. 基于微表情视频的视频特征提取方法、微表情识别方法. CN: CN110532950A, 2019-12-03.

[31] 陶建华, 刘斌. 语音带宽扩展模型的训练方法及语音带宽扩展方法. CN: CN107705801A, 2018-02-16.

[32] 陶建华, 郑艺斌, 温正棋, 刘斌. 基于LSTM循环神经网络的基频提取模型及训练方法. CN: CN106653056A, 2017-05-10.

[33] 陶建华, 易江燕, 温正棋, 刘斌. 语音识别中的正则化口音自适应方法. CN: CN106531157A, 2017-03-22.

[34] 陶建华, 刘斌. 一种高效的语音检测方法. CN: CN103646649A, 2014-03-19.

[35] 陶建华, 刘斌, 莫福源. 一种语音数据的编码及解码方法. CN: CN103247293A, 2013-08-14.

[36] 陶建华, 刘斌, 潘诗锋. 音频数据的编码方法及解码方法. CN: CN103035238A, 2013-04-10.

[37] 陶建华, 杨明浩, 李昊, 刘斌. 发音器官可视语音合成系统. CN: CN102820030A, 2012-12-12.

出版信息

发表论文

（1） Dense Modality Interaction Network for Audio-Visual Event Localization, IEEE TRANSACTIONS ON MULTIMEDIA, 2023, 第 5 作者
（2） SMIN: Semi-Supervised Multi-Modal Interaction Network for Conversational Emotion Recognition, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2023, 通讯作者
（3） Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2023, 第 3 作者
（4） GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2023, 通讯作者
（5）多模态人机交互综述, A survey on multi-modal human-computer interaction, 中国图象图形学报, 2022, 第 8 作者
（6） End-to-End Network Based on Transformer for Automatic Detection of Covid-19, 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, 第 2 作者
（7） PIRNet: Personality-Enhanced Iterative Refinement Network for Emotion Recognition in Conversation, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2022, 通讯作者
（8） Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis, 2022, 第 3 作者
（9） Multimodal Temporal Attention in Sentiment Analysis, Proceedings of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge（ACMMM2022), 2022, 第 4 作者
（10） SMIN: Semi-supervised Multi-modal Interaction Network for Conversational Emotion Recognition, IEEE Transactions on Affective Computing, 2022, 通讯作者
（11） Dense Modality Interaction Network for Audio-Visual Event Localization, IEEE TRANSACTIONS ON MULTIMEDIA, 2022, 第 5 作者
（12） A time-frequency channel attention and vectorization network for automatic depression level prediction, NEUROCOMPUTING, 2021, 通讯作者
（13） MULTI-SCALE AND MULTI-REGION FACIAL DISCRIMINATIVE REPRESENTATION FOR AUTOMATIC DEPRESSION LEVEL PREDICTION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 3 作者
（14） Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 5 作者
（15） Multimodal Emotion Recognition and Sentiment Analysis via Attention Enhanced Recurrent Model, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 4 作者
（16） F-0-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 4 作者
（17） Multimodal Sentiment Analysis based on Recurrent Neural Network and Multimodal Attention, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 5 作者
（18）多通道运动特征融合的微表情识别方法, Aggregation of Motion Features of Multiple Paths for Micro-Expression Recognition, 计算机辅助设计与图形学学报, 2021, 第 2 作者
（19） CTNet: Conversational Transformer Network for Emotion Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 2 作者
（20） MULTIMODAL CROSS- AND SELF-ATTENTION NETWORK FOR SPEECH EMOTION RECOGNITION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 2 作者
（21） TDCA-Net Time-Domain Channel Attention Network for Depression Detection, InterSpeech 2021, 2021, 第 3 作者
（22） Learning long-term temporal contexts using skip RNN for continuous emotion recognition, Learning long-term temporal contexts using skip RNN for continuous emotion recognition, 虚拟现实与智能硬件(中英文), 2021, 第 2 作者
（23） Multi-Scale and Multi-Region Facial Discriminative Representation for Automatic Depression Level Detection, ICASSP, 2021, 第 3 作者
（24） DECN: Dialogical Emotion Correction Network for Conversational Emotion Recognition, NEUROCOMPUTING, 2021, 通讯作者
（25） Review of micro-expression spotting and recognition in video sequences, Review of micro-expression spotting and recognition in video sequences, 虚拟现实与智能硬件(中英文), 2021, 第 4 作者
（26） AMINN: Attention-Based Multi-Information Neural Network for Emotion Recognition, ICCPR, 2020, 第 2 作者
（27） End-to-End Post-Filter for Speech Separation With Deep Attention Fusion Features, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2020, 通讯作者
（28） Hybrid Network Feature Extraction for Depression Assessment from Speech, Interspeech, 2020, 第 4 作者
（29） Comparison of glottal source parameter values in emotional vowels, Interspeech, 2020, 第 3 作者
（30） MULTIMODAL TRANSFORMER FUSION FOR CONTINUOUS EMOTION RECOGNITION, ICASSP 2020, 2020, 第 3 作者
（31） Conversational Emotion Recognition Using Self-Attention Mechanisms and Graph Neural Networks, Interspeech, 2020, 第 3 作者
（32） Multi-modal Continuous Dimensional Emotion Recognition Using Recurrent Neural Network and Self-Attention Mechanism, The 1st Multimodal Sentiment Analysis Challenge, 2020, 第 2 作者
（33） Learning Utterance-level Representationswith Label Smoothing for Speech Emotion Recognition, Interspeech, 2020, 第 3 作者
（34） Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE Transactions on Affective Computing, 2020, 第 3 作者
（35） Joint Training for Simultaneous Speech Denoising and Dereverberation with Deep Embedding Representations, INTERSPEECH, 2020, 第 3 作者
（36） Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition, Interspeech, 2020, 第 3 作者
（37） Gated Recurrent Fusion of Spatial and Spectral Features for Multi-channel Speech Separation with Deep Embedding Representations, Interspeech, 2020, 第 3 作者
（38） "Automatic Depression Level Detection via lp-norm Pooling", INTERSPEECH 2019, 2019, 第 3 作者
（39） Discriminative Learning for Monaural Speech Separation Using Deep Embedding Features, interspeech2019, 2019, 第 2 作者
（40）智能语音识别系统噪声鲁棒性研究, Research on Noisy Robustness of Intelligent Speech Recognition System, 信息技术与标准化, 2019, 第 2 作者
（41） Conversational Emotion Analysis via Attention Mechanisms, Interspeech2019, 2019, 第 3 作者
（42）一种基于卷积神经网络的端到端语音分离方法, An End-to-End Speech Separation Method Based on Convolutional Neural Network, 信号处理, 2019, 第 2 作者
（43）无菌条件非接触式多通道自然交互手术环境, Non Contact Multi-channel Natural Interactive Surgical Environment under Sterile Conditions, 软件学报, 2019, 第 10 作者
（44） Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition, interspeeh2019, 2019, 第 3 作者
（45）基于迁移学习的噪声鲁棒语音识别声学建模, Transfer learning for acoustic modeling of noise robust speech recognition, 清华大学学报：自然科学版, 2018, 第 3 作者
（46） CTC Regularized Model Adaptation for Improving LSTM RNN Based Multi-Accent Mandarin Speech Recognition, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 5 作者
（47） Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 4 作者
（48）联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者
（49）基于注意力的端到端韵律结构和重音联合预测方法, 第十四届全国人机语音通讯学术会议 (NCMMSC 2017), 2017, 第 5 作者
（50） Investigating Efficient Feature Representation Method and Training Object Function for BLSTM-based Phone Duration Prediction, Interspeech2017, 2017, 第 5 作者
（51） A NOVEL PITCH EXTRACTION BASED ON JOINTLY TRAINED DEEP BLSTM RECURRENT NEURAL NETWORKS WITH BOTTLENECK FEATURES, 2017年IEEE声学，语音和信号处理国际会议(ICASSP 2017), 2017, 第 1 作者
（52）联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者
（53） Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 5 作者
（54） EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, ICASSP 2016, 2016, 第 5 作者
（55） A Novel Research to Artificial Bandwidth Extension Based on Deep BLSTM Recurrent Neural Networks and Exemplar-based Sparse Representation, interspeech2016, 2016, 第 1 作者
（56） EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, 第 5 作者
（57） A BLSTM Guided Unit Selection Synthesis System for Blizzard Challenge 2016, Blizzard2016, 2016, 第 5 作者
（58） Speech Enhancement Based on Analysis-Synthesis Framework with Improved Parameter Domain Enhancement, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2016, 通讯作者
（59） CTC Regularized Model Adaptation for Improving LSTM RNN Based MultiAccent Mandarin Speech Recognition, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 第 4 作者
（60） End-to-end Keywords Spotting Based on Connectionist Temporal Classification for Mandarin, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 第 5 作者
（61） Text-based sentential stress prediction using continuous lexical embedding for Mandarin speech synthesis, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 4 作者
（62） A Novel Method of Artificial Bandwidth Extension Using Deep Architecture, 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, 通讯作者
（63） User behavior fusion in dialog management with multi-modal history cues, MULTIMEDIA TOOLS AND APPLICATIONS, 2015, 第 8 作者
（64） ESTIMATE ARTICULATORY MRI SERIES FROM ACOUSTIC SIGNAL USING DEEP ARCHITECTURE, 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, 第 4 作者
（65）一种改进的基于分析合成框架的语音增强算法, 2015年第十三届全国人机语音通讯会议（NCMMSC2015） (NCMMSC2015), 2015, 第 1 作者
（66） Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 1 作者
（67） Speech Enhancement Based on Analysis–Synthesis Framework With Improved Pitch Estimation and Spectral Envelope Enhancement, ICSP2014, 2014, 第 1 作者
（68） Context features based pre-selection and weight prediction in concatenation speech synthesis system, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 5 作者
（69）面向窄带通信的极低速率语音编码算法研究, Research on Speech Coding Algorithm at Very Low Bit Rate for Narrow-Band Communication, 信号处理, 2013, 第 1 作者
（70） MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning, ARXIV, 第 6 作者

科研活动

科研项目

（ 1 ）大数据分析, 参与, 中国科学院计划, 2018-10--2023-09
（ 2 ）连续状态空间个性化语音情感识别, 参与, 国家任务, 2019-01--2023-12
（ 3 ）心理实验范式设计和预实验验证技术, 参与, 境内委托项目, 2020-12--2023-04
（ 4 ）高频脑电信号采集与处理技术, 参与, 境内委托项目, 2020-12--2023-04
（ 5 ）面向小团体目标人物心理生理智能监测技术, 负责人, 中国科学院计划, 2021-01--2023-12
（ 6 ）情感识别技术, 参与, 境内委托项目, 2020-06--2025-05
（ 7 ）融合情景信息的个性化多模态生理信号复杂情感识别研究, 参与, 地方任务, 2021-12--2023-11
（ 8 ）跨模态对话情感识别技术, 负责人, 境内委托项目, 2022-09--2023-08
（ 9 ）面向小团体的多模态连续情感识别技术研究, 负责人, 国家任务, 2023-01--2026-12

指导学生

已指导学生

凡佳辉硕士研究生 085410-人工智能

柳晗硕士研究生 085410-人工智能

李世渺硕士研究生 085211-计算机技术

现指导学生

徐名宇硕士研究生 081104-模式识别与智能系统

王于华硕士研究生 085410-人工智能

徐珂硕士研究生 085410-人工智能

张思源硕士研究生 085404-计算机技术

陈顺硕士研究生 085410-人工智能

温卓凡硕士研究生 081203-计算机应用技术