基本信息
王向东  男  硕导  中国科学院计算技术研究所
电子邮件: xdwang@ict.ac.cn
通信地址: 北京市海淀区科学院南路6号
邮政编码:

研究领域

人机交互,机器学习,语音交互,音频处理,可穿戴计算,残疾人信息无障碍技术

招生信息

   
招生专业
081203-计算机应用技术
招生方向
人机交互,机器学习,音频处理,语音交互
计算医疗与健康
残疾人信息无障碍

教育背景

2002-09--2007-07   中国科学院计算技术研究所   硕博连读研究生、博士
1998-09--2002-07   内蒙古大学计算机学院   本科、学士

工作经历

   
工作简历
2014-03~2014-06,新加坡国立大学, 访问学者
2013-10~现在, 中国科学院计算技术研究所, 高级工程师
2007-07~2013-09,中国科学院计算技术研究所, 助理研究员

专利与奖励

   
奖励信息
(1) 无障碍普适计算系统关键技术及应用, 一等奖, 部委级, 2017
(2) 远程信息无障碍交互关键技术及应用, 二等奖, 省级, 2015
专利成果
( 1 ) 用于融合多个语音识别系统的识别结果的方法及系统, 发明, 2016, 第 1 作者, 专利号: ZL201310413628.X
( 2 ) 提供与视频播放内容相关信息的系统和方法, 发明, 2016, 第 1 作者, 专利号: ZL201210585960.X
( 3 ) 一种语音浏览方法及浏览器, 发明, 2015, 第 3 作者, 专利号: ZL201110046896.3
( 4 ) 一种人机交互戒指, 发明, 2015, 第 4 作者, 专利号: ZL201210347942.8
( 5 ) 一种支持多点触摸手势的人机交互戒指, 发明, 2016, 第 4 作者, 专利号: ZL201210549517.7
( 6 ) 基于遥控器的智能电视人机交互方法、装置和系统, 发明, 2016, 第 3 作者, 专利号: ZL201110312235.0
( 7 ) 一种智能化响应用电需求的充电系统及方法, 发明, 2016, 第 3 作者, 专利号: ZL201210461238.5
( 8 ) 盲人避障提示装置及方法, 发明, 2016, 第 4 作者, 专利号: ZL201410575694.1
( 9 ) 一种聋人提示系统、方法及智能手机, 发明, 2016, 第 2 作者, 专利号: 201611179001.2
( 10 ) 聋哑人与正常人的辅助对话系统、方法及智能手机, 发明, 2016, 第 2 作者, 专利号: 201611178785.7
( 11 ) 一种跌倒检测及报警方法, 发明, 2016, 第 2 作者, 专利号: 201610908708.6
( 12 ) 一种自适应的语音识别的方法和设备, 发明, 2016, 第 1 作者, 专利号: 201610651850.7
( 13 ) 一种建立步态数据集的方法及步态分析方法, 发明, 2016, 第 2 作者, 专利号: 201610517381.X
( 14 ) 一种步态参数的采集方法及设备, 发明, 2016, 第 2 作者, 专利号: 201610519761.7
( 15 ) 一种用于盲人读取汉字的方法及系统, 发明, 2015, 第 1 作者, 专利号: 201510623525.5
( 16 ) 一种融合非确定性反馈的语音识别错误修正方法及系统, 发明, 2015, 第 1 作者, 专利号: 201510569945.X
( 17 ) 基于音频的拖地声检测方法, 发明, 2017, 第 4 作者, 专利号: 201710242955.6
( 18 ) 一种高精度盲文识别方法及系统, 发明, 2017, 第 3 作者, 专利号: 201711070466.9
( 19 ) 一种盲文点辅助标注方法及系统, 发明, 2017, 第 3 作者, 专利号: 201711071554.0
( 20 ) 一种盲文点检测方法及系统, 发明, 2017, 第 3 作者, 专利号: 201711071085.2
( 21 ) 一种中国盲文错误自动检测方法、系统及存储介质, 发明, 2019, 第 1 作者, 专利号: 201910410573.4
( 22 ) 一种汉盲对照双语语料库的构建方法和系统, 发明, 2018, 第 1 作者, 专利号: 201810929248.4
( 23 ) 一种基于深度神经网络的汉盲自动转换方法和系统, 发明, 2018, 第 1 作者, 专利号: 201810889881.5
( 24 ) 一种基于深度学习的盲文图像自动识别方法和系统, 发明, 2019, 第 3 作者, 专利号: 201910419983.5

出版信息

   
发表论文
(1) Specialized Decision Surface and Disentangled Feature for Weakly-Supervised Polyphonic Sound Event Detection, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 通讯作者
(2) Guided learning for weakly-labeled semi-supervised Sound event detection, 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020), 2020, 通讯作者
(3) Multi-Branch Learning for Weakly-Labeled Sound Event Detection, 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020), 2020, 通讯作者
(4) 基于汉盲对照语料库和深度学习的汉盲自动转换, 中文信息学报, 2019, 通讯作者
(5) A Baby Crying Detection System for Rural Applications, International Agricultural Engineering Journal, 2019, 通讯作者
(6) A Fast and Refined Cancer Regions Segmentation Framework in Whole-slide Breast Pathological Images, Scientific Reports, 2019, 第 4 作者
(7) Guided Learning Convolution System for DCASE 2019 Task 4, Workshop on Detection and Classification of Acoustic Scenes and Events 2019, 2019, 通讯作者
(8) CBConv: Service for Automatic Conversion of Chinese Characters into Braille with High Accuracy, The 21st International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS 2019), 2019, 通讯作者
(9) A Densely Labeled Dataset toward Refined Pronunciation Assessment for English Learning, Oriental COCOSDA 2019, 2019, 通讯作者
(10) Estimation of Spatial-Temporal Gait Parameters based on the Fusion of Inertial and Film-Pressure Signals, IEEE International Conference on Bioinformatics & Biomedicine 2018 (BIBM 2018), 2018, 第 2 作者
(11) Mobile Phone-Based Audio Announcement Detection and Recognition for People with Hearing Impairment, Advances in Multimedia, 2018, 通讯作者
(12) 融合声音与运动传感器的步态分析技术的敏感性及信度研究, 中国卒中杂志, 2018, 通讯作者
(13) DSBI: Double-Sided Braille Image Dataset and Algorithm Evaluation for Braille Dots Detection, ICVIP 2018, 2018, 第 3 作者
(14) RGB-D joint modelling with scene geometric information for indoor semantic segmentation, Multimedia Tools and Applications, 2017, 第 3 作者
(15) Multimodal Gait Analysis based on Wearable Inertial and Microphone Sensors, 2017 IEEE Ubiquitous Intelligence and Computing (UIC 2017), 2017, 第 2 作者
(16) Improving Speech Transcription by Exploiting User Feedbacks and Word Repetition, Multimedia Tools and Applications, 2017, 第 1 作者
(17) Chinese to Braille Translation Based on Braille Word Segmentation Using Statistical Model, Journal of Shanghai Jiaotong University (Science), 2017, 第 1 作者
(18) Efficient multi-scale plane extraction based RGBD video segmentation, 23th International Conference on MultiMedia Modeling(MMM2017), 2017, 第 3 作者
(19) Feedback-driven Refinement of Mandarin Speech Recognition Result based on Lattice Modification and Rescoring, International Journal of Advanced Pervasive and Ubiquitous Computing, 2017, 第 1 作者
(20) Cross-Layer Opportunistic Scheduling for Device-to-Device Video Multicast Services, ACM Transactions on Embedded Computing Systems, 2016, 第 3 作者
(21) Estimation of Temporal Gait Parameters Using a Wearable Microphone-sensor-based System, Sensors, 2016, 第 2 作者
(22) Chinese-Braille Translation based on Braille Corpus, International Journal of Advanced Pervasive and Ubiquitous Computing, 2016, 第 1 作者
(23) Language Model Adaptation based on Correction Information for Interactive Speech Transcription, The 2016 International Conference on Progress in Informatics and Computing (PIC-2016), 2016, 第 2 作者
(24) A novel obstacle detection method based on distortion of laser pattern, IEEE International Conference on Multimedia and Expo, 2016, 第 4 作者
(25) A novel multi-feature descriptor for human detection using cascaded classifiers in static image, The Journal of Signal Processing Systems, 2015, 第 3 作者
(26)