基本信息
俞晓明 男 硕导 中国科学院计算技术研究所
电子邮件: yuxiaoming@ict.ac.cn
通信地址: 北京海淀科学院南路6号
邮政编码: 100190
电子邮件: yuxiaoming@ict.ac.cn
通信地址: 北京海淀科学院南路6号
邮政编码: 100190
研究领域
大规模内容处理,Web搜索,自然语言处理
招生信息
招生专业
081202-计算机软件与理论
招生方向
大规模内容处理,Web搜索,自然语言处理
教育背景
2001-09--2008-01 中国科学院计算技术研究所 博士1996-09--2000-07 山东大学 学士
专利与奖励
奖励信息
(1) 钱伟长中文信息处理科学技术奖, 一等奖, 专项, 2014
专利成果
[1] 郭岩, 解伟凡, 匡广生, 余智华, 薛源海, 沈华伟, 刘悦, 俞晓明, 程学旗. 一种基于相似话题的流行度预测方法及系统. CN: CN113780569A, 2021-12-10.[2] 郭岩, 匡广生, 程学旗, 刘悦, 陈银鹏, 付宏宇, 俞晓明. 基于单平台的网络事件流行度预测方法与系统. CN: CN113190734A, 2021-07-30.[3] 程学旗, 匡广生, 郭岩, 刘悦, 陈银鹏, 付宏宇, 俞晓明. 基于多平台的网络事件流行度预测方法与系统. CN: CN113190733A, 2021-07-30.[4] 刘春阳, 解伟凡, 张翔宇, 钟习, 解峥, 杜慧, 王鹏, 俞晓明, 刘悦. 新冠肺炎疫情数据的实时采集方法. CN: CN112667872A, 2021-04-16.[5] 张丽, 董雨辰, 张翔宇, 杜慧, 解峥, 钟习, 陈志鹏, 俞晓明, 刘悦. word文档关键信息抽取方法. CN: CN112668316A, 2021-04-16.[6] 孟剑, 樊晓然, 郭岩, 贺广福, 陈银鹏, 史存会, 俞晓明, 刘悦, 程学旗. 一种网站列表页面的分类方法、系统及存储介质. CN: CN112287274A, 2021-01-29.[7] 孟剑, 郭岩, 贺广福, 史存会, 陈银鹏, 俞晓明, 刘悦, 程学旗, 程学旗. 一种网站列表页面的分类方法、系统及存储介质. CN: CN112287274A, 2021-01-29.[8] 史存会, 程学旗, 冯彬, 王伟玉, 俞晓明, 刘悦. 一种任意尺度的话题脉络实时生成方法及系统. CN: CN112307278A, 2021-02-02.[9] 俞晓明, 付培国, 陈银鹏, 赵忠华, 郭岩, 万欣欣, 周秀花, 李欣, 丛朝阳, 孙立远, 丁汉星, 王禄恒. 一种特定学术领域人物的发现与跟踪方法及系统. CN: CN111488424A, 2020-08-04.[10] 程学旗, 史存会, 胡耀康, 朱运昌, 俞晓明, 刘悦. 一种基于中间人的互联网数据采集方法及系统. CN: CN110781367A, 2020-02-11.[11] 史存会, 王伟玉, 俞晓明, 刘悦, 程学旗. 一种针对事件的话题表示生成方法及系统. CN: CN110795943B, 2021-10-08.[12] 程学旗, 史存会, 朱运昌, 俞晓明, 刘悦. 基于动力学模型的网络突发事件检测方法及系统. CN: CN110704717A, 2020-01-17.[13] 史存会, 程学旗, 王俊, 张瑾, 俞晓明, 刘悦. 基于事件因果关系抽取的网络苗头事件检测方法及系统. CN: CN110705597A, 2020-01-17.[14] 张凯, 程学旗, 俞晓明, 刘悦, 孙海洲. 一种基于Kubernetes的脚本解释型服务代理方法和系统. CN: CN110557428A, 2019-12-10.[15] 张凯, 刘春阳, 俞晓明, 王鹏, 钟习, 张旭, 刘悦, 张翔宇, 孙海洲, 陈志鹏. 一种基于Kubernetes的JS解析方法及系统. CN: CN110427264A, 2019-11-08.[16] 张凯, 刘春阳, 俞晓明, 王鹏, 钟习, 张旭, 刘悦, 张翔宇, 孙海洲, 陈志鹏. 一种基于Kubernetes的通用服务转换方法及系统. CN: CN110442421A, 2019-11-12.[17] 钟习, 程学旗, 郭岩, 杨新元, 史存会, 俞晓明. 一种融合用户画像的网络舆情热点推荐方法及系统. CN: CN110188265A, 2019-08-30.[18] 程学旗, 郭岩, 贺广福, 周秀花, 俞晓明, 史存会, 孟剑, 姜世勇, 肖若晗, 赵岭, 张乐, 焦利颖, 周映彤, 余智华, 刘悦. 用于大规模网络数据采集的信源管理与配置方法和系统. CN: CN109753596A, 2019-05-14.[19] 史存会, 程学旗, 孟剑, 俞晓明, 郭岩, 贺广福, 周秀花, 余智华, 刘悦. 大规模网络数据的多信息来源采集方法和系统. CN: CN109840298A, 2019-06-04.[20] 孟剑, 俞晓明, 程学旗, 史存会, 郭岩, 贺广福, 周秀花, 余智华, 刘悦. 用于大规模网络数据采集的分布式动态调度方法和系统. CN: CN109814992A, 2019-05-28.[21] 张凯, 程学旗, 俞晓明, 刘悦, 余智华, 孙海洲. 一种基于脚本的网页采集服务方法和系统. CN: CN109815387A, 2019-05-28.[22] 程学旗, 史存会, 俞晓明, 郭岩, 贺广福, 孟剑, 周秀花, 姜世勇, 肖若晗, 赵岭, 张乐, 焦利颖, 周映彤, 周术夏, 余智华, 刘悦. 大规模网络数据的感知与获取方法和系统. CN: CN109815382A, 2019-05-28.[23] 贺广福, 程学旗, 孟剑, 俞晓明, 史存会, 姜世勇, 肖若晗, 郭岩, 周秀花, 余智华, 刘悦. 用于大规模网络数据采集的监控与统计分析方法和系统. CN: CN109819019A, 2019-05-28.[24] 张凯, 刘春阳, 吴昱明, 王鹏, 钟习, 张旭, 刘悦, 李雄, 俞晓明, 张翔宇. 一种基于域名推荐的网站发现方法和系统. CN: CN109241483A, 2019-01-18.[25] 张凯, 刘春阳, 吴昱明, 王鹏, 钟习, 张旭, 刘悦, 李雄, 俞晓明, 张翔宇. 一种基于附加分支处理服务的采集方法和系统. CN: CN109388768A, 2019-02-26.[26] 杨放, 程学旗, 郭岩, 俞晓明, 刘悦. 互联网金融项目信息抽取方法和系统. CN: CN108959204B, 2021-03-05.[27] 刘晓飞, 汪立东, 舒琦赟, 王慧, 俞晓明, 赵忠华, 刘悦, 王卿, 程学旗. 分布式RSS数据采集方法和系统. CN: CN108769115A, 2018-11-06.[28] 舒琦赟, 汪立东, 刘晓飞, 王慧, 俞晓明, 赵忠华, 刘悦, 王卿, 程学旗. 基于语法树和文本块密度的网页信息抽取方法及系统. CN: CN108897749A, 2018-11-27.[29] 程学旗, 郗家贞, 郭岩, 刘悦, 俞晓明, 赵岭. 一种基于时间串的论坛页面信息自动抽取方法及系统. CN: CN104268148A, 2015-01-07.[30] 薛源海, 夏浩耘, 陈翠婷, 贺广福, 俞晓明, 沈华伟, 程学旗. 一种基于实体增强的文本语义表示方法及系统. CN: CN116662480A, 2023-08-29.[31] 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘悦, 沈华伟, 程学旗. 一种文本聚合方法以及文本推荐方法. CN: CN114443820A, 2022-05-06.[32] 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘悦, 沈华伟, 程学旗. 一种文本聚合方法以及文本推荐方法. CN: CN114443820A, 2022-05-06.[33] 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘悦, 沈华伟, 程学旗. 一种大数据场景下的数据分割方法. CN: CN114491157A, 2022-05-13.[34] 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘悦, 沈华伟, 程学旗. 一种大数据场景下的数据分割方法. CN: CN114491157A, 2022-05-13.[35] 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘悦, 沈华伟, 程学旗. 一种大数据场景下的数据分割方法. CN: CN114491157A, 2022-05-13.[36] 郭岩, 王之威, 刘杨昊, 刘悦, 薛源海, 俞晓明, 沈华伟, 程学旗. 一种基于语义的网页信息抽取方法及系统. CN: CN114528459A, 2022-05-24.[37] 张翔宇, 刘春阳, 张旭, 钟习, 史存会, 赵岭, 俞晓明, 刘悦, 沈华伟, 程学旗. 面向社交平台的数据采集方法与系统. CN: CN114417211A, 2022-04-29.[38] 郭岩, 解伟凡, 匡广生, 余智华, 薛源海, 沈华伟, 刘悦, 俞晓明, 程学旗. 一种基于相似话题的流行度预测方法及系统. CN: CN113780569A, 2021-12-10.[39] 刘春阳, 解伟凡, 张翔宇, 钟习, 解峥, 杜慧, 王鹏, 俞晓明, 刘悦. 新冠肺炎疫情数据的实时采集方法. CN: CN112667872B, 2023-04-07.[40] 孟剑, 郭岩, 贺广福, 陈银鹏, 史存会, 俞晓明, 刘悦, 程学旗. 一种网站列表页面的分类方法、系统及存储介质. CN: CN112287273B, 2022-09-30.[41] 孟剑, 樊晓然, 郭岩, 贺广福, 陈银鹏, 史存会, 俞晓明, 刘悦, 程学旗. 一种网站列表页面的分类方法、系统及存储介质. CN: CN112287274B, 2022-10-18.[42] 孟剑, 郭岩, 贺广福, 陈银鹏, 史存会, 俞晓明, 刘悦, 程学旗. 一种网站列表页面的分类方法、系统及存储介质. CN: CN112287273A, 2021-01-29.[43] 孟剑, 郭岩, 贺广福, 史存会, 陈银鹏, 俞晓明, 刘悦, 程学旗. 一种网站列表页面的分类方法、系统及存储介质. CN: CN112287272A, 2021-01-29.[44] 程学旗, 史存会, 朱运昌, 俞晓明, 刘悦. 基于动力学模型的网络突发事件检测方法及系统. CN: CN110704717B, 2022-09-27.[45] 史存会, 程学旗, 王俊, 张瑾, 俞晓明, 刘悦. 基于事件因果关系抽取的网络苗头事件检测方法及系统. CN: CN110705597B, 2022-11-11.[46] 张凯, 程学旗, 俞晓明, 刘悦, 孙海洲. 一种基于Kubernetes的脚本解释型服务代理方法和系统. CN: CN110557428B, 2021-08-24.[47] 张凯, 刘春阳, 俞晓明, 王鹏, 钟习, 张旭, 刘悦, 张翔宇, 孙海洲, 陈志鹏. 一种基于Kubernetes的JS解析方法及系统. CN: CN110427264B, 2021-11-30.[48] 张凯, 刘春阳, 俞晓明, 王鹏, 钟习, 张旭, 刘悦, 张翔宇, 孙海洲, 陈志鹏. 一种基于Kubernetes的通用服务转换方法及系统. CN: CN110442421B, 2022-04-01.[49] 贺广福, 程学旗, 孟剑, 俞晓明, 史存会, 姜世勇, 肖若晗, 郭岩, 周秀花, 余智华, 刘悦. 用于大规模网络数据采集的监控与统计分析方法和系统. CN: CN109819019B, 2021-04-27.[50] 程学旗, 史存会, 俞晓明, 郭岩, 贺广福, 孟剑, 周秀花, 姜世勇, 肖若晗, 赵岭, 张乐, 焦利颖, 周映彤, 周术夏, 余智华, 刘悦. 大规模网络数据的感知与获取方法和系统. CN: CN109815382B, 2022-07-12.[51] 程学旗, 郭岩, 贺广福, 周秀花, 俞晓明, 史存会, 孟剑, 姜世勇, 肖若晗, 赵岭, 张乐, 焦利颖, 周映彤, 余智华, 刘悦. 用于大规模网络数据采集的信源管理与配置方法和系统. CN: CN109753596B, 2021-05-25.[52] 张凯, 程学旗, 俞晓明, 刘悦, 余智华, 孙海洲. 一种基于脚本的网页采集服务方法和系统. CN: CN109815387B, 2021-11-19.[53] 史存会, 程学旗, 孟剑, 俞晓明, 郭岩, 贺广福, 周秀花, 余智华, 刘悦. 大规模网络数据的多信息来源采集方法和系统. CN: CN109840298B, 2021-09-24.[54] 张凯, 刘春阳, 吴昱明, 王鹏, 钟习, 张旭, 刘悦, 李雄, 俞晓明, 张翔宇. 一种基于域名推荐的网站发现方法和系统. CN: CN109241483B, 2021-10-12.[55] 张凯, 刘春阳, 吴昱明, 王鹏, 钟习, 张旭, 刘悦, 李雄, 俞晓明, 张翔宇. 一种基于域名推荐的网站发现方法和系统. CN: CN109241483A, 2019-01-18.[56] 舒琦赟, 汪立东, 刘晓飞, 王慧, 俞晓明, 赵忠华, 刘悦, 王卿, 程学旗. 基于语法树和文本块密度的网页信息抽取方法及系统. CN: CN108897749A, 2018-11-27.[57] 程学旗, 郗家贞, 郭岩, 刘悦, 俞晓明, 赵岭. 一种基于时间串的论坛页面信息自动抽取方法及系统. CN: CN104268148B, 2018-02-06.[58] 一种网络用户心理测量基础数据补充采集方法、装置. 2024-01-19.[59] 基于自适应权重的语义检索模型融合方法及系统. 2023-05-09.[60] 一种基于编排执行的信息获取方法和系统. 2023-06-02.
出版信息
发表论文
(1) Disentangled Graph Representation with Contrastive Learning for Rumor Detection, 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024, 第 3 作者(2) 舆情场景下基于层次知识的话题推荐方法, A Hierarchical Knowledge Based Topic Recommendation Method in Public Opinion Scenario, 计算机研究与发展, 2021, 第 5 作者(3) 一种事件粒度的抽取式话题简短表示生成方法, An extractive topic brief representation generation method to event, 山东大学学报:理学版, 2021, 第 3 作者(4) 融合上下文信息的篇章级事件时序关系抽取方法, Document-Level Event Temporal Relation Extraction with Context Information, 计算机研究与发展, 2021, 第 4 作者(5) 基于视觉的网页重要变化检测方法, Vision Based Important Change Detection Method for Web Pages, 模式识别与人工智能, 2020, 第 2 作者(6) 支持动态更新的微博话题用户影响力度量方法, Method Supporting Dynamic Updates for Identifying Topical User Influence in Weibo, 山西大学学报:自然科学版, 2020, 第 4 作者(7) 基于多维度特征的主题标签流行度预测, Topic tag popularity prediction based on multi-dimensional features, 山东大学学报:理学版, 2020, 第 6 作者(8) 一种基于时间序列预测的重采策略, A Re-crawling Strategy Based on Time Series Prediction, 中文信息学报, 2019, 第 3 作者(9) 基于视觉特征的网页信息抽取方法研究, Research on Web Page Information Extraction Based on Visual Features, 中文信息学报, 2019, 第 4 作者(10) 多源文本下结合实体的事件发现方法ESP, ESP:a Event Detection Algorithm for Multi-source Text, 山西大学学报:自然科学版, 2019, 第 4 作者(11) 基于词聚类的跨媒体突发事件检测方法, A New Method to Detect Busty Events with Different Media Data Based on Word Clustering, 广西师范大学学报:自然科学版, 2019, 第 5 作者(12) 多文档短摘要生成技术研究, Research on Short Summary Generation of Multi-Document, 广西师范大学学报:自然科学版, 2019, 第 3 作者(13) 融合词性和注意力的卷积神经网络对象级情感分类方法, CNN with Part-of-Speech and Attention Mechanism for Targeted Sentiment Classification, 模式识别与人工智能, 2018, 第 2 作者(14) Exploiting Contextual Information via Dynamic Memory Network for Event Detection, EMNLP 2018, 2018, 第 3 作者(15) 任意网页的主题信息抽取研究, A General Theme Information Extraction for Webpages, 中文信息学报, 2017, 第 4 作者(16) 针对开源论坛网页的信息抽取研究, Information Extraction Research Aimed at Open SourceWeb Pages, 计算机科学与探索, 2017, 第 3 作者(17) FPC:大规模网页的快速增量聚类, FPC:Fast Incremental Clustering for Large Scale Web Pages, 中文信息学报, 2016, 第 6 作者(18) 查询会话中带时间因子的隐式负反馈研究, Exploration of Implicit Negative Feedback with Time Factorin Search Session, 中文信息学报, 2016, 第 2 作者(19) 基于事件的新闻客户端热门评论预测框架, A news App popular comment prediction framework based on event detection, 山东大学学报. 理学版, 2016, 第 6 作者(20) 基于查询性能预测的鲁棒检索排序研究, Robust Ranking via Query Performance Prediction, 中文信息学报, 2016, 第 2 作者(21) 一种短正文网页的正文自动化抽取方法, A Content Extraction Method for Short Web Pages, 中文信息学报, 2016, 第 6 作者(22) 一种基于网页块特征的多级网页聚类方法, A multi-level page clustering method based on page segmentation, 山东大学学报. 理学版, 2015, 第 6 作者(23) 基于Web的查询翻译中OOV译文挖掘优化, Web-based OOV Translation Mining Optimization for Query Translation, 山西大学学报. 自然科学版, 2015, 第 2 作者(24) 中文微博客的垃圾用户检测, Research on Detecting Spammer in Micro-blogs, 中文信息学报, 2014, 第 2 作者(25) 信息检索中的带权邻近度度量研究, Exploration of Weighted Proximity Measure in Information Retrieval, 计算机研究与发展, 2014, 第 2 作者(26) 基于逐点互信息的查询结构分析, Query Structure Analysis Based on PMI, 中文信息学报, 2012, 第 3 作者(27) 如何应对2K放映到4K放映的转变(续), 现代电影技术, 2011, 第 3 作者(28) 如何应对2K放映到4K放映的转变, 现代电影技术, 2011, 第 3 作者(29) 大规模短文本的不完全聚类, Incomplete Clustering for Large Scale Short Texts, 中文信息学报, 2011, 第 2 作者(30) 基于假设流量的Deltoid算法阈值设定, Threshold Setting for Deltoid Algorithm Based on Hypothetic Traffic, 计算机工程, 2008, 第 1 作者(31) Density analysis of Winnowing on non-uniform distributions, ADVANCES IN DATA AND WEB MANAGEMENT, PROCEEDINGS, 2007, 通讯作者(32) TCP/IP协议处理中的缓冲区优化及实现, Buffer Optimization in Processing of Protocols Above TCP/IP, 计算机工程, 2006, 第 1 作者
科研活动
科研项目
( 1 ) 传播信息和用户行为数据的综合感知, 负责人, 中国科学院计划, 2019-01--2023-12( 2 ) 语料平台项目, 负责人, 国家任务, 2024-01--2028-01( 3 ) 操纵模式识别关键技术研究, 负责人, 国家任务, 2023-12--2024-12( 4 ) 资源发现和评估项目, 参与, 国家任务, 2023-12--2027-09( 5 ) 数据获取项目, 参与, 国家任务, 2023-12--2027-09