基本信息
刘汇丹  男  硕导  中国科学院软件研究所
电子邮件: huidan@iscas.ac.cn
通信地址: 北京市海淀区中关村南四街4号,中科院软件所5号楼A904
邮政编码: 100190

招生信息

   
招生专业
081202-计算机软件与理论
招生方向
自然语言处理,中文信息处理

教育背景

2009-09--2013-01   中国科学院大学   博士
2004-09--2007-07   中国科学院研究生院   硕士
2000-09--2004-07   北京交通大学   本科

工作经历

   
工作简历
2017-04~现在, 中国科学院软件研究所, 高级工程师
2016-12~2017-03,北京华为数字技术有限公司, 主任工程师
2015-02~2016-11,中国科学院软件研究所, 高级工程师
2009-11~2015-02,中国科学院软件研究所, 工程师
2007-07~2009-11,中国科学院软件研究所, 助理工程师

专利与奖励

   
奖励信息
(1) 2014 ACM SIGSPATICAL CUP 竞赛一等奖, 一等奖, 其他, 2014
专利成果
( 1 ) 用户身份检测方法和系统, 专利授权, 2016, 第 4 作者, 专利号: CN105306496A

( 2 ) 双语对齐语料的加工方法及装置, 发明专利, 2015, 第 1 作者, 专利号: CN104657351A

( 3 ) 提供云字库服务的方法和系统, 发明专利, 2015, 第 5 作者, 专利号: CN104462026A

( 4 ) 一种解决文件名乱码问题的ZIP文件解压缩方法, 发明专利, 2014, 第 1 作者, 专利号: CN104199867A

( 5 ) 一种字形加粗方法, 发明专利, 2014, 第 1 作者, 专利号: CN104133809A

( 6 ) 一种面向轻量级终端的路网匹配方法, 发明专利, 2013, 第 5 作者, 专利号: CN103198111A

( 7 ) 一种基于部件的联机手写藏文字符的识别方法, 发明专利, 2012, 第 3 作者, 专利号: CN102360436A

( 8 ) 一种基于词位标注的藏文分词方法, 发明专利, 2011, 第 1 作者, 专利号: CN102135956A

( 9 ) 一种图形用户界面的多语言自适应方法, 发明专利, 2008, 第 2 作者, 专利号: CN101114225A

( 10 ) 藏文网页及其编码的识别方法, 发明专利, 2007, 第 3 作者, 专利号: CN101055593A

出版信息

   
发表论文
[1] 信息技术与标准化. 2023, 第 1 作者
[2] In Proceedings of the 35th AAAI Conference on Artificial Intelligence (AAAI 2021, CCF-A). 2021, 第 5 作者
[3] 龙从军, 周毛克, 刘汇丹. 基于词向量的藏文语义相似词知识库构建. 中文信息学报[J]. 2020, 第 3 作者34(10): 33-38,50, http://lib.cqvip.com/Qikan/Article/Detail?id=7103542502.
[4] 龙从军, 刘汇丹, 周毛克. 基于句法树的藏语最长名词短语识别. 中文信息学报[J]. 2019, 第 2 作者59-66, http://lib.cqvip.com/Qikan/Article/Detail?id=77698383504849574850484948.
[5] 龙从军, 豆格才让, 刘汇丹. 汉—藏人名用字音译规则研究. 中文信息学报[J]. 2018, 第 3 作者32(3): 71-76, https://d.wanfangdata.com.cn/periodical/zwxxxb201803010.
[6] 刘汇丹. CTTC: A Collection of Tibetan Text Corpora. Proceedings of LREC 2018 Workshop on Belt & Road: Language Resources and Evaluation. 2018, 第 1 作者
[7] 李博涵, 刘汇丹, 龙从军, 吴健. 基于深度学习的藏文分词方法. 计算机工程与设计[J]. 2018, 第 2 作者39(1): 194-198, http://lib.cqvip.com/Qikan/Article/Detail?id=674280030.
[8] 刘汇丹. 深度学习在汉藏机器翻译中的应用研究. 民族翻译. 2018, 第 1 作者
[9] 龙从军, 刘汇丹, 吴健. 藏语音节标注研究. 中文信息学报[J]. 2017, 第 2 作者31(4): 89-93,99, http://lib.cqvip.com/Qikan/Article/Detail?id=673329125.
[10] 刘汇丹, 洪锦玲, 诺明花, 吴健. 基于大规模网络语料的藏文音节拼写错误统计与分析. 中文信息学报[J]. 2017, 第 1 作者31(2): 61-70, http://lib.cqvip.com/Qikan/Article/Detail?id=672249349.
[11] 刘汇丹. A Chinese to Tibetan Machine Translation System with Multiple Translating Strategies. Himalayan Linguistics. 2016, 第 1 作者
[12] 刘汇丹. Tibetan Trisyllabic Light Verb Construction Recognition. Himalayan Linguistics. 2016, 第 1 作者
[13] 龙从军, 刘汇丹, 吴健. 藏文国际音标(拉萨音)自动转换研究. 中文信息学报[J]. 2016, 第 2 作者30(5): 203-208,214, http://lib.cqvip.com/Qikan/Article/Detail?id=670605431.
[14] 龙从军, 刘汇丹, 安波, 才华, 吴健. 藏文编码字符集标准应用中的问题及对策. 信息技术与标准化[J]. 2016, 第 2 作者第C1期: 46-51, http://www.corc.org.cn/handle/1471x/2070080.
[15] 龙从军, 刘汇丹, 诺明花, 吴健. 基于藏语字性标注的词性预测研究. 中文信息学报[J]. 2015, 第 2 作者29(5): 211-215, http://lib.cqvip.com/Qikan/Article/Detail?id=666935044.
[16] 赵维纳, 李琳, 刘汇丹, 普布顿珠, 吴健. 藏语三音动词短语自动抽取研究. 中文信息学报[J]. 2015, 第 3 作者29(3): 196-200, http://lib.cqvip.com/Qikan/Article/Detail?id=665705238.
[17] Liu Huidan, Long Congjun, Nuo Minghua, Wu Jian, Sun M, Liu Z, Zhang M, Liu Y. Tibetan Word Segmentation as Sub-syllable Tagging with Syllable's Part-of-Speech Property. CHINESE COMPUTATIONAL LINGUISTICS AND NATURAL LANGUAGE PROCESSING BASED ON NATURALLY ANNOTATED BIG DATA (CCL 2015). 2015, 第 1 作者9427: 189-201, 
[18] Nuo Minghua, Liu Huidan, Long Congjun, Wu Jian, Zong C, Strube M. Tibetan Unknown Word Identification from News Corpora for Supporting Lexicon-based Tibetan Word Segmentation. PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (ACL) AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING (IJCNLP), VOL 2. 2015, 第 2 作者451-457, http://apps.webofknowledge.com/CitedFullRecord.do?product=UA&colName=WOS&SID=5CCFccWmJJRAuMzNPjj&search_mode=CitedFullRecord&isickref=WOS:000493810000074.
[19] 刘汇丹, 诺明花, 马龙龙, 吴健, 贺也平. Web藏文文本资源挖掘与利用研究. 中文信息学报[J]. 2015, 第 1 作者29(1): 170-177, http://lib.cqvip.com/Qikan/Article/Detail?id=664161580.
[20] 刘汇丹. Zipf’s Law and Statistical Data on Modern Tibetan. The 25th International Conference on Computational Linguistics (COLING 2014). 2014, 第 1 作者
[21] 赵维纳, 于新, 刘汇丹, 李琳, 王磊, 吴健. 现代藏语助动词结尾句子边界识别方法. 中文信息学报[J]. 2013, 第 3 作者115-119, http://lib.cqvip.com/Qikan/Article/Detail?id=44852609.
[22] 王震, 刘汇丹, 吴健. 新标准体系下蒙古文变形显现模型的设计与实现. 中文信息学报[J]. 2013, 第 2 作者108-114, http://lib.cqvip.com/Qikan/Article/Detail?id=44852608.
[23] 诺明花, 刘汇丹, 马龙龙, 吴健, 丁治明. 基于中心语块扩展的汉藏基本名词短语对的识别. 中文信息学报[J]. 2013, 第 2 作者27(4): 63-69, http://lib.cqvip.com/Qikan/Article/Detail?id=46842381.
[24] 熊维, 吴健, 刘汇丹, 张立强. 基于短语串实例的汉藏辅助翻译. 中文信息学报[J]. 2013, 第 3 作者27(3): 84-90, http://lib.cqvip.com/Qikan/Article/Detail?id=46018746.
[25] 刘汇丹. 新标准体系下的通用蒙古文变形显现模型的设计与实现. 中文信息学报. 2013, 第 1 作者
[26] 诺明花, 刘汇丹, 马龙龙, 吴健, 丁治明. 基于中心语块扩展的汉藏基本名词短语对识别. 第六届全国青年计算语言学会议. 2012, 第 2 作者194-200, http://ir.iscas.ac.cn/handle/311060/15919.
[27] 刘汇丹, 诺明花, 赵维纳, 吴健, 贺也平. SegT:一个实用的藏文分词系统. JOURNAL OF CHINESE INFORMATION PROCESSING[J]. 2012, 第 1 作者26(1): 97-103, http://lib.cqvip.com/Qikan/Article/Detail?id=40727814.
[28] 马龙龙. Tibetan base Noun Phrase Identification framework based on Chinese-Tibetan sentence aligned corpus. In Proceedings of the 24th International Conference on Computational Linguistics (COLING2012). 2012, 
[29] 诺明花, 刘汇丹, 吴健, 丁治明. 基于关联度的汉藏多词单元等价对抽取方法. 中文信息学报[J]. 2012, 第 2 作者26(3): 98-103, http://lib.cqvip.com/Qikan/Article/Detail?id=41912359.
[30] 刘汇丹, 诺明花, 赵维纳, 吴健, 贺也平. SegT:一个实用的藏文分词系统. JOURNAL OF CHINESE INFORMATION PROCESSING[J]. 2012, 第 1 作者26(1): 97-103, http://lib.cqvip.com/Qikan/Article/Detail?id=40727814.
[31] 熊维, 王震, 于新, 刘汇丹, 诺明花, 马龙龙, 张立强, 洪锦玲, 吴健. ISCAS机器翻译系统与评测技术报告. 第七届全国机器翻译研讨会. 2011, 第 4 作者155-161, http://ir.iscas.ac.cn/handle/311060/16326.
[32] 江荻, 刘汇丹, 吴兵. 国际音标输入软件的设计与实现. 中文信息学报[J]. 2011, 第 2 作者25(2): 111-116, http://lib.cqvip.com/Qikan/Article/Detail?id=37067780.
[33] Nuo Minghua, Liu Huidan, Ma Longlong, Wu Jian, Ding Zhiming. Automatic acquisition of chinese-tibetan multi-word equivalent pair from bilingual corpora. PROCEEDINGS - 2011 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING, IALP 2011. 2011, 第 2 作者177-180, http://ir.iscas.ac.cn/handle/311060/16257.
[34] Ma LongLong, Liu HuiDan, Wu Jian. Mrg-ohtc database for online handwritten tibetan character recognition. PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, ICDAR. 2011, 第 2 作者207-211, 
[35] 刘汇丹. Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields. In Proceedings of the 25th Pacific Asia Conference on Language, Information and Computation (PACLIC-2011). 2011, 第 1 作者
[36] 诺明花, 吴健, 刘汇丹, 丁治明. 汉藏短语对抽取中短语译文获取方法研究. 中文信息学报[J]. 2011, 第 3 作者25(3): 112-117, http://lib.cqvip.com/Qikan/Article/Detail?id=37816767.
[37] Liu Huidan, Nuo Minghua, Ma Longlong, Wu Jian, He Yeping. Tibetanword segmentation as syllable tagging using conditional random field. PACLIC 25 - PROCEEDINGS OF THE 25TH PACIFIC ASIA CONFERENCE ON LANGUAGE, INFORMATION AND COMPUTATION[J]. 2011, 第 1 作者168-177, http://ir.iscas.ac.cn/handle/311060/16170.
[38] 诺明花, 张立强, 刘汇丹, 吴健, 丁治明. 汉藏短语抽取. 中文信息学报[J]. 2011, 第 3 作者25(2): 105-110,121, http://lib.cqvip.com/Qikan/Article/Detail?id=37067779.
[39] 刘汇丹. Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation. In Proceedings of the 23rd International Conference on Computational Linguistics. 2010, 第 1 作者
[40] 刘汇丹, 芮建武, 姚延栋, 吴健. 基于Qt的国际化图形用户界面设计与实现. 中文信息学报[J]. 2006, 第 1 作者20(4): 94-99, http://lib.cqvip.com/Qikan/Article/Detail?id=22334184.
发表著作
(1) 藏文自动分词的理论与方法研究, 知识产权出版社, 2016-03, 第 2 作者

科研活动

   
科研项目
( 1 ) “中华字库”工程第23包“应用平台研发”, 负责人, 国家任务, 2011-04--2024-12
( 2 ) 藏语命名实体识别关键技术研究, 参与, 国家任务, 2014-01--2016-12
( 3 ) 古籍引文自动校对技术研发, 参与, 境内委托项目, 2017-08--2017-12
( 4 ) 面向古籍文献出版的汉字繁简转换系统, 负责人, 境内委托项目, 2018-10--2018-12
( 5 ) 繁简转换系统二期, 负责人, 境内委托项目, 2019-06--2019-10
( 6 ) 古籍文本词频统计及分词研究, 负责人, 国家任务, 2019-01--2020-12
( 7 ) 基于垂直领域(石油)的知识获取和知识图谱构建项目, 参与, 境内委托项目, 2019-09--2020-08
( 8 ) 有监督式关系抽取算法项目, 负责人, 境内委托项目, 2020-07--2021-06
( 9 ) 中华人民共和国国家标准GB18030-2022《信息技术中文编码字符集》汉字整理研究与资源库建设, 参与, 国家任务, 2024-01--2028-12
( 10 ) 信息技术产品国家通用语言文字规范应用研究, 负责人, 国家任务, 2024-01--2026-01
( 11 ) 生僻字处理软件开发, 负责人, 境内委托项目, 2023-11--2024-12

指导学生

已指导学生

金琪  硕士研究生  083500-软件工程  

现指导学生

伍家豪  硕士研究生  083500-软件工程