基本信息
刘杰  男  硕导  中国科学院软件研究所
电子邮件: ljie@otcaix.iscas.ac.cn
通信地址: 北京海淀区中关村南4街4号
邮政编码: 100190

研究领域

研究方向:

  • 大数据与机器学习系统(System for Big Data & AI):大数据分布式计算、分布式机器学习系统、地球大数据;

  • 大模型驱动的智能化软件工程(LLM Powered Intelligent SE):基于大模型的智能算法代码生成、面向RISC-V的代码迁移

  • 领域决策智能(Domain decision intelligence):领域知识图谱构建、领域大模型微调, 面向科学计算、咨询、医疗、民航、法律、遥感、教育等领域的机器学习与数据挖掘算法及其分布式优化


主要工作:

  • 参与研制“可持续发展大数据平台系统”,带领团队研发的EarthDataMiner突破了超大规模遥感影像分布式计算与交互式分析云服务技术,服务科学家在线开展遥感影像及其他科学数据的智能分析处理,支持SDGs指标全流程在线计算。EarthDataMiner支持科学家在线开发SDGs指标计算算法,并将算法成果发布为web app工具,支持全球用户访问使用。依托该成果获中国测绘学会2023测绘科技进步特等奖

  • 知识图谱与问答系统相关成果在医疗、民航(航旅纵横)、法律等领域应用。

  • 作为负责人主持国家自然科学基金项目2项、国家重点研发计划课题1项、中科院科技创新项目1项、民航总局科技重大专项1项。

  • 作为负责人开展多项企业合作项目,合作方包括华为、京东、中航信、航天科工等企业。

  • 在大数据和人工智能相关的会议期刊发表论文40多篇,获得发明专利5项。指导研究生曾获天池大数据比赛三等奖、无锡大数赛三等奖等。

  • 计算机学会系统软件专业委员会委员,中科院青年创新促进会会员、江苏省研究生导师类产业教授(兼职)。

  • 广西大学、南京中医药大学联合培养硕士生导师。

  • 国家自然科学家基金、计算机学报、软件学报、中国科学院大学学报、AAAI等审稿人。


中国科学报报道2021/9/22:“地球大数据”有了自主研发的在线分析工具

软件所官网报道 2021/9/7:    可持续发展大数据国际研究中心成立 软件所参与研制的“可持续发展大数据平台系统”正式发布



欢迎对大模型、大数据、机器学习系统方向感兴趣学生 参加推免或报考,或实习!



招生信息

   
招生专业
083500-软件工程
081202-计算机软件与理论
招生方向
大数据智能分析
机器学习系统
软件工程

教育背景

2004-09--2011-01   中国科学技术大学   博士
2000-09--2004-06   中国科学技术大学   本科

工作经历

   
工作简历
2014-07~现在, 中国科学院软件研究所, 副研究员
2011-04~2014-06,中国科学院软件研究所, 助理研究员

教授课程

云计算与大数据技术及系统
大数据技术概论

专利与奖励

   
奖励信息
(1) 2023年测绘科学技术奖, 特等奖, 部委级, 2023
专利成果
( 1 ) 一种基于深度度量学习的一人多案关联识别方法及系统, 2023, 第 3 作者, 专利号: CN112925877B

( 2 ) 基于知识注入的双注意力网络的多模态讽刺意图识别方法, 发明专利, 2022, 第 2 作者, 专利号: CN115408517A

( 3 ) 面向关系型数据库中SQL语句执行的自动化测试方法及装置, 发明专利, 2022, 第 7 作者, 专利号: CN115344500A

( 4 ) 一种面向深度学习模型推理批处理优化方法与系统, 发明专利, 2022, 第 1 作者, 专利号: CN113902116A

( 5 ) 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统, 发明专利, 2021, 第 5 作者, 专利号: CN113744886A

( 6 ) 一种基于深度度量学习的一人多案关联识别方法及系统, 发明专利, 2021, 第 3 作者, 专利号: CN112925877A

( 7 ) 一种面向遥感语义分割的自动化机器学习方法及系统, 发明专利, 2020, 第 1 作者, 专利号: CN111797833A

( 8 ) 一种结合业务规则的在线学习停滞预测系统, 专利授权, 2019, 第 1 作者, 专利号: CN109784578A

( 9 ) 一种基于异步贝叶斯优化的机器学习超参优化系统及方法, 发明专利, 2019, 第 2 作者, 专利号: CN109376869A

( 10 ) 一种基于Spark SQL的分布式全文检索系统及方法, 专利授权, 2017, 第 3 作者, 专利号: CN107122443A

( 11 ) 一种基于迁移学习的疾病领域间病人相似性度量迁移系统, 专利授权, 2017, 第 1 作者, 专利号: CN106934235A

( 12 ) 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法, 发明专利, 2015, 第 2 作者, 专利号: CN105069560A

( 13 ) 一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统, 发明专利, 2014, 第 1 作者, 专利号: CN103761111A

( 14 ) 一种数据处理流程代码的生成方法, 发明专利, 2011, 第 3 作者, 专利号: CN102033748A

( 15 ) 一种分布式系统运行时的监视数据传输方法, 发明专利, 2011, 第 4 作者, 专利号: CN102014162A

( 16 ) 一种ETL流程中异常数据检测方法, 发明专利, 2009, 第 1 作者, 专利号: CN101533407A

出版信息

   
发表论文
[1] Ruihao Cao, Zhirou Ma, Liangyi Kang, Shuai Wang, Jie Liu. CSTCN: A Novel Causal-Based Framework for Air Quality Medium- and Long-term Prediction. 2023 IEEE 35th International Conference on Tools with Artificial Intelligence (ICTAI)[J]. 2023, [2] Zhiyang Zhou, Jie Liu, Wensheng Dou, Shuo Li, Liangyi Kang, Muzi Qu, Dan Ye. Fixing robust out-of-distribution detection for deep neural networks. IEEE International Symposium on Software Reliability Engineeringnull. 2023, [3] 李硕, 刘杰, 王帅, 田浩翔, 叶丹. 第三方库依赖冲突问题研究综述. 软件学报[J]. 2022, [4] Chen Xu, Xiaoping Du, Xiangtao Fan, Gregory Giuliani, Zhongyang Hu, Wei Wang, Jie Liu, Zhenzhen Yan, Junjie Zhu, Tianyang Jiang, Huadong Guo. Cloud-based storage and computing for remote sensing big data: a technical review. International Journal of Digital Earth[J]. 2022, [5] 付煜文, 马志柔, 刘杰, 白琳, 薄满辉, 叶丹. 面向问题意图识别的深度主动学习方法. 中文信息学报[J]. 2021, 35(4): 92-99,109, http://lib.cqvip.com/Qikan/Article/Detail?id=7104840709.
[6] Lin Bai, Chenye Cai, Jie Liu, Dan Ye. Meta-graph Embedding in Heterogeneous Information Network for Top-N Recommendation. IJCNN 2021null. 2021, [7] Liu Jie, Yang, Guang, 曲慕子, Shuai Wang, Hua Zhong. FaasRS: Remote Sensing Image Processing System on Serverless Platform. IEEE Computer Society Signature Conference on Computers, Software and Applications(COMPSAC)[J]. 2021, [8] Zhiyang Zhou, Wensheng Dou, Jie Liu, Chenxin Zhang, Jun Wei, Dan Ye. DeepCon: Contribution Coverage Testing for Deep Learning Systems. 28th International Conference on Software Analysis, Evolution, and Reengineering (SANER)null. 2021, [9] Liangyi Kang, Jie Liu, Lingqiao Liu, zhinyang zhou, 叶丹. Semi-supercised emotion recognition in textual conversation via a context-augmented auxiliary training task. Information Processing and Management[J]. 2021, [10] Liu Jie. Identity-linked Group Channel Pruning for Deep Neural Networks. International Joint Conference on Neural Network(IJCNN). 2021, [11] Kang, Liangyi, Liu, Jie, Liu, Lingqiao, Zhou, Zhiyang, Ye, Dan. Semi-supervised emotion recognition in textual conversation via a context-augmented auxiliary training task. INFORMATION PROCESSING & MANAGEMENT[J]. 2021, 58(6): http://dx.doi.org/10.1016/j.ipm.2021.102717.
[12] Liangyi Kang, Jie Liu, Lingqiao Liu, Dan Ye. Label Definitions Augmented Interaction Model for Legal Charge Prediction. 43rd EUROPEAN CONFERENCE ON INFORMATION RETRIEVAL(ECIR)null. 2021, [13] Liu Jie. EarthDataMiner: A Cloud-Based Big Earth Data Intelligence Analysis Platform. IOP Conference Series: Earth and Environmental Science 509 (1). 2020, [14] 钟华, 刘杰, 王伟. 科学大数据智能分析软件的现状与趋势. 中国科学院院刊[J]. 2018, 33(8): 812-817, http://lib.cqvip.com/Qikan/Article/Detail?id=676185368.
[15] 王建飞, 亢良伊, 刘杰, 叶丹. 分布式随机方差消减梯度下降算法topkSVRG. 计算机科学与探索[J]. 2018, 12(7): 1047-1054, http://lib.cqvip.com/Qikan/Article/Detail?id=675880695.
[16] Lijie Xu, Wensheng Dou, Feng Zhu, Chushu Gao, Jie Liu, Jun Wei. Characterizing and Diagnosing out of Memory Errors in MapReduce Applications. THE JOURNAL OF SYSTEMS AND SOFTWARE (JSS)[J]. 2018, 137: 399-414, [17] 亢良伊, 王建飞, 刘杰, 叶丹. 可扩展机器学习的并行与分布式优化算法综述. 软件学报[J]. 2018, 29(1): 109-130, http://lib.cqvip.com/Qikan/Article/Detail?id=674317702.
[18] 崔光范, 许利杰, 刘杰, 叶丹, 钟华. 基于Spark SQL的分布式全文检索框架的设计与实现. 计算机科学[J]. 2018, 45(9): 104-112,145, http://lib.cqvip.com/Qikan/Article/Detail?id=7000843509.
[19] Ni Jiazhi, Liu Jie, Zhang Chenxin, Ye Dan, Ma Zhirou, Assoc Comp Machinery. Fine-grained Patient Similarity Measuring using Deep Metric Learning. CIKM'17: PROCEEDINGS OF THE 2017 ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENTnull. 2017, 1189-1198, http://dx.doi.org/10.1145/3132847.3133022.
[20] 陈茜, 吴怀林, 马志柔, 刘杰, 钟华. 一种大数据分析组件的自动化开发集成方法. 计算机应用与软件[J]. 2016, 33(7): 33-37, http://lib.cqvip.com/Qikan/Article/Detail?id=669391242.
[21] 李世强, 倪嘉志, 刘杰, 叶丹. 基于多段间隔监督度量学习的病人相似度算法. 计算机系统应用[J]. 2016, 164-171, http://lib.cqvip.com/Qikan/Article/Detail?id=670591696.
[22] Feng Zhu, Jie Liu, Sa Wang, Jiwei Xu, Lijie Xu, Jixin Ren, Dan Ye, Jun Wei, Tao Huang. Hug the Elephant: Migrating a Legacy Data Analytics Application to Hadoop Ecosystem. The 32nd IEEE International Conference on Software Maintenance and Evolution (ICSME, CCF B)null. 2016, 178-188, [23] 钟华, 孙耀, 刘杰, 叶丹. 分布式文件系统元数据服务的负载均衡框架. 软件学报[J]. 2016, 27(12): 3192-3207, http://lib.cqvip.com/Qikan/Article/Detail?id=670892460.
[24] Wu Haijiang, Liu Jie, Wang Tao, Ye Dan, Wei Jun, Zhong Hua, ElBaz D, Bourgeois J. Plogs: Materializing Datalog Programs with MapReduce for Scalable Reasoning. 2016 INT IEEE CONFERENCES ON UBIQUITOUS INTELLIGENCE & COMPUTING, ADVANCED & TRUSTED COMPUTING, SCALABLE COMPUTING AND COMMUNICATIONS, CLOUD AND BIG DATA COMPUTING, INTERNET OF PEOPLE, AND SMART WORLD CONGRESS (UIC/ATC/SCALCOM/CBDCOM/IOP/SMARTWORLD)null. 2016, 9-16, http://dx.doi.org/10.1109/UIC-ATC-ScalCom-CBDCom-IoP-SmartWorld.2016.26.
[25] Liu Jie. Dependency-Aware Parallel Materialization of Datalog Programs with Spark for Scalable Reasoning. 17th International Conference on Web Information System Engineering (WISE’16). 2016, [26] 赵玲玲, 刘杰, 王伟. 基于Spark的流程化机器学习分析方法. 计算机系统应用[J]. 2016, 162-168, http://lib.cqvip.com/Qikan/Article/Detail?id=670903474.
[27] Liu Jie. A Lightweight Evaluation Framework for Table Layouts in MapReduce Based Query Systems. The 17th Asia-Pacific Web Conference (APWeb, CCF C). 2015, [28] 柯叶青, 马志柔, 伍海江, 刘杰. 一种简历语义搜索系统的实现方法. 计算机科学[J]. 2015, 42(12): 56-59, http://lib.cqvip.com/Qikan/Article/Detail?id=667748621.
[29] 赵薇, 刘杰, 叶丹. 基于组件的大数据分析服务平台. 计算机科学[J]. 2014, 41(9): 75-79, http://lib.cqvip.com/Qikan/Article/Detail?id=662591578.
[30] Wu Haijiang, Liu Jie, Ye Dan, Wei Jun, Zhong Hua, Buchmann R, Kifor CV, Yu J. Scalable Horn-Like Rule Inference of Semantic Data Using MapReduce. KNOWLEDGE SCIENCE, ENGINEERING AND MANAGEMENT, KSEM 2014null. 2014, 8793: 270-277, [31] 吕瀛, 刘杰, 马志柔, 叶丹. 一种云存储服务客户端增量同步算法. 计算机系统应用[J]. 2014, 23(10): 152-157, http://lib.cqvip.com/Qikan/Article/Detail?id=662825644.
[32] Wei Zhao, Jie Liu, Dan Ye, Jun Wei. Mining user daily behavior patterns from access logs of massive software and websites. 5th Asia-Pacific Symposium on Internetware, Internetware 2013null. 2013, http://ir.iscas.ac.cn/handle/311060/16676.
[33] Lijie Xu, Jie Liu, Jun Wei. FMEM: A Fine-grained Memory Estimator for MapReduce Jobs. The 10th International Conference on Autonomic Computing (ICAC, Core B)null. 2013, [34] 叶丹. A distributed rule execution mechanism based on MapReduce in sematic web reasoning. Proceedings of the 5th Asia-Pacific Symposium on Internetware. 2013, [35] Liu Jie. A Distributed Cache Framework for Metadata Service of Distributed File System. The 19th IEEE International Conference on Parallel and Distributed Systems (ICPADS). 2013, [36] Liu Jie, Ye Dan, Wei Jun, Huang Fei, Zhong Hua. Consistent query answering based on repairing inconsistent attributes with nulls. 18th International Conference on Database Systems for Advanced Applications, DASFAA 2013null. 2013, 407-423, http://ir.iscas.ac.cn/handle/311060/16669.
[37] 张晓杰, 刘杰, 马志柔, 叶丹, 高洪涛. 基于操作日志的云存储服务多终端同步算法. 计算机工程与设计[J]. 2013, 34(11): 3894-3899, http://lib.cqvip.com/Qikan/Article/Detail?id=47756240.
[38] Sun Yao, Liu Jie, Ye Dan, Zhong Hua. A distributed cache framework for metadata service of distributed file systems. 2013 19th IEEE International Conference on Parallel and Distributed Systems, ICPADS 2013null. 2013, 51-58, http://ir.iscas.ac.cn/handle/311060/16686.
[39] 李奇原, 刘杰, 叶丹, 许舒人. FlowS:一种MapReduce数据流公平调度方法. 计算机科学[J]. 2012, 39(9): 157-161, http://lib.cqvip.com/Qikan/Article/Detail?id=43155543.
[40] Zhu Feng, Liu Jie, Xu Lijie. A fast and high throughput sql query system for big data. LECTURE NOTES IN COMPUTER SCIENCE (INCLUDING SUBSERIES LECTURE NOTES IN ARTIFICIAL INTELLIGENCE AND LECTURE NOTES IN BIOINFORMATICS)null. 2012, 783-788, http://ir.iscas.ac.cn/handle/311060/15889.
[41] 刘杰, 魏峻, 叶丹, 黄涛. 基于数据流程变换的Mashup性能优化方法. 小型微型计算机系统[J]. 2011, 32(9): 1716-1722, http://lib.cqvip.com/Qikan/Article/Detail?id=39092766.
[42] 宁静, 刘杰, 叶丹. 一种基于内容模型图的XML Schema Definition的提取方法. 计算机科学[J]. 2010, 37(6): 179-185, http://lib.cqvip.com/Qikan/Article/Detail?id=34085610.
[43] 黄飞, 刘杰, 叶丹. 基于空值修复的数据库一致性查询方法. 计算机应用研究[J]. 2009, 4146-4150, http://lib.cqvip.com/Qikan/Article/Detail?id=31896129.
[44] Liu Jie, Liang Senlin, Ye Dan, Wei Jun, Huang Tao. Etl workflow analysis and verification using backwards constraint propagation. LECTURE NOTES IN COMPUTER SCIENCE (INCLUDING SUBSERIES LECTURE NOTES IN ARTIFICIAL INTELLIGENCE AND LECTURE NOTES IN BIOINFORMATICS)null. 2009, 455-469, http://124.16.136.157/handle/311060/8498.
[45] Liu Jie, Liang Senlin, Ye Dan, Wei Jun, Huang Tao, VanEck P, Gordijn J, Wieringa R. ETL Workflow Analysis and Verification Using Backwards Constraint Propagation. ADVANCED INFORMATION SYSTEMS ENGINEERING, PROCEEDINGSnull. 2009, 5565: 455-+, [46] Liu Jie, Huang Fei, Ye Dan, Huang Tao. Efficient Consistent Query Answering Based on Attribute Deletions. CSA 2008: INTERNATIONAL SYMPOSIUM ON COMPUTER SCIENCE AND ITS APPLICATIONS, PROCEEDINGSnull. 2008, 222-+, http://dx.doi.org/10.1109/CSA.2008.10.
[47] Qu, Yingqi, Liu, Jie, Kang, Liangyi, Shi, Qinfeng, Ye, Dan. Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN. http://arxiv.org/abs/1804.03317.
发表著作
(1) 大数据技术丛书:Hadoop集群与安全, Hadoop Cluster Deployment,Securing Hadoop, 机械工业出版社, 2014-11, 第 1 作者
论文列表

科研活动

   
科研项目
( 1 ) 云平台并行数据流程序的中间数据管理优化技术, 负责人, 国家任务, 2013-01--2015-12
( 2 ) 面向复杂情报的大数据 分析方法与决策支持, 参与, 国家任务, 2015-01--2018-12
( 3 ) 公共安全事件预警与态势决策技术:人流量预测与态势可视化, 负责人, 中国科学院计划, 2016-01--2017-12
( 4 ) 互联网+民航公共主动服务平台-民航领域问答系统, 负责人, 其他国际合作项目, 2016-09--2019-08
( 5 ) 跨地域跨层级的“一人多案”的关联预警与协同处置关键技术研究, 负责人, 国家任务, 2018-07--2021-07
( 6 ) 面向智能设备的可执行电子指令, 负责人, 境内委托项目, 2019-03--2020-03
( 7 ) 无服务器架构机器学习的计算模型与系统框架研究, 负责人, 国家任务, 2020-01--2023-12
( 8 ) 基于医疗知识图谱的交互式智能分诊系统, 负责人, 境内委托项目, 2019-05--2020-12
( 9 ) 自动化公文抓取与信息抽取系统, 负责人, 境内委托项目, 2020-07--2020-12
( 10 ) 地球大数据挖掘分析系统, 参与, 中国科学院计划, 2017-01--2022-12

合作情况

与华为、京东、航旅纵横、中航信、航天科技创新研究院、中国中医科学院等开展项目合作

与中科院空天信息技术研究院、中国科学院计算机网络信息中心、中科院计算所、中科院地理所等院内机构开展合作

与北大、南大、北航等院校老师保持长期科研合作

指导学生

已指导学生

蔡承烨  硕士研究生  081202-计算机软件与理论  

张晨昕  硕士研究生  081202-计算机软件与理论  

全威  硕士研究生  081202-计算机软件与理论  

徐可钦  硕士研究生  081202-计算机软件与理论  

夏文浩  硕士研究生  083500-软件工程  

现指导学生

石钊霖  硕士研究生  083500-软件工程  

陈俊哲  硕士研究生  085405-软件工程  

汪毕强  硕士研究生  085405-软件工程  

郭怡然  硕士研究生  083500-软件工程