基本信息

刘杰  

中国科学院软件研究所研究员、特聘研究岗位

中国科学院大学硕士生导师、岗位教授

中科院青年创新促进会会员

CCF 计算机学会系统软件专业委员会执行委员


部门:软件工程技术研发中心、基础软件与系统重点实验室(中国科学院)

 Email: ljie#otcaix.iscas.ac.cn



研究领域

大数据智能分析模型与系统

云计算范式、AI模型、知识表达方法持续演进,复杂场景对智能分析系统性能和智能模型精度的要求日益提升,深入AI+ 软件工程+ 系统软件 交叉方向,突破知识驱动智能模型设计方法,构建高效的分布式智能分析软件系统

1. 大数据和机器学习系统Serverless计算、LLM推理、地球大数据 
2. 复杂任务的代码大模型优化LLM解码策略优化数据科学Agent,系统软件根因分析Agent,AI4Science
3. 知识驱动的智能模型构建融合知识和神经网络的文本表示、知识图谱智能应用、领域模型设计

主要工作

1. 在中国科学院A类先导专项“地球大数据科学工程”支持下,参与研制“可持续发展大数据平台系统”,带领团队研发的EarthDataMiner突破了超大规模遥感影像分布式计算与交互式分析云服务技术,支持SDGs指标全流程在线计算。依托该成果获中国测绘学会2023测绘科技进步特等奖
2. 在中国科学院A类先导专项“RISC-V基础软件”支持下,研究基于代码大模型的RISC-V软件包迁移技术
3. 研究知识驱动的智能模型设计方法,在多个重要领域(医疗、智能设备、民航、法律)开展了技术成果应用转化。
4. 作为负责人主持国家自然科学基金项目2项、国家重点研发计划课题1项、重点基金课题1项、中科院科技创新项目1项、民航总局科技重大专项1项。
5. 作为负责人开展多项企业合作项目,合作方包括华为、京东、中航信、航天科工、航天科技等企业。
6. 发表论文50多篇,获得发明专利10项。指导研究生参加大数据比赛多次获奖。
7. 国家自然科学家基金、计算机学报、软件学报、中国科学院大学学报、AAAI等审稿人。
8. 在国科大讲授《机器学习系统》等研究生课程

欢迎对大模型、大数据、机器学习系统方向感兴趣学生 参加推免或报考,或实习!


最新动态:

2024.8.10 Dynamic Scoring Code Token Tree: A Novel Decoding Strategy for Generating High-Performance Code.被 软件工程顶级会议 ASE 2024 录用(CCF A)

中国科学报报道2021/9/22:“地球大数据”有了自主研发的在线分析工具


招生信息

   
招生专业
083500-软件工程
081202-计算机软件与理论
招生方向
大数据智能分析
机器学习系统
软件工程

教育背景

2004-09--2011-01   中国科学技术大学   博士
2000-09--2004-06   中国科学技术大学   本科

工作经历

   
工作简历
2024-10~现在, 中国科学院软件研究所, 研究员
2014-07~2024-09,中国科学院软件研究所, 副研究员
2011-04~2014-06,中国科学院软件研究所, 助理研究员

教授课程

机器学习系统
云计算与大数据技术及系统
大数据技术概论

专利与奖励

   
奖励信息
(1) 2023年测绘科学技术奖, 特等奖, 部委级, 2023
(2) DASFAA best paper runner-up, 二等奖, 其他, 2013
专利成果
( 1 ) 一种基于深度度量学习的一人多案关联识别方法及系统, 2023, 第 3 作者, 专利号: CN112925877B

( 2 ) 基于知识注入的双注意力网络的多模态讽刺意图识别方法, 发明专利, 2022, 第 2 作者, 专利号: CN115408517A

( 3 ) 面向关系型数据库中SQL语句执行的自动化测试方法及装置, 发明专利, 2022, 第 7 作者, 专利号: CN115344500A

( 4 ) 一种面向深度学习模型推理批处理优化方法与系统, 发明专利, 2022, 第 1 作者, 专利号: CN113902116A

( 5 ) 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统, 发明专利, 2021, 第 5 作者, 专利号: CN113744886A

( 6 ) 一种基于深度度量学习的一人多案关联识别方法及系统, 发明专利, 2021, 第 3 作者, 专利号: CN112925877A

( 7 ) 一种面向遥感语义分割的自动化机器学习方法及系统, 发明专利, 2020, 第 1 作者, 专利号: CN111797833A

( 8 ) 一种结合业务规则的在线学习停滞预测系统, 专利授权, 2019, 第 1 作者, 专利号: CN109784578A

( 9 ) 一种基于异步贝叶斯优化的机器学习超参优化系统及方法, 发明专利, 2019, 第 2 作者, 专利号: CN109376869A

( 10 ) 一种基于Spark SQL的分布式全文检索系统及方法, 专利授权, 2017, 第 3 作者, 专利号: CN107122443A

( 11 ) 一种基于迁移学习的疾病领域间病人相似性度量迁移系统, 专利授权, 2017, 第 1 作者, 专利号: CN106934235A

( 12 ) 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法, 发明专利, 2015, 第 2 作者, 专利号: CN105069560A

( 13 ) 一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统, 发明专利, 2014, 第 1 作者, 专利号: CN103761111A

( 14 ) 一种数据处理流程代码的生成方法, 发明专利, 2011, 第 3 作者, 专利号: CN102033748A

( 15 ) 一种分布式系统运行时的监视数据传输方法, 发明专利, 2011, 第 4 作者, 专利号: CN102014162A

( 16 ) 一种ETL流程中异常数据检测方法, 发明专利, 2009, 第 1 作者, 专利号: CN101533407A

出版信息

   
发表论文
(1) 谛听:一种面向鲁棒分布外样本检测的半监督对抗训练方法, 软件学报, 2024, 第 6 作者
(2) 基于多任务学习的民事案件判决预测方法, CIVIL CASE JUDGMENT PREDICTION METHOD BASED ON MULTI-TASK LEARNING, 计算机应用与软件, 2024, 第 3 作者
(3) Dynamic Scoring Code Token Tree: A Novel Decoding Strategy for Generating High-Performance Code, ASE(Automatic Software Engineering), 2024, 第 2 作者  通讯作者
(4) Context-Aware Dual Attention Network for Multimodal Sarcasm Detection, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024, 第 2 作者
(5) 服务器无感知计算系统性能优化技术研究综述, 软件学报, 2024, 第 2 作者
(6) RISC-V Linux发行版软件包构建问题实证研究, An empirical study on build issues of software packages for RISC-V Linux distributions, 广西大学学报:自然科学版, 2023, 第 2 作者
(7) 第三方库依赖冲突问题研究综述, Survey on Dependency Conflict Problem of Third-party Libraries, 软件学报, 2023, 第 2 作者  通讯作者
(8) A Case Study of Dependency Network for Building Packages: The Fedora Linux Distribution, International Conference on Software Engineering and Knowledge Engineering, 2023, 第 6 作者
(9) CSTCN: A Novel Causal-Based Framework for Air Quality Medium- and Long-term Prediction, 2023 IEEE 35th International Conference on Tools with Artificial Intelligence (ICTAI), 2023, 第 5 作者  通讯作者
(10) Fixing robust out-of-distribution detection for deep neural networks, 34th IEEE International Symposium on Software Reliability Engineering (ISSRE), 2023, 第 2 作者  通讯作者
(11) EasyPip: Detect and Fix Dependency Problems in Python Dependency Declaration Files., The 35th International Conference on Software Engineering and Knowledge Engineering, SEKE, 2023, 第 2 作者  通讯作者
(12) Cloud-based storage and computing for remote sensing big data: a technical review, International Journal of Digital Earth, 2022, 第 7 作者
(13) 面向问题意图识别的深度主动学习方法, Deep Active Learning Method for Question Intention Recognition, 中文信息学报, 2021, 第 3 作者
(14) Meta-graph Embedding in Heterogeneous Information Network for Top-N Recommendation, IJCNN 2021, 2021, 第 3 作者
(15) FaasRS: Remote Sensing Image Processing System on Serverless Platform, IEEE Computer Society Signature Conference on Computers, Software and Applications(COMPSAC), 2021, 第 1 作者  通讯作者
(16) DeepCon: Contribution Coverage Testing for Deep Learning Systems, 28th International Conference on Software Analysis, Evolution, and Reengineering (SANER), 2021, 第 3 作者  通讯作者
(17) Semi-supercised emotion recognition in textual conversation via a context-augmented auxiliary training task, Information Processing and Management, 2021, 第 2 作者  通讯作者
(18) Identity-linked Group Channel Pruning for Deep Neural Networks, International Joint Conference on Neural Network(IJCNN), 2021, 第 1 作者  通讯作者
(19) Semi-supervised emotion recognition in textual conversation via a context-augmented auxiliary training task, INFORMATION PROCESSING & MANAGEMENT, 2021, 第 2 作者  通讯作者
(20) Label Definitions Augmented Interaction Model for Legal Charge Prediction, 43rd EUROPEAN CONFERENCE ON INFORMATION RETRIEVAL(ECIR), 2021, 第 2 作者  通讯作者
(21) EarthDataMiner: A Cloud-Based Big Earth Data Intelligence Analysis Platform, IOP Conference Series: Earth and Environmental Science 509 (1), 2020, 第 1 作者
(22) 科学大数据智能分析软件的现状与趋势, Current Situation and Trend of Intelligent Analysis Software for Scientific Big Data, 中国科学院院刊, 2018, 第 2 作者
(23) 分布式随机方差消减梯度下降算法topkSVRG, Distributed Stochastic Variance Reduction Gradient Descent Algorithm topkSVRG, 计算机科学与探索, 2018, 第 3 作者
(24) Characterizing and diagnosing out of memory errors in MapReduce applications, Journal of Systems and Software (JSS), 2018, 第 5 作者
(25) 可扩展机器学习的并行与分布式优化算法综述, Survey on Parallel and Distributed Optimization Algorithms for Scalable Machine Learning, 软件学报, 2018, 第 3 作者
(26) 基于Spark SQL的分布式全文检索框架的设计与实现, Design and Implementation of Distributed Full-text Search Framework Based on Spark SQL, 计算机科学, 2018, 第 3 作者
(27) Fine-grained Patient Similarity Measuring using Deep Metric Learning, CIKM'17: PROCEEDINGS OF THE 2017 ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, 2017, 第 11 作者
(28) 一种大数据分析组件的自动化开发集成方法, 计算机应用与软件, 2016, 第 4 作者
(29) 基于多段间隔监督度量学习的病人相似度算法, Patient Similarity Based on Supervised Metric Learning of Multi-Margin, 计算机系统应用, 2016, 第 3 作者
(30) Hug the Elephant: Migrating a Legacy Data Analytics Application to Hadoop Ecosystem, The 32nd IEEE International Conference on Software Maintenance and Evolution (ICSME, CCF B), 2016, 第 2 作者
(31) 分布式文件系统元数据服务的负载均衡框架, Load Balancing Framework for Metadata Service of Distributed File Systems, 软件学报, 2016, 第 3 作者
(32) Plogs: Materializing Datalog Programs with MapReduce for Scalable Reasoning, 2016 INT IEEE CONFERENCES ON UBIQUITOUS INTELLIGENCE & COMPUTING, ADVANCED & TRUSTED COMPUTING, SCALABLE COMPUTING AND COMMUNICATIONS, CLOUD AND BIG DATA COMPUTING, INTERNET OF PEOPLE, AND SMART WORLD CONGRESS (UIC/ATC/SCALCOM/CBDCOM/IOP/SMARTWORLD), 2016, 第 2 作者
(33) Dependency-Aware Parallel Materialization of Datalog Programs with Spark for Scalable Reasoning, 17th International Conference on Web Information System Engineering (WISE’16), 2016, 第 1 作者
(34) 基于Spark的流程化机器学习分析方法, Method of Implement Machine Learning Analysis with Workflow Based on Spark Platform, 计算机系统应用, 2016, 第 2 作者
(35) A Lightweight Evaluation Framework for Table Layouts in MapReduce Based Query Systems, The 17th Asia-Pacific Web Conference (APWeb, CCF C), 2015, 第 1 作者
(36) 一种简历语义搜索系统的实现方法, SmartHR:A Resume Query and Management System Based on Semantic Web, 计算机科学, 2015, 第 4 作者
(37) 基于组件的大数据分析服务平台, Module Based Big Data Analysis Platform, 计算机科学, 2014, 第 2 作者
(38) Scalable Horn-Like Rule Inference of Semantic Data Using MapReduce, KNOWLEDGE SCIENCE, ENGINEERING AND MANAGEMENT, KSEM 2014, 2014, 第 2 作者
(39) 一种云存储服务客户端增量同步算法, Increment Based Data Transmission Technique for Cloud Storage Service, 计算机系统应用, 2014, 第 2 作者
(40) 基于操作日志的云存储服务多终端同步算法, Operation log based synchronization algorithm for cloud storage service with multiple clients, 计算机工程与设计, 2013, 第 2 作者
(41) A distributed cache framework for metadata service of distributed file systems, 2013 19th IEEE International Conference on Parallel and Distributed Systems, ICPADS 2013, 2013, 第 2 作者
(42) Mining user daily behavior patterns from access logs of massive software and websites, 5th Asia-Pacific Symposium on Internetware, Internetware 2013, 2013, 第 2 作者
(43) FMEM: A Fine-grained Memory Estimator for MapReduce Jobs, The 10th International Conference on Autonomic Computing (ICAC, Core B), 2013, 第 2 作者
(44) A distributed rule execution mechanism based on MapReduce in sematic web reasoning, Proceedings of the 5th Asia-Pacific Symposium on Internetware, 2013, 
(45) A Distributed Cache Framework for Metadata Service of Distributed File System, The 19th IEEE International Conference on Parallel and Distributed Systems (ICPADS), 2013, 第 1 作者
(46) Consistent query answering based on repairing inconsistent attributes with nulls, 18th International Conference on Database Systems for Advanced Applications, DASFAA 2013, 2013, 第 1 作者
(47) A fast and high throughput sql query system for big data, LECTURE NOTES IN COMPUTER SCIENCE (INCLUDING SUBSERIES LECTURE NOTES IN ARTIFICIAL INTELLIGENCE AND LECTURE NOTES IN BIOINFORMATICS), 2012, 第 2 作者
(48) FlowS:一种MapReduce数据流公平调度方法, FlowS:A Fair Scheduling Method for Mapreduce Dataflow, 计算机科学, 2012, 第 2 作者
(49) 基于数据流程变换的Mashup性能优化方法, Performance Optimization of Mashup Through Data Flow Transformation, 小型微型计算机系统, 2011, 第 1 作者
(50) 一种基于内容模型图的XML Schema Definition的提取方法, Novel Approach for Extracting XML Schema Definition Based on Content Model Graph, 计算机科学, 2010, 第 2 作者
(51) 基于空值修复的数据库一致性查询方法, Consistent query answering based on virtual repairs with nulls, 计算机应用研究, 2009, 第 2 作者
(52) Etl workflow analysis and verification using backwards constraint propagation, LECTURE NOTES IN COMPUTER SCIENCE (INCLUDING SUBSERIES LECTURE NOTES IN ARTIFICIAL INTELLIGENCE AND LECTURE NOTES IN BIOINFORMATICS), 2009, 第 1 作者
(53) ETL Workflow Analysis and Verification Using Backwards Constraint Propagation, ADVANCED INFORMATION SYSTEMS ENGINEERING, PROCEEDINGS, 2009, 第 1 作者
(54) Efficient Consistent Query Answering Based on Attribute Deletions, CSA 2008: INTERNATIONAL SYMPOSIUM ON COMPUTER SCIENCE AND ITS APPLICATIONS, PROCEEDINGS, 2008, 第 1 作者  通讯作者
(55) Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN, 第 2 作者
发表著作
(1) 大数据技术丛书:Hadoop集群与安全, Hadoop Cluster Deployment,Securing Hadoop, 机械工业出版社, 2014-11, 第 1 作者

科研活动

   
科研项目
( 1 ) 云平台并行数据流程序的中间数据管理优化技术, 负责人, 国家任务, 2013-01--2015-12
( 2 ) 面向复杂情报的大数据 分析方法与决策支持, 参与, 国家任务, 2015-01--2018-12
( 3 ) 公共安全事件预警与态势决策技术:人流量预测与态势可视化, 负责人, 中国科学院计划, 2016-01--2017-12
( 4 ) 互联网+民航公共主动服务平台-民航领域问答系统, 负责人, 其他国际合作项目, 2016-09--2019-08
( 5 ) 跨地域跨层级的“一人多案”的关联预警与协同处置关键技术研究, 负责人, 国家任务, 2018-07--2021-07
( 6 ) 面向智能设备的可执行电子指令, 负责人, 境内委托项目, 2019-03--2020-03
( 7 ) 无服务器架构机器学习的计算模型与系统框架研究, 负责人, 国家任务, 2020-01--2023-12
( 8 ) 基于医疗知识图谱的交互式智能分诊系统, 负责人, 境内委托项目, 2019-05--2020-12
( 9 ) 自动化公文抓取与信息抽取系统, 负责人, 境内委托项目, 2020-07--2020-12
( 10 ) 地球大数据挖掘分析系统, 参与, 中国科学院计划, 2018-01--2022-12
( 11 ) 典型丘陵地区环境-社会系统大数据平台构建与发展 途径决策支持, 参与, 国家任务, 2024-01--2026-12

合作情况

与华为、京东、航旅纵横、中航信、航天科技创新研究院、南方电网、中国中医科学院、信通院等开展项目合作

与中科院空天信息技术研究院、中国科学院计算机网络信息中心、中科院计算所、中科院地理所等院内机构开展合作

与北大、南大、北航等院校老师保持长期科研合作

指导学生

已指导学生

蔡承烨  硕士研究生  081202-计算机软件与理论  

张晨昕  硕士研究生  081202-计算机软件与理论  

全威  硕士研究生  081202-计算机软件与理论  

徐可钦  硕士研究生  081202-计算机软件与理论  

夏文浩  硕士研究生  083500-软件工程  

现指导学生

石钊霖  硕士研究生  083500-软件工程  

陈俊哲  硕士研究生  085405-软件工程  

汪毕强  硕士研究生  085405-软件工程  

郭怡然  硕士研究生  083500-软件工程