基本信息

刘 杰  研究员、特聘研究岗位

中国科学院软件研究所  软件工程技术研发中心

中国科学院大学 岗位教授、博士生导师

中国科学院青年创新促进会会员

中国计算机学会系统软件委员会执行委员

 Email: ljie##otcaix.iscas.ac.cn

研究领域

大数据智能分析模型与系统(AI+ 软件工程+ 系统软件 交叉方向)

1. 大数据和机器学习系统: 统计与AI算法模型库、量化分析工具、地球大数据系统 

2. 智能化软件工程:  代码大模型约束解码,数据分析Agent,RISC-V软件迁移Agent

3. 知识增强的智能模型构建:知识提取、知识图谱、领域AI模型设计

主要工作
  • 地球大数据EarthDataMiner 平台研发

在中科院 A 类先导专项“地球大数据科学工程”支持下,带领团队研发 EarthDataMiner,突破超大规模遥感影像分布式计算与交互式分析云服务技术,实现 SDGs 指标全流程在线计算。

获 2024 北京市科技进步一等奖;获 2023 中国测绘学会测绘科技进步特等奖

  • 数据量化分析工具及智能体研发

自主研发数据统计分析与机器学习算法及可视化工具,对标商业软件IBM SPSS等算法指标,基于大语言模型构建数据分析智能体,在国家高端智库和综合性工程咨询的中央企业开展应用。

  • RISC-V 基础软件研究

在中科院 A 类先导专项“RISC-V 基础软件”支持下,研究基于代码大模型的 RISC-V 软件包迁移技术,并集成到工具“睿迁”:https://rvpt.top/

  • 知识驱动的智能模型设计方法

提出知识驱动的智能模型设计框架,深入研究知识提取、知识图谱构建技术,应用于咨询、医疗、智能设备、民航、法律、地球科学等多个领域。

  • 科研项目主持

主持国家自然科学基金项目 2 项、国家重点研发计划课题 1 项、重点基金课题 1 项,以及其他 10 余项科研型项目。

  • 产学研合作

主导多项与华为、京东、中航信、航天科工、航天科技、航空工业等企业的合作项目。

  • 学术成果

发表论文 50 余篇,获得发明专利 10 项。指导研究生参加大数据竞赛,多次获奖。

  • 学术服务

国家自然科学基金评审人,《计算机学报》《软件学报》审稿人,多个国际会议程序委员会成员/审稿人。

  • 教学工作

在中国科学院大学讲授《机器学习系统》等研究生课程。

最新动态


  • 2025.11 论文 ALERT: Adversarial Learning Enhanced Stability-aware Routing Transformer for Adaptive Depression Detection 被人工智能顶级会议AAAI 2026(CCF A) 录用,提出基于社交网络进行抑郁症检测的新方法
  • 2025.9 论文 Segment Policy Optimization: Improved Credit Assignment in Reinforcement Learning 被人工智能顶会 NeurIPS 2025 (CCF A) 录用,提出对 DeepSeek R1 的 GRPO 强化学习算法的改进探索。
  • 2025.8 论文 Root Cause Analysis of RISC-V Build Failures via LLM and MCTS Reasoning 被软件工程顶级会议 ASE 2025 (CCF A) 录用,跨架构软件包迁移根因分析。
  • 2025.3 参与的《可持续发展目标地球大数据评估关键技术及应用》获 2024 北京市科技进步一等奖。
  • 2024.8 论文 Dynamic Scoring Code Token Tree: A Novel Decoding Strategy for Generating High-Performance Code 被软件工程顶级会议 ASE 2024 (CCF A) 录用。
  • 2021.9.22 《中国科学报》报道:“地球大数据”有了自主研发的在线分析工具。


发表论文列表: Google Scholar:  https://scholar.google.com/citations?user= TWiiMMoAAAAJ 




招生与合作

欢迎对大模型、大数据、机器学习系统方向感兴趣的学生推免或报考研究生、或者实习。

欢迎企业合作,提供大数据、大模型、软件研发等技术开发与技术咨询服务。

可直接邮件联系我。

招生信息

   
招生专业
083500-软件工程
081202-计算机软件与理论
招生方向
大数据智能分析
机器学习系统
软件工程
毕业生去向

近年来部分毕业学生 

 蔡*烨  硕士研究生  2020年毕业工作单位:阿里 

张*昕  硕士研究生  2021年毕业工作单位:字节 

全*威     硕士研究生   2022年毕业工作单位:南方电网 

徐*钦  硕士研究生  2022年毕业工作单位:阿里 

夏*浩  硕士研究生  2023年毕业工作单位:阿里 

石*霖  硕士研究生  2024年毕业工作单位:农行 

陈*哲  硕士研究生  2024年毕业工作单位:快手 

汪*强  硕士研究生  2025年毕业工作单位:美团 

帅*鹏  硕士研究生  2025年毕业工作单位:字节

教育背景

2004-09--2011-01   中国科学技术大学   博士
2000-09--2004-06   中国科学技术大学   本科

工作经历

2024-10~现在, 中国科学院软件研究所, 研究员

2014-07~2024-09,中国科学院软件研究所, 副研究员

2011-04~2014-06,中国科学院软件研究所, 助理研究员

教授课程

机器学习系统
云计算与大数据技术及系统
大数据技术概论

专利与奖励

   
奖励信息
(1) 北京市科技进步奖, 一等奖, 省级, 2024
(2) 2023年测绘科学技术奖, 特等奖, 部委级, 2023
(3) DASFAA best paper runner-up, 二等奖, 其他, 2013
专利成果
( 1 ) 一种基于深度度量学习的一人多案关联识别方法及系统, 2023, 第 3 作者, 专利号: CN112925877B

( 2 ) 基于知识注入的双注意力网络的多模态讽刺意图识别方法, 发明专利, 2022, 第 2 作者, 专利号: CN115408517A

( 3 ) 面向关系型数据库中SQL语句执行的自动化测试方法及装置, 发明专利, 2022, 第 7 作者, 专利号: CN115344500A

( 4 ) 一种面向深度学习模型推理批处理优化方法与系统, 发明专利, 2022, 第 1 作者, 专利号: CN113902116A

( 5 ) 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统, 发明专利, 2021, 第 5 作者, 专利号: CN113744886A

( 6 ) 一种基于深度度量学习的一人多案关联识别方法及系统, 发明专利, 2021, 第 3 作者, 专利号: CN112925877A

( 7 ) 一种面向遥感语义分割的自动化机器学习方法及系统, 发明专利, 2020, 第 1 作者, 专利号: CN111797833A

( 8 ) 一种结合业务规则的在线学习停滞预测系统, 专利授权, 2019, 第 1 作者, 专利号: CN109784578A

( 9 ) 一种基于异步贝叶斯优化的机器学习超参优化系统及方法, 发明专利, 2019, 第 2 作者, 专利号: CN109376869A

( 10 ) 一种基于Spark SQL的分布式全文检索系统及方法, 专利授权, 2017, 第 3 作者, 专利号: CN107122443A

( 11 ) 一种基于迁移学习的疾病领域间病人相似性度量迁移系统, 专利授权, 2017, 第 1 作者, 专利号: CN106934235A

( 12 ) 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法, 发明专利, 2015, 第 2 作者, 专利号: CN105069560A

( 13 ) 一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统, 发明专利, 2014, 第 1 作者, 专利号: CN103761111A

( 14 ) 一种数据处理流程代码的生成方法, 发明专利, 2011, 第 3 作者, 专利号: CN102033748A

( 15 ) 一种分布式系统运行时的监视数据传输方法, 发明专利, 2011, 第 4 作者, 专利号: CN102014162A

( 16 ) 一种ETL流程中异常数据检测方法, 发明专利, 2009, 第 1 作者, 专利号: CN101533407A

出版信息

   
发表著作
(1) 大数据技术丛书:Hadoop集群与安全, Hadoop Cluster Deployment,Securing Hadoop, 机械工业出版社, 2014-11, 第 1 作者
发表论文

2026

  1. ALERT: Adversarial Learning Enhanced Stability-aware Routing Transformer for Adaptive Depression Detection ,AAAI Conference on Artificial Intelligence ,2026,通讯作者 (CCF A)

2025

  1. Segment Policy Optimization: Improved Credit Assignment in Reinforcement Learning, Conference on Neural Information Processing Systems (NeurIPS), 2025, 第 3 作者,通讯作者 (CCF A)
  2. Root Cause Analysis of RISC-V Build Failures via LLM and MCTS Reasoning, International Conference on Automated Software Engineering (ASE), 2025, 第 2 作者,通讯作者 (CCF A)
  3. 基于多维度融合网格划分的遥感大数据时空查询优化方法,遥感学报,第 2 作者,通讯作者
  4. 服务器无感知计算系统性能优化技术研究综述, 软件学报, 2025, 36(1), 第 2 作者 (中文 CCF A)

2024

  1. Dynamic Scoring Code Token Tree: A Novel Decoding Strategy for Generating High-Performance Code, International Conference on Automated Software Engineering (ASE), 2024, 第 2 作者,通讯作者 (CCF A)
  2. 谛听:面向鲁棒分布外样本检测的半监督对抗训练方法, 软件学报, 2024, 第 6 作者 (中文 CCF A)
  3. Context-Aware Dual Attention Network for Multimodal Sarcasm Detection, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024, 第 2 作者 (CCF B)

2023

  1. 第三方库依赖冲突问题研究综述, 软件学报, 2023, 第 2 作者,通讯作者 (中文 CCF A)
  2. A Case Study of Dependency Network for Building Packages: The Fedora Linux Distribution, International Conference on Software Engineering and Knowledge Engineering (SEKE), 2023, 第 6 作者 (CCF C)
  3. CSTCN: A Novel Causal-Based Framework for Air Quality Medium- and Long-term Prediction, IEEE International Conference on Tools with Artificial Intelligence (ICTAI), 2023, 第 5 作者,通讯作者 (CCF C)
  4. Fixing Robust Out-of-distribution Detection for Deep Neural Networks, IEEE International Symposium on Software Reliability Engineering (ISSRE), 2023, 第 2 作者,通讯作者 (CCF B)
  5. EasyPip: Detect and Fix Dependency Problems in Python Dependency Declaration Files, International Conference on Software Engineering and Knowledge Engineering (SEKE), 2023, 第 2 作者,通讯作者 (CCF C)

2022

  1. Cloud-based Storage and Computing for Remote Sensing Big Data: A Technical Review, International Journal of Digital Earth, 2022, 第 7 作者 (SCI 一区)

2021

  1. 面向问题意图识别的深度主动学习方法, 中文信息学报, 2021, 第 3 作者 (中文 CCF B)
  2. Meta-graph Embedding in Heterogeneous Information Network for Top-N Recommendation, International Joint Conference on Neural Networks (IJCNN), 2021, 第 3 作者 (CCF C)
  3. FaasRS: Remote Sensing Image Processing System on Serverless Platform, IEEE Computer Society Signature Conference on Computers, Software and Applications (COMPSAC), 2021, 第 2 作者,通讯作者 (CCF C)
  4. DeepCon: Contribution Coverage Testing for Deep Learning Systems, International Conference on Software Analysis, Evolution, and Reengineering (SANER), 2021, 第 3 作者,通讯作者 (CCF B)
  5. Semi-supervised Emotion Recognition in Textual Conversation via a Context-Augmented Auxiliary Training Task, Information Processing & Management, 2021, 第 2 作者,通讯作者 (SCI 一区)
  6. Identity-linked Group Channel Pruning for Deep Neural Networks, International Joint Conference on Neural Networks (IJCNN), 2021, 第 1 作者,通讯作者 (CCF C)
  7. Label Definitions Augmented Interaction Model for Legal Charge Prediction, European Conference on Information Retrieval (ECIR), 2021, 第 2 作者,通讯作者 (CCF C)

2020

  1. EarthDataMiner: A Cloud-Based Big Earth Data Intelligence Analysis Platform, IOP Conference Series: Earth and Environmental Science, 2020, 第 1 作者

2018

  1. 科学大数据智能分析软件的现状与趋势, 中国科学院院刊, 2018, 第 2 作者
  2. Characterizing and Diagnosing Out of Memory Errors in MapReduce Applications, Journal of Systems and Software (JSS), 2018, 第 5 作者 (SCI 二区, CCF B)
  3. 可扩展机器学习的并行与分布式优化算法综述, 软件学报, 2018, 第 3 作者 (中文 CCF A)

2017

  1. Fine-grained Patient Similarity Measuring Using Deep Metric Learning, ACM International Conference on Information and Knowledge Management (CIKM), 2017, 第 2 作者,通讯作者 (CCF B)

2016

  1. Hug the Elephant: Migrating a Legacy Data Analytics Application to Hadoop Ecosystem, IEEE International Conference on Software Maintenance and Evolution (ICSME), 2016, 第 2 作者 (CCF B)
  2. 分布式文件系统元数据服务的负载均衡框架, 软件学报, 2016, 第 3 作者 (中文 CCF A)
  3. Plogs: Materializing Datalog Programs with MapReduce for Scalable Reasoning, IEEE UIC, 2016, 第 2 作者(CCF C)
  4. Dependency-Aware Parallel Materialization of Datalog Programs with Spark for Scalable Reasoning, International Conference on Web Information System Engineering (WISE), 2016, 第 1 作者 (CCF C)

2015

  1. A Lightweight Evaluation Framework for Table Layouts in MapReduce Based Query Systems, Asia-Pacific Web Conference (APWeb), 2015, 第 1 作者 (CCF C)

2014

  1. Scalable Horn-Like Rule Inference of Semantic Data Using MapReduce, International Conference on Knowledge Science, Engineering and Management (KSEM), 2014, 第 2 作者 (CCF C)

2013

  1. A Distributed Cache Framework for Metadata Service of Distributed File Systems, IEEE International Conference on Parallel and Distributed Systems (ICPADS), 2013, 第 1/2 作者 (CCF C)
  2. Mining User Daily Behavior Patterns from Access Logs of Massive Software and Websites, Asia-Pacific Symposium on Internetware, 2013, 第 2 作者 (CCF C)
  3. FMEM: A Fine-grained Memory Estimator for MapReduce Jobs, International Conference on Autonomic Computing (ICAC), 2013, 第 2 作者 (CCF B)
  4. A Distributed Rule Execution Mechanism Based on MapReduce in Semantic Web Reasoning, Asia-Pacific Symposium on Internetware, 2013 (CCF C)
  5. Consistent Query Answering Based on Repairing Inconsistent Attributes with Nulls, International Conference on Database Systems for Advanced Applications (DASFAA), 2013, 第 1 作者 (CCF B,best paper runner-up

2012

  1. A Fast and High Throughput SQL Query System for Big Data, International Conference on Web Information System Engineering (WISE), 2012, 第 2 作者 (CCF C)

2009

  1. ETL Workflow Analysis and Verification Using Backwards Constraint Propagation, International Conference on Advanced Information Systems Engineering (CAiSE), 2009, 第 1 作者,通讯作者 (CCF B)

合作情况

与华为、京东、航旅纵横、中航信、航天科技创新研究院、南方电网、中国中医科学院、信通院等开展项目合作

与中科院空天信息技术研究院、中国科学院计算机网络信息中心、中科院计算所、中科院地理所等院内机构开展合作

与北大、南大、北航等院校老师保持长期科研合作