基本信息

许利杰  男  副研究员 硕士生导师  中国科学院软件研究所
电子邮件: xulijie@iscas.ac.cn
通信地址: 北京市海淀区中关村南四街4号软件所5号楼6层
个人主页:https://jerrylead.github.io/

研究领域

LLM Agent系统,大数据系统,数据库系统,机器学习系统

招生信息

招生专业
081202-计算机软件与理论
083500-软件工程
招生方向
LLM Agent系统,大数据系统,数据库系统,机器学习系统

教育背景

2009-09--2016-01   中国科学院软件研究所   工学博士
2005-09--2009-07   武汉大学   工学学士

工作经历

   
工作简历
2019-10~现在, 中国科学院软件研究所, 副研究员
2016-01~2019-09,中国科学院软件研究所, 助理研究员
2014-11~2015-02,阿里巴巴公司, 客座研究生
2013-04~2013-09,微软亚洲研究院, 客座研究生
社会兼职
2017-12-01-今,中国计算机学会系统软件专委会, 委员

专利与奖励

   
奖励信息
(1) 中国科学院青年创新促进会会员, 院级, 2019
(2) 中科院软件所优秀青年科技人才, , 研究所(学校), 2018
(3) 2016年OW2国际开源软件程序竞赛, 二等奖, 其他, 2016
(4) 2016年NASAC原型竞赛, 三等奖, 其他, 2016
(5) 中国科学院大学国家奖学金, 院级, 2012
专利成果
[1] 黄涛, 许利杰, 王伟, 张舒扬, 方言歌. 一种基于模块度的分布式社区发现方法. CN202011622834.8, 2020-12-31.

[2] 黄涛, 许利杰, 王伟, 郑莹莹, 章凯. 一种面向社交网络的分布式用户聚类方法. CN202011578216.8, 2020-12-28.

[3] 黄涛, 钟华, 魏峻, 李慧, 郑莹莹, 唐震, 许利杰, 王伟. 一种面向Spark的基于数据感知的缓存替换方法及系统. CN: CN112597076A, 2021-04-02.

[4] 黄涛, 许利杰, 王伟, 李慧, 汪钇丞. 一种面向大数据处理框架的GC自适应调节方法及装置. CN: CN112579259A, 2021-03-30.

[5] 许利杰, 王伟, 魏峻, 康锴, 叶星彤. 一种面向大规模流数据的分布式聚类方法及系统. CN: CN110543588A, 2019-12-06.

[6] 许利杰, 黄涛, 魏峻, 王伟, 郑莹莹, 康锴. 一种基于状态更新传播的流式图计算方法及系统. CN201810721794.9, 2018-07-04.

[7] 黄涛, 许利杰, 魏峻, 王伟, 郑莹莹, 刘重瑞, 胡家煊. 一种大数据流处理框架的性能基准测试系统及方法. CN: CN108683560A, 2018-10-19.

[8] 许利杰, 崔光范, 刘杰, 马志柔, 吴怀林, 叶丹. 一种基于Spark SQL的分布式全文检索系统及方法. CN: CN107122443A, 2017-09-01.

[9] 一种面向大数据处理框架的高效半自动垃圾回收方法和系统. 2024-05-28.

出版信息

   
发表论文
(1) BridgeGC: An Efficient Cross-Level Garbage Collector for Big Data Frameworks, ACM Transactions on Architecture and Code Optimization (TACO) (CCF A), 2025, 第 2 作者  通讯作者
(2) Proving Cypher Query Equivalence, ICDE (CCF A), 2025, 第 4 作者
(3) FreewayML: An Adaptive and Stable Streaming Learning Framework for Dynamic Data Stream, ICDE (CCF A), 2025, 第 3 作者  通讯作者
(4) Stochastic Gradient Descent without Full Data Shuffle: with Applications to In-Database Machine Learning and Deep Learning Systems, The VLDB Journal (CCF A), 2024, 第 1 作者
(5) GaussML: An End-to-End In-Database Machine Learning System, ICDE (industrial track) (CCF A), 2024, 第 3 作者
(6) 面向 Apache Flink 流式分析应用的高吞吐优化技术, 软件学报 (CCF A), 2024, 第 2 作者  通讯作者
(7) LPW: An Efficient Data-Aware Cache Replacement Strategy for Apache Spark, Science China Information Sciences (CCF A), 2023, 第 5 作者
(8) 面向大数据处理框架的JVM优化技术综述, 软件学报 (CCF A), 2023, 第 3 作者  通讯作者
(9) In-Database Machine Learning with CorgiPile: Stochastic Gradient Descent without Full Data Shuffle, SIGMOD (CCF A), 2022, 第 1 作者
(10) An Empirical Study on Quality Issues of eBay's Big Data SQL Analytics Platform, ICSE (Software Engineering in Practice track) (CCF A), 2022, 第 2 作者  通讯作者
(11) Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep Learning, ICDCS (CCF B), 2021, 第 3 作者
(12) DistStream: An Order-Aware Distributed Framework for Online-Offline Stream Clustering Algorithms, ICDCS (CCF B), 2020, 第 1 作者
(13) Detecting Cache-Related Bugs in Spark Applications, ISSTA (CCF A), 2020, 第 6 作者
(14) An Experimental Evaluation of Garbage Collectors on Big Data Applications, VLDB (CCF A), 2019, 第 1 作者
(15) Speeding up Deep Learning with Transient Servers, ICAC (Core B), 2019, 第 3 作者
(16) Characterizing and Diagnosing out of Memory Errors in MapReduce Applications, Journal of Systems and Software (JSS) (CCF B), 2018, 第 1 作者
(17) Hug the Elephant: Migrating a Legacy Data Analytics Application to Hadoop Ecosystem, ICSME (CCF B), 2016, 第 5 作者
(18) Experience Report: A Characteristic Study on Out of Memory Errors in Distributed Data-Parallel Applications, ISSRE (CCF B), 2015, 第 1 作者
(19) FMEM: A Fine-grained Memory Estimator for MapReduce Jobs, ICAC (Core B), 2013, 第 1 作者
发表著作
(1) 《大数据处理框架Apache Spark设计与实现》, 电子工业出版社, 2020-07, 第 1 作者

科研活动

   
科研项目
( 1 ) 大规模智能电网设备的流式数据处理技术研究, 负责人, 境内委托项目, 2024-05--2027-05
( 2 ) RISC-V 基础软件理论、方法与工具, 参与, 中国科学院计划, 2022-11--2025-12
( 3 ) 面向达梦数据库的智能化参数调优系统, 负责人, 境内委托项目, 2022-07--2025-07
( 4 ) 广东电网有限责任公司新型底座式数据中心关键技术研究及示范应用项目, 负责人, 境内委托项目, 2022-06--2025-06
( 5 ) 面向达梦数据库的大数据机器学习系统, 负责人, 境内委托项目, 2021-02--2026-01
( 6 ) 自主EB级大数据平台软件项目, 负责人, 国家任务, 2020-12--2022-12
( 7 ) 大数据系统应用可靠性基准测试软件开发, 负责人, 境内委托项目, 2020-12--2022-12
( 8 ) 大规模分布式图挖掘算法库研发项目, 负责人, 境内委托项目, 2019-06--2020-12
( 9 ) 面向流式机器学习的并行计算模型与系统框架, 负责人, 国家任务, 2019-01--2021-12
( 10 ) 分布式流处理程序的分析与验证, 参与, 国家任务, 2019-01--2022-12
( 11 ) 中国科学院青年创新促进会, 负责人, 中国科学院计划, 2019-01--2022-12
( 12 ) 面向智能家居故障错误诊断与预测, 负责人, 境内委托项目, 2018-12--2019-12
( 13 ) 互联网+协同制造云服务支撑平台大规模图挖掘服务项目, 负责人, 境内委托项目, 2018-04--2019-12
( 14 ) Flink & Spark优化技术开发合作项目, 负责人, 境内委托项目, 2017-05--2018-05

指导学生

已指导学生

吴铭钞  硕士研究生  081200-计算机科学与技术  

现指导学生

郭智远  硕士研究生  085405-软件工程