基本信息

张云泉 男 博士, 研究员, 博导 中国科学院计算技术研究所
电子邮件: zyq at ict.ac.cn
联系电话: 010-62600652
手机号码:
通信地址:北京海淀科学院南路6号  邮政编码:100190

研究领域

主要研究方向为大型并行数值软件、并行程序设计和性能评价、并行计算模型、海量数据并行处理等。

招生信息

   
招生专业
081202-计算机软件与理论
081201-计算机系统结构
招生方向
并行算法与并行软件
并行算法与并行软件

教育背景

1995-09--2000-07   中国科学院软件研究所   工学博士
1991-09--1995-07   北京理工大学计算机科学技术系   工学学士
学历
-- 研究生
学位
-- 博士

工作经历

2000年7月-2001年12月,中科院软件研究所并行软件研究开发中心,并行算法与并行软件,助研;
2002年1月-2007年3月,中科院软件研究所并行软件研究开发中心,并行算法与并行软件,副研究员,硕导,副主任
2007年4月-2013年8月,中科院软件研究所并行计算实验室,并行算法与并行软件,研究员,博导,执行主任;
2013年8月-今,中科院计算所计算机体系结构国家重点实验室,并行算法与并行软件,研究员,博士生导师;

社会兼职
2019-12-31-2022-12-30,ACM中国, 常务理事
2019-11-30-今,北京计算机学会超级计算委员会, 主任
2019-06-29-今,ACM中国高性能计算专家委员会, 主席
2016-06-01-今,中国大数据与智能计算产业联盟, 执行理事长
2008-12-31-今,中国计算机学会高性能计算专业委员会, 秘书长
2007-11-30-今,中国软件行业协会, 常务理事

专利与奖励

   
奖励信息
(1) 国家科技进步奖, 二等奖, 国家级, 2019
(2) 中国科学院杰出科技成就奖, 特等奖, 部委级, 2017
(3) 中国科学院教育教学成果奖, 一等奖, 部委级, 2017
(4) 国家科技进步奖, 二等奖, 国家级, 2000
(5) 中科院科技进步奖, 二等奖, 院级, 1998
专利成果
[1] 程大宁, 李士刚, 张云泉. 一种用于在集群环境下进行机器学习的训练方法和系统. CN: CN108829517B, 2021-04-06.

[2] 张云泉, 袁泉, 黄珊, 郭鹏. 一种基于空间密铺的模板计算方法和系统. CN: CN108614735B, 2021-03-05.

[3] 李士刚, 吴保东, 李琨, 张云泉. 一种基于递归的并行快速傅里叶变换通信优化方法和系统. CN: CN109840306B, 2020-10-23.

[4] 李士刚, 李琨, 陈一峯, 张云泉. 一种分子动力学模拟中邻接表快速建立方法和系统. CN: CN109032667B, 2020-09-15.

[5] 聂宁明, 贺新福, 李建江, 李士刚, 王彦棡, 贾丽霞, 王先梦, 张云泉, 周纯葆, 王东杰, 吴保东, 王珏, 豆艳坤, 吴石. 嵌入原子势计算优化方法. CN: CN106529187B, 2019-03-08.

[6] 李士刚, 吴保东, 张贺, 张云泉, 张明华. 一种大气环流模式动力框架的三维剖分方法和系统. 中国: CN108595762A, 2018-09-28.

出版信息

   
发表论文
[1] Cao, Hang, Yuan, Liang, Zhang, He, Zhang, Yunquan, Wu, Baodong, Li, Kun, Li, Shigang, Zhang, Minghua, Lu, Pengqi, Xiao, Junmin. AGCM-3DLF: Accelerating Atmospheric General Circulation Model via 3-D Parallelization and Leap-Format. IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS[J]. 2023, 34(3): 766-780, [2] 郭金鑫, 张广婷, 张云泉, 陈泽华, 贾海鹏. Cooley-Tukey FFT算法高性能实现与优化研究. 计算机科学与探索[J]. 2022, 16(6): 1304-1315, http://lib.cqvip.com/Qikan/Article/Detail?id=7107347841.
[3] 牟明任, 贾海鹏, 张云泉, 邓明森, 曲国远, 魏大洲, 张广婷. 基于ARM架构的中值滤波算法优化. 计算机工程与科学[J]. 2022, 44(10): 1738-1746, http://lib.cqvip.com/Qikan/Article/Detail?id=7108225462.
[4] 纪璎芮, 袁良, 张云泉. 红黑Gauss-Seidel Stencil并行性和局部性优化. 计算机科学[J]. 2022, 49(5): 363-370, http://lib.cqvip.com/Qikan/Article/Detail?id=7107076530.
[5] 韦存阳, 贾海鹏, 张云泉, 曲国远, 魏大洲, 张广婷. 基于ARMv8处理器的高性能图像处理算法实现与优化研究. 计算机工程与科学[J]. 2022, 44(10): 1711-1720, http://lib.cqvip.com/Qikan/Article/Detail?id=7108225459.
[6] Li, Kun, Yuan, Liang, Zhang, Yunquan, Chen, Gongwei. An Accurate and Efficient Large-Scale Regression Method Through Best Friend Clustering. IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS[J]. 2022, 33(11): 3129-3140, http://dx.doi.org/10.1109/TPDS.2021.3134336.
[7] 陈岳涛, 邱柯妮, 陈莉, 贾海鹏, 张云泉, 肖利民, 刘磊. Smart Scheduler: an Adaptive NVM-Aware Thread Scheduling Approach on NUMA Systems. CCF Transactions on High Performance Computing (THPC)[J]. 2022, [8] 王麓涵, 贾海鹏, 张云泉, 张广婷. 基于ARM的图像几何变换算法库实现和优化技术研究. 计算机科学[J]. 2022, 49(10): 10-17, http://lib.cqvip.com/Qikan/Article/Detail?id=7108117562.
[9] Shang, Honghui, Liang, WanZhen, Zhang, Yunquan, Yang, Jinlong. Efficient parallel linear scaling method to get the response density matrix in all-electron real-space density-functional perturbation theory. COMPUTERPHYSICSCOMMUNICATIONS[J]. 2021, 258: http://dx.doi.org/10.1016/j.cpc.2020.107613.
[10] 袁国兴, 张云泉, 袁良. 2021年中国高性能计算机发展现状分析. 计算机工程与科学[J]. 2021, 43(12): 2091-2097, http://lib.cqvip.com/Qikan/Article/Detail?id=7106227775.
[11] Shang, Honghui, Duan, Xiaohui, Li, Fang, Zhang, Libo, Xu, Zhiqian, Liu, Kan, Luo, Haiwen, Ji, Yingrui, Zhao, Wenxuan, Xue, Wei, Chen, Li, Zhang, Yunquan. Many-core acceleration of the first-principles all-electron quantum perturbation calculations. COMPUTER PHYSICS COMMUNICATIONS[J]. 2021, 267: http://dx.doi.org/10.1016/j.cpc.2021.108045.
[12] 赵永浩, 贾海鹏, 张云泉, 张思佳. 基于SIMD的Square Root函数高性能实现与优化. 计算机工程与科学[J]. 2021, 43(4): 662-669, http://lib.cqvip.com/Qikan/Article/Detail?id=7104519623.
[13] Cheng, Daning, Li, Shigang, Zhang, Hanping, Xia, Fen, Zhang, Yunquan. Why Dataset Properties Bound the Scalability of Parallel Machine Learning Training Algorithms. IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS[J]. 2021, 32(7): 1702-1712, http://dx.doi.org/10.1109/TPDS.2020.3048836.
[14] 张云泉, 袁良, 袁国兴, 李希代. 2021年中国高性能计算机发展现状分析与展望. 数据与计算发展前沿[J]. 2021, 3(6): 98-107, http://lib.cqvip.com/Qikan/Article/Detail?id=7106442106.
[15] Cheng Daning, Li Shigang, Zhang Yunquan. WP-SGD: Weighted parallel SGD for distributed unbalanced-workload training system. JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING[J]. 2020, 145: 202-216, http://dx.doi.org/10.1016/j.jpdc.2020.06.011.
[16] 曹杭, 袁良, 黄珊, 张云泉, 徐勇军, 陆鹏起, 张广婷. 一种基于空间密铺的星型Stencil并行算法. 计算机研究与发展[J]. 2020, 57(12): 2621-2634, http://lib.cqvip.com/Qikan/Article/Detail?id=7103384456.
[17] 周广庆, 张云泉, 姜金荣, 张贺, 吴保东, 曹杭, 王天一, 郝卉群, 朱家文, 袁良, 张明华. 地球系统模式CAS-ESM. 数据与计算发展前沿[J]. 2020, 2(1): 38-54, http://lib.cqvip.com/Qikan/Article/Detail?id=7101588167.
[18] Shang, Honghui, Xu, Lei, Wu, Baodong, Qin, Xinming, Zhang, Yunquan, Yang, Jinlong. The dynamic parallel distribution algorithm for hybrid density-functional calculations in HONPAS package. COMPUTER PHYSICS COMMUNICATIONS[J]. 2020, 254: http://dx.doi.org/10.1016/j.cpc.2020.107204.
[19] Li, Kun, Li, Shigang, Huang, Shan, Chen, Yifeng, Zhang, Yunquan. FastNBL: fast neighbor lists establishment for molecular dynamics simulation based on bitwise operations. JOURNAL OF SUPERCOMPUTING[J]. 2020, 76(7): 5501-5520, https://www.webofscience.com/wos/woscc/full-record/WOS:000538267400033.
[20] Li, Zhihao, Jia, Haipeng, Zhang, Yunquan, Chen, Tun, Yuan, Liang, Vuduc, Richard. Automatic Generation of High-Performance FFT Kernels on Arm and X86 CPUs. IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS[J]. 2020, 31(8): 1925-1941, http://dx.doi.org/10.1109/TPDS.2020.2977629.
[21] 袁国兴, 张云泉, 袁良. 2020年中国高性能计算机发展现状分析. 计算机工程与科学[J]. 2020, 42(12): 2103-2108, http://lib.cqvip.com/Qikan/Article/Detail?id=7103580856.
[22] 尚子豪, 商红慧, 王东杰, 张云泉, 贺新福, 陈泽华, 王栋, 张广婷. 原子动力学蒙特卡洛程序OpenKMC在反应堆压力容器钢缺陷损伤研究中的优化与应用. 计算机工程与科学[J]. 2020, 42(12): 2151-2162, http://lib.cqvip.com/Qikan/Article/Detail?id=7103580862.
[23] 程大宁, 张汉平, 夏粉, 李士刚, 袁良, 张云泉. AccSMBO:一种基于超参梯度和元学习的SMBO加速算法. 计算机研究与发展[J]. 2020, 57(12): 2596-2609, http://lib.cqvip.com/Qikan/Article/Detail?id=7103384454.
[24] Chen, Daobi, Yuan, Liang, Zhang, Yunquan, Yan, Jingfu, Kahaner, David. HPC software capability landscape in China. INTERNATIONAL JOURNAL OF HIGH PERFORMANCE COMPUTING APPLICATIONS[J]. 2020, 34(1): 115-153, https://www.webofscience.com/wos/woscc/full-record/WOS:000503082100010.
[25] 王栋, 商红慧, 张云泉, 李琨, 贺新福, 贾丽霞. 原子动力学蒙特卡洛程序MISA-KMC在反应堆压力容器钢辐照损伤研究中的应用. 计算机科学[J]. 2020, 47(4): 30-35, http://lib.cqvip.com/Qikan/Article/Detail?id=7101330964.
[26] 张云泉, 袁良, 袁国兴, 李希代. 2020年中国高性能计算机发展现状分析与展望. 数据与计算发展前沿[J]. 2020, 2(6): 1-10, http://lib.cqvip.com/Qikan/Article/Detail?id=7103773288.
[27] 张云泉, 袁良, 袁国兴, 李希代. 2019年中国高性能计算机发展现状分析与展望. 数据与计算发展前沿[J]. 2020, 2(1): 18-26, http://lib.cqvip.com/Qikan/Article/Detail?id=7101588165.
[28] Qin, Xinming, Shang, Honghui, Xu, Lei, Hu, Wei, Yang, Jinlong, Li, Shigang, Zhang, Yunquan. The static parallel distribution algorithms for hybrid density-functional calculations in HONPAS package. INTERNATIONAL JOURNAL OF HIGH PERFORMANCE COMPUTING APPLICATIONS[J]. 2020, 34(2): 159-168, http://dx.doi.org/10.1177/1094342019845046.
[29] 张云泉, 袁良, 陈一峯, 冯晓兵, 张贺. 高性能计算多层次不连续非线性可扩展现象研究. 计算机学报[J]. 2020, 43(6): 973-989, https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFDLAST2020&filename=JSJX202006001&v=MDcyMjg3RGgxVDNxVHJXTTFGckNVUjdxZVp1ZHZGeURrVWJySUx6N0Jkckc0SE5ITXFZOUZaWVI4ZVgxTHV4WVM=.
[30] Yuan, Liang, Ding, Chen, Smith, Wesley, Denning, Peter, Zhang, Yunquan. A Relational Theory of Locality. ACMTRANSACTIONSONARCHITECTUREANDCODEOPTIMIZATION[J]. 2019, 16(3): http://dx.doi.org/10.1145/3341109.
[31] Li, Zhihao, Jia, Haipeng, Zhang, Yunquan, Liu, Shice, Li, Shigang, Wang, Xiao, Zhang, Hao. Efficient parallel optimizations of a high-performance SIFT on GPUs. JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING[J]. 2019, 124: 78-91, http://dx.doi.org/10.1016/j.jpdc.2018.10.012.
[32] Zhang, Di, Zhang, Yunquan, Niu, Qiang, Qiu, Xingbao. Mining concise patterns on graph-connected itemsets. NEUROCOMPUTING[J]. 2019, 336: 27-35, http://dx.doi.org/10.1016/j.neucom.2018.03.084.
[33] 袁国兴, 张云泉, 袁良. 2019年中国高性能计算机发展现状分析. 计算机工程与科学[J]. 2019, 41(12): 2095-2100, http://lib.cqvip.com/Qikan/Article/Detail?id=7100629190.
[34] 张云泉. 2018年中国高性能计算机发展现状分析与展望. 计算机科学[J]. 2019, 46(1): 1-5, http://lib.cqvip.com/Qikan/Article/Detail?id=7001144965.
[35] 郭鹏, 袁良, 张云泉, 黄珊. 基于空间密铺的并行Stencil算法. 计算机科学与探索[J]. 2019, 13(2): 181-194, http://lib.cqvip.com/Qikan/Article/Detail?id=7001186343.
[36] Li, Kun, Li, Shigang, Huang, Shan, Chen, Yifeng, Zhang, Yunquan. FastNBL: fast neighbor lists establishment for molecular dynamics simulation based on bitwise operations (vol 457, pg 235, 2020). JOURNAL OF SUPERCOMPUTING. 2019, 75(12): 8339-8340, [37] 陈暾, 李志豪, 贾海鹏, 张云泉. 基于ARMv8平台的多维FFT实现与优化研究. 计算机学报[J]. 2019, 42(11): 2384-2402, http://lib.cqvip.com/Qikan/Article/Detail?id=7100202299.
[38] Guo, Bingli, Shang, Yu, Zhang, Yunquan, Li, Wenzhe, Yin, Shan, Zhang, Yongjun, Huang, Shanguo. Timeslot Switching-Based Optical Bypass in Data Center for Intrarack Elephant Flow With an Ultrafast DPDK-Enabled Timeslot Allocator. JOURNAL OF LIGHTWAVE TECHNOLOGY[J]. 2019, 37(10): 2253-2260, http://dx.doi.org/10.1109/JLT.2019.2901600.
[39] Li, Shigang, Zhang, Yunquan, Hoefler, Torsten. Cache-Oblivious MPI All-to-All Communications Based on Morton Order. IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS[J]. 2018, 29(3): 542-555, https://www.webofscience.com/wos/woscc/full-record/WOS:000425173200005.
[40] 张云泉. 2017年中国高性能计算机发展现状分析与展望. 科研信息化技术与应用[J]. 2018, 9(1): 5-12, http://lib.cqvip.com/Qikan/Article/Detail?id=676032706.
[41] 袁国兴, 张云泉, 袁良. 2018年中国高性能计算机发展现状分析. 计算机工程与科学[J]. 2018, 40(12): 2097-2102, http://lib.cqvip.com/Qikan/Article/Detail?id=7001036157.
[42] Xiao, Junmin, Li, Shigang, Wu, Baodong, Zhang, He, Li, Kun, Yao, Erlin, Zhang, Yunquan, Tan, Guangming. Communication-Avoiding for Dynamical Core of Atmospheric General Circulation Model. PROCEEDINGS OF THE 47TH INTERNATIONAL CONFERENCE ON PARALLEL PROCESSINGnull. 2018, [43] 张云泉. 对当前人工智能热的冷思考. 高科技与产业化[J]. 2018, 14-17, http://lib.cqvip.com/Qikan/Article/Detail?id=675018244.
[44] Wang, Xiao, Ma, Haipeng, Li, Zhihao, Zhang, Yunquan, Vaidya, J, Li, J. Implementation and Optimization of Multi-dimensional Real FFT on ARMv8 Platform. ALGORITHMS AND ARCHITECTURES FOR PARALLEL PROCESSING, ICA3PP 2018, PT IInull. 2018, 11335: 338-353, [45] 王庆磊, 罗文慧, 邬玉良, 张云泉. 交通大数据应用分析及共享支撑平台设计. 信息技术与标准化[J]. 2018, 66-69, http://lib.cqvip.com/Qikan/Article/Detail?id=676233169.
[46] Wu, Baodong, Li, Shigang, Zhang, Yunquan, Nie, Ningming. Hybrid-optimization strategy for the communication of large-scale Kinetic Monte Carlo simulation. COMPUTER PHYSICS COMMUNICATIONS[J]. 2017, 211: 113-123, http://www.corc.org.cn/handle/1471x/2374191.
[47] Li, Zhihao, Jia, Haipeng, Zhang, Yunquan, IEEE. HartSift: A High-Accuracy and Real-Time SIFT based on GPU. 2017 IEEE 23RD INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS (ICPADS)null. 2017, 135-142, [48] 张云泉. 中国高性能计算机发展现状分析与展望. 民主与科学[J]. 2017, 26-27, http://lib.cqvip.com/Qikan/Article/Detail?id=7000298988.
[49] 李琨, 贾海鹏, 曹婷, 张云泉. 大规模集群上多维FFT算法的实现与优化研究. 计算机科学与探索[J]. 2017, 11(6): 863-874, http://lib.cqvip.com/Qikan/Article/Detail?id=7000227257.
[50] 张迪, 张云泉, 张广治. 一种在图连接项集上发掘精简模式的方法. 中国传媒大学学报:自然科学版[J]. 2017, 25-30, http://lib.cqvip.com/Qikan/Article/Detail?id=66747166504849554851484854.
[51] 聂宁明, 胡长军, 张云泉, 贺新福, 张博尧, 李士刚. 材料微观结构演化大规模分子动力学软件比较. 计算机科学与探索[J]. 2017, 11(3): 355-364, http://lib.cqvip.com/Qikan/Article/Detail?id=7000132516.
[52] Wang Chenxi, Cao Ting, Zigman John, Lv Fang, Zhang Yunquan, Feng Xiaobing, Gao GR, Qian DP, Gao XB, Chapman B, Chen W. Efficient Management for Hybrid Memory in Managed Language Runtime. NETWORK AND PARALLEL COMPUTINGnull. 2016, 9966: 29-42, [53] 逄仁波, 张云泉, 谭光明, 徐建良, 贾海鹏, 解庆春. 边缘海静力数值预报模式并行算法研究. 计算机科学[J]. 2016, 43(1): 14-17,29, http://lib.cqvip.com/Qikan/Article/Detail?id=667766682.
[54] Zhang, Yunquan, Zhang, JiLin. Workshop on high performance data intensive computing. CONCURRENCY AND COMPUTATION-PRACTICE & EXPERIENCEnull. 2016, 28(6): 1695-1696, https://www.webofscience.com/wos/woscc/full-record/WOS:000374011400001.
[55] 贾海鹏, 张云泉, 袁良, 李士刚. 基于OpenCL的Viola-Jones人脸检测算法性能优化研究. 计算机学报[J]. 2016, 39(9): 1775-1789, http://lib.cqvip.com/Qikan/Article/Detail?id=669845563.
[56] Wu Baodong, Li Shigang, Zhang Yunquan, Chen W, Yin G, Zhao G, Han Q, Jing W, Sun G, Lu Z. Optimizing Parallel Kinetic Monte Carlo Simulation by Communication Aggregation and Scheduling. BIGDATATECHNOLOGYANDAPPLICATIONSnull. 2016, 590: 282-297, [57] Zhang, Yunquan, Cao, Ting, Li, Shigang, Tian, Xinhui, Yuan, Liang, Jia, Haipeng, Vasilakos, Athanasios V. Parallel Processing Systems for Big Data: A Survey. PROCEEDINGS OF THE IEEE[J]. 2016, 104(11): 2114-2136, https://www.webofscience.com/wos/woscc/full-record/WOS:000386244000005.
[58] Zhang, Yunquan, Li, Shigang, Yan, Shengen, Zhou, Huiyang. A Cross-Platform SpMV Framework on Many-Core Architectures. ACM TRANSACTIONS ON ARCHITECTURE AND CODE OPTIMIZATION[J]. 2016, 13(4): http://dx.doi.org/10.1145/2994148.
[59] Zhang, Yunquan, Li, Shigang, Yan, Shengen, Zhou, Huiyang. A Cross-Platform SpMV Framework on Many-Core Architectures. ACM TRANSACTIONS ON ARCHITECTURE AND CODE OPTIMIZATION[J]. 2016, 13(4): https://www.webofscience.com/wos/woscc/full-record/WOS:000392416400002.
[60] 吴保东, 张云泉, 李士刚, 贺新福, 周宇世强, 周宇世强. 面向RPV钢中富Cu团簇析出的KMC模拟算法研究. 第十七届全国科学计算与信息化会议暨智慧科研论坛null. 2015, http://ir.ihep.ac.cn/handle/311005/211444.
[61] An Xiaojing, Jia Haipeng, Zhang Yunquan, IEEE. Optimized Password Recovery for Encrypted RAR on GPUs. 2015 IEEE 17TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS, 2015 IEEE 7TH INTERNATIONAL SYMPOSIUM ON CYBERSPACE SAFETY AND SECURITY, AND 2015 IEEE 12TH INTERNATIONAL CONFERENCE ON EMBEDDED SOFTWARE AND SYSTEMS (ICESS)null. 2015, 591-598, [62] Li ShiGang, Hu ChangJun, Zhang JunChao, Zhang YunQuan. Automatic tuning of sparse matrix-vector multiplication on multicore clusters. SCIENCE CHINA-INFORMATION SCIENCES[J]. 2015, 58(9): http://dx.doi.org/10.1007/s11432-014-5254-x.
[63] Zhu Xiaomin, Zhang Junchao, Yoshii Kazutomo, Li Shigang, Zhang Yunquan, Balaji Pavan, IEEE. Analyzing MPI-3.0 Process-Level Shared Memory: A Case Study with Stencil Computations. 2015 15TH IEEE/ACM INTERNATIONAL SYMPOSIUM ON CLUSTER, CLOUD AND GRID COMPUTINGnull. 2015, 1099-1106, [64] Fan Mengran, Jia Haipeng, Zhang Yunquan, An Xiaojing, Cao Ting, IEEE. Optimizing Image Sharpening Algorithm on GPU. 2015 44TH INTERNATIONAL CONFERENCE ON PARALLEL PROCESSING (ICPP)null. 2015, 230-239, [65] Li ShiGang, Hu ChangJun, Zhang JunChao, Zhang YunQuan. Automatic tuning of sparse matrix-vector multiplication on multicore clusters. SCIENCE CHINA-INFORMATION SCIENCES[J]. 2015, 58(9): https://www.sciengine.com/doi/10.1007/s11432-014-5254-x.
[66] Li Shigang, Zhang Yunquan, Xiang Chunyang, Shi Lei, IEEE. Fast Convolution Operations on Many-Core Architectures. 2015 IEEE 17TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS, 2015 IEEE 7TH INTERNATIONAL SYMPOSIUM ON CYBERSPACE SAFETY AND SECURITY, AND 2015 IEEE 12TH INTERNATIONAL CONFERENCE ON EMBEDDED SOFTWARE AND SYSTEMS (ICESS)null. 2015, 316-323, [67] 安小景, 张云泉, 贾海鹏. 基于OpenCL的直方图生成算法优化方法研究. 计算机科学[J]. 2015, 42(11): 32-36, http://lib.cqvip.com/Qikan/Article/Detail?id=666686707.
[68] 詹科, 张云泉, 王婷, 郑晶晶, 张鹏. 基于Pthreads的并行DSRC压缩算法设计与实现. 计算机科学[J]. 2015, 42(1): 90-91,100, http://lib.cqvip.com/Qikan/Article/Detail?id=663510085.
[69] Yan Shengen, Li Chao, Zhang Yunquan, Zhou Huiyang, Assoc Comp Machinery. yaSpMV: Yet Another SpMV Framework on GPUs. PPOPP'14: PROCEEDINGS OF THE 2014 ACM SIGPLAN SYMPOSIUM ON PRINCIPLES AND PRACTICE OF PARALLEL PROGRAMMINGnull. 2014, 107-118, http://dx.doi.org/10.1145/2555243.2555255.
[70] Liu, YiQun, Li, Yan, Zhang, YunQuan, Zhang, XianYi. Memory Efficient Two-Pass 3D FFT Algorithm for Intel (R) Xeon Phi(TM) Coprocessor. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY[J]. 2014, 29(6): 989-1002, https://www.webofscience.com/wos/woscc/full-record/WOS:000345382500005.
[71] Xie Qingchun, Zhang Yunquan, Jia Haipeng, Lu Yongquan, IEEE. Research on Mahalanobis Distance Algorithm Optimization Based on OpenCL. 2014 IEEE INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS, 2014 IEEE 6TH INTL SYMP ON CYBERSPACE SAFETY AND SECURITY, 2014 IEEE 11TH INTL CONF ON EMBEDDED SOFTWARE AND SYST (HPCC,CSS,ICESS)null. 2014, 84-91, http://dx.doi.org/10.1109/HPCC.2014.19.
[72] Liu Yiqun, Li Yan, Zhang Yunquan, Zhang Xianyi. Memory Efficient Two-Pass 3D FFT Algorithm for Intel? Xeon Phi~(TM) Coprocessor. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY[J]. 2014, 29(6): 989-1002, http://sciencechina.cn/gw.jsp?action=detail.jsp&internal_id=5279753&detailType=1.
[73] Changmao Wu. Physically Based Parallel Ray Tracer for the Metropolis Light Transport Algorithm on the Tianhe-2 Supercomputer. 2014 20TH IEEE INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS (ICPADS)null. 2014, 444-453, [74] Changmao Wu. Large Scale Satellite Imagery Simulations with Physically Based Ray Tracing on Tianhe-1A Supercomputer. 2013 IEEE 15TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS & 2013 IEEE INTERNATIONAL CONFERENCE ON EMBEDDED AND UBIQUITOUS COMPUTING (HPCC_EUC)null. 2013, 549-556, [75] Lama Palden, Li Yan, Aji Ashwin M, Balaji Pavan, Dinan James, Xiao Shucai, Zhang Yunquan, Feng Wuchun, Thakur Rajeev, Zhou Xiaobo, IEEE. pVOCL: Power-Aware Dynamic Placement and Migration in Virtualized GPU Environments. 2013 IEEE 33RD INTERNATIONAL CONFERENCE ON DISTRIBUTED COMPUTING SYSTEMS (ICDCS)null. 2013, 145-154, [76] Luo Tao, Liao Yin, Chen Guoliang, Zhang Yunquan, Hu X, Lin TY, Raghavan V, Wah B, BaezaYates R, Fox G, Shahabi C, Smith M, Yang Q, Ghani R, Fan W, Lempel R, Nambiar R. P-DOT: A Model of Computation for Big Data. 2013 IEEE INTERNATIONAL CONFERENCE ON BIG DATAnull. 2013, [77] Wang Qian, Zhang Xianyi, Zhang Yunquan, Yi Qing. AUGEM: Automatically generate high performance dense linear algebra kernels on x86 CPUs. 2013 International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2013null. 2013, http://ir.iscas.ac.cn/handle/311060/16662.
[78] Li, Yan, Zhang, YunQuan, Liu, YiQun, Long, GuoPing, Jia, HaiPeng. MPFFT: An Auto-Tuning FFT Library for OpenCL GPUs. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY[J]. 2013, 28(1): 90-105, https://www.webofscience.com/wos/woscc/full-record/WOS:000314190600008.
[79] 张云泉. MPFFT:异构平台上性能自适应FFT框架. 计算机研究与发展. 2013, [80] Yan Shengen, Long Guoping, Zhang Yunquan. StreamScan: Fast scan algorithms for GPUs without global barrier synchronization. 18th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, PPoPP 2013null. 2013, 229-238, http://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=PARTNER_APP&SrcAuth=LinksAMR&KeyUT=WOS:000324158900022&DestLinkType=FullRecord&DestApp=ALL_WOS&UsrCustomerID=3a85505900f77cc629623c3f2907beab.
[81] 袁国兴, 孙家昶, 张林波, 张云泉. 2013年中国高性能计算机发展现状分析及系统测评技术简析. 计算机工程与科学[J]. 2013, 35(11): 1-, https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFDHIS2&filename=JSJK201311001&v=MjQwNjk5TE5ybzlGWllSOGVYMUx1eFlTN0RoMVQzcVRyV00xRnJDVVI3cWZidVp0RkNybFViekJMejdCWmJHNEg=.
[82] 张云泉. 针对应用对角线矩阵特点的SpMV自适应性能优化. 计算机研究与发展. 2013, [83] Zhang Xianyi, Wang Qian, Zhang Yunquan. Model-driven level 3 blas performance optimization on loongson 3a processor. PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS - ICPADSnull. 2012, 684-691, [84] Yuan Liang, Ding Chen, &#, Tefankovic Daniel, Zhang Yunquan. Modeling the locality in graph traversals. PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON PARALLEL PROCESSINGnull. 2012, 138-147, http://ir.iscas.ac.cn/handle/311060/15873.
[85] Yuan Liang, Zhang Yunquan. A locality-based performance model for load-and-compute style computation. PROCEEDINGS - 2012 IEEE INTERNATIONAL CONFERENCE ON CLUSTER COMPUTING, CLUSTER 2012null. 2012, 566-571, [86] Jia Haipeng, Zhang Yunquan, Long Guoping, Xu Jianliang, Yan Shengen, Li Yan, Kaklamanis C, Papatheodorou T, Spirakis PG. GPURoofline: A Model for Guiding Performance Optimizations on GPUs. EURO-PAR 2012 PARALLEL PROCESSINGnull. 2012, 7484: 920-932, [87] Sun Xiangzheng, Zhang Yunquan, Wang Ting, Zhang Xianyi, Yuan Liang, Rao Li. Optimizing spmv for diagonal sparse matrices on gpu. PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON PARALLEL PROCESSINGnull. 2011, 492-501, http://ir.iscas.ac.cn/handle/311060/16207.
[88] Sun Xiangzheng, Zhang Yunquan, Wang Ting, Long Guoping, Zhang Xianyi, Li Yan. Crsd: application specific auto-tuning of spmv for diagonal sparse matrices. LECTURE NOTES IN COMPUTER SCIENCE (INCLUDING SUBSERIES LECTURE NOTES IN ARTIFICIAL INTELLIGENCE AND LECTURE NOTES IN BIOINFORMATICS)null. 2011, 316-327, http://124.16.136.157/handle/311060/14335.
[89] 张云泉. Heterogeneous Multi-core Parallel SGEMM Performance Testing and Analysis on Cell/B.E Processor. IEEE NAS 2010. 2010, [90] 张云泉. BLAS库在多核处理器上的性能测试与分析. 软件学报. 2010, [91] 孙相征, 张云泉, 王宣强, 王磊. 数值软件自适应性能优化搜索过程评价技术研究. 计算机研究与发展[J]. 2010, 679-686, http://lib.cqvip.com/Qikan/Article/Detail?id=33523775.
[92] Wang Lei, Zhang Yunquan, Zhang Xianyi, Liu Fangfang. Accelerating linpack performance with mixed precision algorithm on cpu+gpgpu heterogeneous cluster. PROCEEDINGS - 10TH IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION TECHNOLOGY, CIT-2010, 7TH IEEE INTERNATIONAL CONFERENCE ON EMBEDDED SOFTWARE AND SYSTEMS, ICESS-2010, SCALCOM-2010null. 2010, 1169-1174, http://124.16.136.157/handle/311060/8642.
[93] 余元, 张云泉, 李会元. 一类非张量积区域快速傅立叶变换算法在国产并行机上的可扩展性测试. 数值计算与计算机应用[J]. 2010, 31(2): 123-130, [94] 张云泉. 基于延迟隐藏因子的GPU计算模型. 软件学报. 2010, [95] 张云泉. LogGPH: A Parallel Computational Model with Hierarchical Communication Awareness.. IEEE CSE 2010. 2010, [96] 袁娥, 张云泉, 刘芳芳, 孙相征. SpMV的自动性能优化实现技术及其应用研究. 计算机研究与发展[J]. 2009, 1117-1126, http://lib.cqvip.com/Qikan/Article/Detail?id=30839323.
[97] Yuxin Tang, Yunquan Zhang, Hu Chen. A parallel shortest path algorithm based on graph-partitioning and iterative correcting. COMPUTERSYSTEMSSCIENCEENGINEERING[J]. 2009, 24(5): 351-360, http://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=PARTNER_APP&SrcAuth=LinksAMR&KeyUT=WOS:000277952300007&DestLinkType=FullRecord&DestApp=ALL_WOS&UsrCustomerID=3a85505900f77cc629623c3f2907beab.
[98] Zhang Yunquan. Early Performance Evaluation of Dawning 5000A and DeepComp 7000. Proceedings of the 15th IEEE International Conference on Parallel and Distributed Systems (ICPADS 2009). 2009, [99] Zhang Yunquan. Memory Access Complexity Analysis of SpMV in RAM (h) Model. Proceedings of the 10th IEEE International Conference on High Performance Computing and Communications. 2008, [100] Zhang Di, Zhang Yunquan, Liu Shengfei, Huang Xiaodi. Parallelization of fm-index. PROCEEDINGS - 10TH IEEE INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS, HPCC 2008null. 2008, 169-173, http://124.16.136.157/handle/311060/10742.
[101] 刘胜飞, 张云泉. 一种改进的OpenMP Guided 调度策略研究. 2008年全国高性能计算机学术年会论文集null. 2008, 486-, http://124.16.136.157/handle/311060/10780.
[102] Tang Yuxin, Zhang Yunquan, Chen Hu. A parallel shortest path algorithm based on graph-partitioning and iterative correcting. PROCEEDINGS - 10TH IEEE INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS, HPCC 2008null. 2008, 155-161, http://124.16.136.157/handle/311060/10708.
[103] Zhang Di, Zhang Yunquan, Chen Jing, Amati G, Carpineto C, Romano G. Efficient construction of FM-index using overlapping block processing for large scale texts. ADVANCES IN INFORMATION RETRIEVALnull. 2007, 4425: 113-+, [104] Zhang Yunquan. Models of Parallel Computation: A Survey and Classification. Frontiers of Computer Science in China, Springer. 2007, [105] Chen, GuoLiang, Sun, GuangZhong, Zhang, YunQuan, Mo, ZeYao. Study on parallel computing. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY[J]. 2006, 21(5): 665-673, https://www.webofscience.com/wos/woscc/full-record/WOS:000240962200005.
[106] 陈靖, 张云泉, 张林波, 袁伟. 一种新的MPI Allgather算法及其在万亿次机群系统上的实现与性能分析. 计算机学报[J]. 2006, 29(5): 808-814, http://lib.cqvip.com/Qikan/Article/Detail?id=21884373.
[107] Chen Jing, Zhang Linbo, Zhang Yunquan, Yuan Wei. Performance evaluation of allgather algorithms on terascale linux cluster with fast ethernet. PROCEEDINGS - EIGHTH INTERNATIONAL CONFERENCE ON HIGH-PERFORMANCE COMPUTING IN ASIA-PACIFIC REGION, HPC ASIA 2005null. 2005, 437-442, http://124.16.136.157/handle/311060/12590.
[108] 袁伟, 张云泉, 孙家昶, 李玉成. 国产万亿次机群系统NPB性能测试分析. 计算机研究与发展[J]. 2005, 42(6): 1079-1084, http://lib.cqvip.com/Qikan/Article/Detail?id=15707305.
[109] 张云泉. 面向高性能数值计算的并行计算模型DRAM(h). 计算机学报[J]. 2003, 26(12): 1660-1670, http://lib.cqvip.com/Qikan/Article/Detail?id=8809569.
[110] 张云泉, 孙家昶, 唐志敏, 迟学斌. 数值计算程序的存储复杂性分析. 计算机学报[J]. 2000, 23(4): 362-373, http://lib.cqvip.com/Qikan/Article/Detail?id=4149067.
发表著作
(1) 并行计算:模型与算法, 机械工业出版社, 2016-07, 第 1 作者
(2) 人工智能三驾马车 大数据、算力和算法, 科学技术文献出版社, 2021-07, 第 1 作者

科研活动

   
科研项目
( 1 ) 《支持国产CPU的编译系统及工具链》子课题《龙芯CPU多核并行国产高性能数学库研究开发》, 主持, 国家级, 2009-01--2011-12
( 2 ) 《面向数万个以上处理器的新型基础算法研究》, 主持, 国家级, 2009-01--2011-12
( 3 ) 中科院软件所杰出青年人才专项计划, 主持, 市地级, 2009-09--2013-09
( 4 ) 高性能蛋白质定量计算软件平台构建与开发, 主持, 部委级, 2008-01--2011-12
( 5 ) 大规模异构并行系统的高效能调度理论与方法, 参与, 国家级, 2012-01--2014-12
( 6 ) 基于光线追踪的高精度成像并行数值计算软件, 主持, 国家级, 2011-07--2013-12
( 7 ) 特定HPC应用及OPENCV的移植和优化, 主持, 研究所(学校), 2011-01--2013-12
( 8 ) 众核体系架构并行计算模型与算法自适应调优框架研究, 主持, 国家级, 2013-01--2016-12
( 9 ) 面向气候和湍流模拟的百万量级异构众核可扩展并行算法与优化方法, 主持, 国家级, 2015-01--2019-12
( 10 ) 百万处理器核可扩展并行共性算法与性能优化关键技术研究与开发, 主持, 国家级, 2016-07--2020-12
( 11 ) 面向深度学习的GPU虚拟化关键方法与技术研究, 主持, 省级, 2018-12--2021-12
( 12 ) 面向众核体系架构的并行计算模型与性能自适应优化研究, 主持, 国家级, 2021-01--2023-12

指导学生

已指导学生

袁伟  硕士研究生  081202-计算机软件与理论  

蒋孟奇  硕士研究生  081202-计算机软件与理论  

柳锴  硕士研究生  081202-计算机软件与理论  

王宣强  硕士研究生  081202-计算机软件与理论  

袁娥  硕士研究生  081202-计算机软件与理论  

唐雨新  硕士研究生  081202-计算机软件与理论  

刘胜飞  硕士研究生  081202-计算机软件与理论  

余元  硕士研究生  081202-计算机软件与理论  

王磊  硕士研究生  081202-计算机软件与理论  

袁良  博士研究生  081202-计算机软件与理论  

陈少虎  硕士研究生  081202-计算机软件与理论  

费辉  硕士研究生  081202-计算机软件与理论  

耿琳  硕士研究生  081202-计算机软件与理论  

孙相征  博士研究生  081202-计算机软件与理论  

张樱  硕士研究生  081202-计算机软件与理论  

李焱  博士研究生  081202-计算机软件与理论  

张龙  硕士研究生  430112-计算机技术  

庞旭  硕士研究生  430112-计算机技术  

蒋丽媛  硕士研究生  430112-计算机技术  

吕渐春  硕士研究生  430112-计算机技术  

赵美超  硕士研究生  430112-计算机技术  

程大宁  博士研究生  081201-计算机系统结构  

安小景  硕士研究生  085211-计算机技术  

郭鹏  硕士研究生  085212-软件工程  

吴保东  博士研究生  081202-计算机软件与理论  

黄珊  硕士研究生  081201-计算机系统结构  

王霄  硕士研究生  081202-计算机软件与理论  

李志豪  博士研究生  081202-计算机软件与理论  

陆鹏起  硕士研究生  081201-计算机系统结构  

徐文峰  硕士研究生  081201-计算机系统结构  

现指导学生

李琨  博士研究生  081201-计算机系统结构  

陈暾  博士研究生  081202-计算机软件与理论  

徐磊  博士研究生  081202-计算机软件与理论  

姚建宇  硕士研究生  085211-计算机技术  

李晨荻  硕士研究生  081202-计算机软件与理论  

徐直前  博士研究生  081202-计算机软件与理论  

岳玥  硕士研究生  081202-计算机软件与理论  

张祎维  博士研究生  081202-计算机软件与理论  

赵文璇  硕士研究生  081202-计算机软件与理论