电子邮件: zhangzhibin@ict.ac.cn
通信地址: 北京海淀区科学院南路6号
邮政编码:
研究领域
深度学习系统,大数据计算系统
招生信息
对学生的要求:
1. 有较强的计算系统知识基础,对如何充分利用硬件资源高效运行算法有浓厚兴趣;
2. 有较强的C/C++编程基础,操作系统、编译器设计、数据库设计等课程成绩优异;
3. 有较好的应用数学基础以及深度学习算法设计基础;
4. 有强烈的好奇心,有技术追求和责任感。
招生专业
招生方向
教育背景
工作经历
现任中国科学院网络数据科学与技术重点实验室副研究员、大数据分析系统国家工程研究中心大数据引擎研究部主任。主要研究方向大数据与智能计算系统、机器学习算法和系统设计。在基于机器学习网络安全算法设计方面,提出无监督网络协议特征分词、网络协议类型分析等一系列方法,论文成果发表在国际顶级期刊TPDS、JSAC和顶级会议INFOCOM、ICNP、ICDE、AAAI等二十余篇,申请发明专利8项, 国际PCT专利1项。2012年获得ICNP最佳论文奖,是大陆研究团队20年来首次获此殊荣。目前担任中央网信办、CNCERT、国家信息安全测评中心等单位专家,承担过多项工信部、公安部专项、科技部重点研发计划等科研任务。在大数据计算系统设计方面,面向复杂数据关联分析场景研发了高性能图计算系统SQLGraph,基于内存压缩存储和并行算法加速,实现了单机亿级节点的图关系存储和秒级遍历,并且将图计算、关系查询、关系计算统一到SQL标准语言框架下。其性能不仅达到学术界领先水平,也超过当前工业界和开源社区代表性系统1至4个数量级,获得2019年DEXA最佳论文奖,受到金融、电力等领域的高度评价。领导研发的基于微内核的流式计算引擎,支持倾斜数据处理及动态任务调度,分布式处理性能是Flink的20-80倍,支持动态毫秒级垂直扩展及秒级水平伸缩,并支持秒级启动。在深度神经网络系统优化方面,研发的训练时压缩技术,能够在训练过程中主动发现网络冗余,在不增加训练时间以及不降低准确率的前提下将网络规模和计算需求压缩1-2个数量级。领导研发的深度学习软件栈系统,结合了符号化模型编程高效率和命令式模型编程易用性的特点,向上实现了Tensorflow、Pytorch等框架融合,向下通过神经编译器实现网络中间表示到LLVM虚拟机之间翻译,代码优化达到手动调优性能,便于对接底层各种专用加速芯片,方便运行时模型调试。基于以上研究基础,近两年的研究致力于面向国产化异构计算平台,将大数据处理与智能分析技术进行高效融合,以大模型(LLM)的国产化为牵引,为上层各种智能算法与应用提供张量操作系统、神经编译器、高效推理框架及向量数据库等智能应用的基础设施,实现智能算法与更多垂直行业的结合以及低成本的国产化平台落地。
十三五期间在大数据并行计算、智能系统设计方面承担了两项国家重点研发计划课题子课题任务。在无人机智能方面有完整系统设计经验,尤其对系统总体设计,关键算法设计有着深入的研究积累,相关智能识别系统已经应用于相关无人机系统中。十几年来培养硕士、博士十余人,目前都已成长为各大互联网公司的技术骨干,包括腾讯海量数据计算组、阿里达摩院智能系统组、字节跳动图计算组等,并且为Spark、GP、ClickHouse十余个开源社区做出卓越贡献,2018年获得ClickHouse社区全球最佳贡献奖。十四五期间,以图计算技术参与科技部重点研发项目两项,涉及国网电力及最高检金融犯罪领域;以智能计算技术参与多项科研项目,涉及大数据、无人飞行平台等多个主题领域,包括无人机目标检测、数据智能融合、短时极端气象预报、高算力平台设计、跨领域智能化算法设计与优化等领域,相关系统已经在飞腾麒麟、海光、RISC-V、算能、摩尔线程、天数、寒武纪等国产化平台上验证,并且具备兼容其他国产化硬件体系的能力。未来将以数据的智能化分析为牵引,围绕数据分析大模型设计及相关压缩量化技术研究,并开展在国产化、边缘端等异构计算设备上的部署、优化展开研究。
相关论文发表情况参见:https://scholar.google.com/citations?user=rynJkPAAAAAJ&hl=zh-TW
工作简历
教授课程
出版信息
发表论文
科研活动
科研项目
指导学生
已指导学生
王增瑞 硕士研究生 085404-计算机技术
蔡文铠 硕士研究生 085404-计算机技术
现指导学生
陆展 硕士研究生 081200-计算机科学与技术
陈赫 硕士研究生 085410-人工智能
张浩 硕士研究生 081200-计算机科学与技术
吴广鑫 硕士研究生 081200-计算机科学与技术