王锋
    我的位置在: 首页> 学院概况> 师资力量> 王锋
    教师介绍

    无照片

    姓名:王锋
    职称:特聘研究员
    居住地:长沙
    联系电话:13574850476

    从事高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架的研究。
    中文名: 王锋 英文名:
    学历: 博士 职称: 特聘研究员
    联系电话: 13574850476 电子邮件: wangfeng@hnu.edu.cn; wfdata@163.com
    研究方向: 高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架。正在招收硕士和博士研究生,欢迎有科研热情的同学联系我。
    联系地址: 湖南省长沙市岳麓区湖南大学信息科学与工程学院(410082)
    所属机构: 专职科研岗学院教师
    基本资料

    姓 名王锋

    职 称: 特聘研究员

    地:长沙

    联系电话:13574850476

    e-mail:wangfeng AT hnu.edu.cn; wfdata AT 163.com

    教育背景

    1996.09~2000.09 国防科技大学计算机学院计算机科学与技术本科

    2000.09~2002.12国防科技大学计算机学院计算机软件与理论硕士

    2008.03~2013.12国防科技大学计算机学院计算机软件与理论博士

    工作经历

    2021.05~至今 湖南大学信息科学与工程学院 特聘研究员

    2002.12~2017.03 国防科学技术大学计算机学院 研究实习员、助理研究员、副研究员

    2010.08~2011.08澳大利亚新南威尔士大学 国家公派访问学者

    长期从事高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架等方向研究,针对多种处理器体系结构研究高效的数据预取、Cache优化、自动向量化等技术,研究PGAS、OpenMP、OpenCL、CUDA、SYCL等并行编程模型,TVM、XLA等机器学习编译器框架,研发的软件涵盖程序优化、运行时库、性能分析、调测试等全套基础软件栈,支撑多款国产处理器的推广应用。研究二进制翻译技术,针对国产处理器提供软件生态解决方案。首次在千万亿次异构计算机系统上引入了MPI/OpenMP/Streaming混合编程模型,并扩展至全系统规模,提出了以结点为中心的任务映射、以CPU为中心的任务映射和以加速器为中心的任务映射,首次提出了基于有限状态自动机的嵌套双缓冲软件流水技术和基于性能模型的自适应负载均衡技术,其成果应用于天河系列国家超级计算机系统,为天河超算排名世界第一做出突出贡献。


    深入研究可扩展高效能并行算法以及共性基础算法,支撑天河超算应用的优化和部署。重点针对稠密/稀疏矩阵求解器进行优化,研究极大规模的分子动力学、计算流体力学等算法的扩展性,研究BLAS、FFT等基础算法在超算体系架构上的优化。开发的并行编译器从OpenMP 2.0一直支持到4.5,并且还在进一步支持更多的特性。


    长期从事并支持开源软件社区工作,从2003年开始为GCC编译器贡献代码,目前是GCC MaintainerFortran语言)。


    获得发明专利授权10余项(含2项国防专利),发表论文30余篇。获省部级科技进步一等奖2项,二等奖2项,获国家“共创”开源软件铜奖


    研究方向

    高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架


    具体在如下方向招收感兴趣的本科生、硕士生和博士生(名额充足):

    1. 并行编译器优化:针对架构的OpenMP编译器优化;

    2. 并行编程模型:针对CPU+GPU、CPU+AI加速器等异构架构,研究并行编程模型;

    3. 编译器自动向量化技术:针对simd架构的自动向量化及指令调度;

    4. AI编译器研究:针对AI框架研究AI算子的生成和调度;

    5. AI4Science方向研究:利用AI技术加速传统HPC应用;

    6. GPU编译器优化:基于Mesa研究GPU指令的调度和优化;

    7. 程序分析方向:利用编译技术分析程序的可靠性、漏洞以及正确性;

    8. 函数式语言编译器:Haskell编译器GHC在RISC-V、国产处理器上的支持;

    9. CodeSize代码密度优化:嵌入式领域针对RISC-V/ARM平台的代码密度优化。

    以上方向都有充足的课题经费支持,并且与产业界密切相关。



    论文代表作

    名称

    杂志或会议

    年份

    Back to Homogeneous Computing: A Tightly-Coupled Neuromorphic Processor with Neuromorphic ISA Transactions on Parallel and Distributed Systems 2023

    面向 ARMv8 64 位多核处理器的 QGEMM 设计与实现

    计算机学报

    2017

    Design and implementation of a highly efficient DGEMM for 64-Bit ARMv8 multi-core processors

    2015 44th International Conference on Parallel Processing(ICPP)

    2015

    Implementation of an accurate and efficient compensated dgemm for 64-bit armv8 multi-core processors

    2015 IEEE 21st International Conference on Parallel and Distributed Systems (ICPADS)

    2015

    Fast Implementation of Quad-Precision GEMM on ARMv8 64-bit Multi-Core Processor

    16th GAMM-IMACS International Symposium on Scientific Computing, Computer Arithmetic and Validated Numerics (SCAN 2014)

    2014

    基于内存缓存的异步检查点容错技术

    计算机研究与发展

    2014

    Programming for scientific computing on peta-scale heterogeneous parallel systems

    Journal of Central South University

    2013

    面向千万亿次 CPU-GPU 异构系统的编程模型与性能优化关键技术研究

    国防科技大学计算机学院博士论文

    2013

    GPGPU性能模型研究

    计算机工程与科学

    2013

    Constant memory optimizations in MD5 Crypt cracking algorithm on GPU-accelerated supercomputer using CUDA

    2012 7th International Conference on Computer Science & Education (ICCSE)

    2012

    A fast parallel implementation of molecular dynamics with the morse potential on a heterogeneous petascale supercomputer

    2012 IEEE 26th International Parallel and Distributed Processing Symposium Workshops & PhD Forum

    2012

    Gpu-centered parallel model on heterogeneous multi-gpu clusters

    Proceedings of International Conference on Computer Science and Network Technology

    2012

    Parallel model research on the heterogeneous computer system

    International Conference on Automatic Control and Artificial Intelligence

    2012

    Parallelizing SOR for GPGPUs using alternate loop tiling

    Parallel Computing

    2012

    面向异构并行计算系统的流水线式压缩检查点

    电子学报

    2012

    Optimizing linpack benchmark on gpu-accelerated petascale supercomputer

    Journal of Computer Science and Technology(JCST)

    2011

    Cell处理器上的软件Cache研究

    计算机工程与科学

    2011

    Adaptive optimization for petascale heterogeneous CPU/GPU computing

    2010 IEEE International Conference on Cluster Computing

    2010

    Accelerating pqmrcgstab algorithm on gpu

    Proceedings of the combined workshops on UnConventional high performance computing workshop plus memory access workshop

    2009

    Solving 2D Nonlinear Unsteady Convection-Diffusion Equations on Heterogenous Platforms with Multiple GPUs

    2009 15th International Conference on Parallel and Distributed Systems

    2009

    用表驱动算法在 GCC 中优化实现指数函数

    计算机工程与科学

    2007

    编译器前端乘幂运算的实现与优化

    计算机工程与应用

    2004

    分布式实时系统请求接收单元优先级的研究

    计算机工程与应用

    2004

    实时中间件的优先级映射

    软件学报

    2003

    实时CORBA资源管理的研究与实现

    国防科技大学计算机学院硕士论文

    2002

    主要授权专利

    申请日期

    公开(公告)号

    专利名称

    2016年11月

    ZL201418005454.9

    一种使用定点寄存器加速浮点矩阵乘的方法

    2010年 03月

    ZL200910044525.4

    一种全覆盖的微处理器测试用例包自动生成方法

    2015年08月

    ZL201318005614.5

    一种众核加速器优先的CPU和众核加速器间负载划分方法

    2010年 05月

    ZL200910227185.9

    一种基于负载平衡的CPU和GPU两级动态任务划分方法

    2017年10月

    ZL201410774705.9

    片上Cache网络中基于位置感知的数据预取方法

    2014年05月

    ZL201110382028.2

    一种基于GPU的消除云方程并行求解过程中数据相关的方法

    主要项目
    1. 基于国产E级计算机的多功能药物设计与优化平台,2022年,纵向课题

    2. 嵌入式处理器软件工具链研究,2022年,纵向课题

    3. 编译器CodeSize优化技术合作项目,2022年,横向课题

    4. Fortran语言多线程并行编程技术,2021年,横向课题

    5. 操作系统与工具链定制开发,2021年,横向课题

    6. 类脑芯片模拟器软件开发,2021年,横向课题

    7. 面向国产处理器的并行程序综合优化技术与系统,2012年至2015年,国家科技部高技术研究发展中心(863计划)

    8. 高效能计算应用支撑软件框架体系研制,2012年至2015年,国家科技部高技术研究发展中心(863计划)

    9. “天河”新一代高性能计算机系统研制(“天河-2”),2012年至2015年,国家科技部高技术研究发展中心(863计划)

    10. 千万亿次高效能计算机系统研制(“天河-1”),2009年至2010年,国家科技部高技术研究发展中心(863计划)


    Baidu
    map