张文帅

个人信息Personal Information

高级工程师

电子邮箱:

联系方式:0551-63602248

学位:博士

工程技术

当前位置: 中文主页 >> 工程技术

- 多层并行程序的作业运行参数优化方法,及其在作业调度系统中的应用 ( 2016 - 今 )
因高性能计算程序的并行开发愈发成熟,很多软件具有多层的并行任务分发逻辑,对应多个并行参数设置。同时,异构或不对称的单机硬件与集群越发普遍,用户需要频繁调节应用内部并行参数来获得最佳的运行效率。本工作提出一种新的约化并行效率指标,构建了一个全自动运行优化工具,可以综合平衡计算速度与计算成本,全自动化地实现预定效果的运行状态。经部署实施与测试,该工具可以为数千个真实用户的VASP作业提供约1.6-3.2倍加速,同时节省15%-35%计算机时。此外,基于前述实施的全自动运行优化结果,构建了基于AI的智能服务API,为校内外均可以同时提供优化服务,目前,已经有过万个真实作业得到了优化运行。相关技术获批2项发明专利,并进行了多次校企合作与成果转化。

- 容器技术测试与验证 ( 2016 - 今 )
测试验证系统级容器(OpenVZ)应用在超算中心调度环境下的热迁移方法,探索对容器作业进行Checkpoint/Restore的完整流程, 总结其在超算调度中的应用可行性与前景;指导学生验证在超算集群环境下对Docker容器进行热迁移操作的可行性,指导其完成硕士论文;为Singularity容器验证可持久化的Overlay二层镜像构建方法并编写技术文档。

高性能区块链系统( 2020 - 今 )
为解决高校联盟链中的运行问题,基于高性能计算开发实践经验,设计了大规模可并行验证的智能区块链系统,申报2项专利技术,获得两次技术许可转化。该技术对区块链交易内部数据做裁剪与复用,使得子孙交易能够方便的引用当前上下文中的局部数据而不引起持续的数据膨胀, 进一步使得原本无法做循环迭代的区块链脚本通过可持续的子孙交易链具备循环迭代的能力,同时避免停机问题, 使UTXO区块链系统具备图灵完备的计算能力,同时不牺牲可大规模并行的无状态特性。


- 先导A地球大数据项目子课题:云服务基础平台运行与安全( 2019 - 2022 )
担任子课题技术主管,并且负责其中超算平台部分的运维开发工作,帮助学生针对大数据云平台部分进行优化与集成,与学生一起申报两项软件著作。


- 合作开发第一性原理计算软件 ABACUS ( 2015 - )
a) 负责重点研发计划课题“面向E级计算的第一性原理计算软件”的任务一,为ABACUS软件添加高精度新型赝势支持,优化并生成数千个原子基组文件,通过数万次DFT计算,验证其计算精度达到国际先进水平。该领域的龙头软件VASP因在赝势与PAW基组两方面具有业内公认的领先地位,本工作使ABACUS在这两方面具备了与VASP同台竞争的基础条件(精度与稳定性)。
b) 为ABACUS兼容FFTW函数库,并为FFT3D模块实施GPU/CUDA移植加速等验证性开发,使计算与数据传输得到完全的掩藏,并达到通讯接口允许的极限速度。

- 正电子第一性原理计算软件的开发与应用( 2012 - 今 )
2012-2021年期间,基于QE软件(VASP的最常用开源替代软件)进行二次开发,用于模拟正电子在材料中的量子态,基于该软件获得如下成果:
a) 直接支持他人发表15篇SCI论文,其中五篇JACS文章将本软件计算结果图用做摘要亮点图片;
b) 以第一作者发表3篇SCI文章,澄清正电子计算中的若干关键问题。2021年,MIT为第一单位的一篇SCI文章对本人的工作进行了着重介绍,其Introduction第二段的全部论述均基于本文章的工作,单段落引用5次;
c) 2013年-2014年,作为实施负责人完成中国工程物理研究院横向项目“氚化钛中氦泡参数的正电子湮没寿命谱计算”;
d) 2021年依托本工作与ABACUS软件,申报并获批一项青年科学基金项目“大体系原子结构中正电子湮没寿命的数值计算方法”。

- 正电子寿命谱大规模并行解谱程序PLTMCMC( 2015 - 2021 )
开发并优化面向正电子谱仪数据分析的大规模并行解谱算法程序PLTMCMC,该软件实现了优化的马尔可夫链蒙特卡罗算法,并在国际上首次实现了谱空间的全局稳定优化,解决了国际同类软件优化结果不稳定、局域性强、可靠性低的难题,该软件在1008核并行测试中实现了高达90%的并行效率。基于相关算法工作,作为通讯作者于2019年合作发表一篇SCI论文。

- 宇宙演化程序HSPM在国产DCU平台上的移植开发 ( 2021.07 - 今 )
申请并获得首期光合基金A类项目支持,为校内宇宙学模拟HSPM软件针对国产DCU加速卡进行移植开发。通过OpenMP Offload技术与最新支持的数据操作API,为HSPM设计了针对国产异构加速平台的数据并行逻辑,发现并消除了原OpenMP版本中的计算负载不均的问题,已完成计算占比90%的代码移植工作,其中最核心的计算热点模块的平均加速比达105倍,多卡扩展时并行效率达83%,超额完成了各项技术指标,获评优秀课题。本次移植开发中的关键技术经验已受邀发布在DCU开发者社区,帮助推进国产GPU开发生态建设。


- PWDFT软件测试与优化补丁( 2020.11 - 2021.03 )
帮助杨金龙-胡伟课题组的PWDFT软件测试其在A100-NVLink平台下并行效率,分析其热点瓶颈,并为其CUDA代码提供显存优化补丁,使关键模块在同样的硬件下加速8-23倍,使程序整体加速1.4-2.2倍 。

- expM C/C++并行加速函数库( 2017 - 2018 )
开发基于MPI+OpenMP/CUDA的矩阵指数计算函数库expM,GPU版比OPENMP版加速5倍 。


前期理论研究工作

- 暗能量宇宙学研究 ( 2010 - 2012 )
2010-2012期间,完成3篇宇宙学暗能量方向的SCI论文的数值计算工作。其中作为第一作者的一篇文章中,通过数值模拟,研究了多个主流修改引力模型下的宇宙膨胀历史,并结合当前观测结果,进行模型验证与参数置信空间统计分析。