2023年11月25日发(作者:小影霸显卡能买吗)
高性能计算平台在高校中的应用与建议
作者:李小菲 钟建军 张彬 秦帅行 宋温温
来源:《现代信息科技》2020年第08期
摘 要:高性能計算在科研领域具有广泛的应用和重要的地位,高校高性能计算平台为学
校学科建设的长远发展提供了强有力的支撑条件,提升了学校的科研实力与水平,有利于未来
综合竞争力的提升。文章以河北大学高性能计算平台为例,介绍了高性能计算机平台的建设和
在科研中的应用,并对高性能计算平台的使用情况进行了分析研究和建议。
关键词:超级计算机;高性能计算平台;计算能力
Abstracts:High performance computing (HPC) is widely used and important in scientific
research,the high performance computing platform provides a strong support for the long-term
development of the university’s discipline construction. It has improved the scientific research
strength and level of the school,it is conducive to the promotion of comprehensive competitiveness
in the future. Take the high performance computing platform of Hebei University as an example,this
paper introduces the construction of high performance computer platform and its application in
scientific research,the usage of High Performance Computing Platform is analyzed and suggested.
Keywords:super computer;high performance computing platform;computing power
0 引 言
随着科技的发展,计算机与我们的日常工作和学习生活之间的关系变得更加密切。在大数
据的背景下,高性能计算(High performance computing,HPC),又称为超级计算,是计算机
科学重要的前沿性分支,也大量地投入到对大数据的应用当中[1]。超算即超级计算机,是指
由数千甚至更多处理器组成、能计算普通计算机和服务器不能完成的大型复杂课题的计算机,
超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,被誉为“计算
机中的珠穆朗玛峰”,已成为世界各国争夺的一个战略制高点[2]。超级计算机多用于国家高科
技领域和尖端技术研究,是国家科技发展水平和创新能力的重要标志。
超级计算机被称为“国家重器”,属于国家战略高技术领域,是世界各国竞相角逐的科技最
高点。超级计算机应用场合很多,大多都是高精端领域,比如天气预测、核爆炸模拟、飞机飞
行计算、弹道计算、各种场合的3D建模等等。随着信息时代的来临,目前最流行的大数据概
念,再结合云计算,超级计算机的应用将越来越广,甚至深入商业领域[3]。超级计算机作为
一个国家科技实力的体现和科技发展的基础支撑环境,受到全球超级大国的重视,各国都在全
力发展本国的超级计算机。
我国《国家重点专项规划之——“十三五”国家科技创新规划》中明确提出“发展先进计算
技术,重点加强E级(百亿亿次级)计算、云计算、量子计算、人本计算、异构计算、智能计
算、机器学习等技术研发及应用”。[1]
截止到2019年11月世界超级计算机排名上,中国的神威·太湖之光(Sunway
TaihuLight)全球排名第三,其最大算力为9.301 459 388亿亿次每秒,峰值算力为12.543 590
4亿亿次每秒;中国的天河-2A(Tianhe-2A)排名第四,其最大算力为6.144 450 0亿亿次每秒,
峰值算力为10.067 866 4亿亿次每秒,如表1所示。
当前,高性能计算已经成为解决国家发展面临的重大挑战性问题和科技创新的必备工具。
计算科学领域高度依赖于高性能计算与科学大数据、深度学习之间的深度融合。近年来,人工
智能的突破正是建立在超级计算机计算能力突飞猛进的发展和深度学习算法的成功结合上。发
展以超级计算机为支撑平台的先进计算系统,将进一步推动高性能计算、智能计算和大数据的
深度融合与创新发展。
1 高校高性能计算建设现状
近年来,国家对高性能计算的重视程度不断提升,高性能计算在我国很多领域都取得了巨
大发展,高校作为科技创新的重要基地,对高性能计算的关注日益提高,众多高校都投入建设
了校级高性能计算平台,强大的计算能力极大地提升了学校科研工作的能力和水平,促进了相
关教学、科研工作的开展,高性能计算已成为高校教学、科研创新的一个基本手段。[4]
1.1 本校高性能计算平台介绍
河北大学高性能计算平台于2014年9月投入使用,总投资1 200余万元。系统包括计算刀
片节点110片、胖节点18台、管理节点2台、可视化节点2台、GPU节点4台、MIC节点1
台、并行存储3台、CPU核数大于4 000个。计算能力可达119.7万亿次/秒(TFLOPS)。存
储裸容量182.88 TB,聚合带宽2.4 GB/s,全系统采用56 Gbps FDR InfiniBand线速互连,如图
1所示。
作为服务于全校性的大型共享平台,高性能计算中心规模大,获得了学校和曙光厂商的重
点支持。此外,高性能计算中心有专职管理人员负责,集群的运行状态比较稳定。
1.2 高性能计算平台的设备配置
高性能计算系统内部互连带宽56 Gbps,芯片传输延迟100 ns;全系统内存容量8.7 TB,在
线共享存储磁盘容量183 TB;最大运行功耗为90 kW;机柜数量16个,如表2所示。
1.3 高性能计算平台网络拓扑图
集群采用全新的Gridview 3.2管理调度系统,集群拓扑结构如图2所示。
1.4 高性能计算平台安装的队列
到目前为止,平台上总共安装有15个队列,分别是blade_s1、blade_s2、balde_s3、
blade_x、flat_amd、flat_intel、flat_ls、matlab、msi_blade、msi_flat、queue_gpu、queue_mic、
temporary_blade、test_blade、test_flat,队列上的作业运行良好。
1.5 高性能计算机平台上安装的软件
目前,集群现已安装并能正常使用的软件包含Guessian、VASP、WIEN 2k、Cestep、
RAxML、Intel Fortran、Material Studio、Trinity、NAMD、Siesta、MATLAB、TensorFlow、
GROMACS、ANSYS、BLAST、VSim、Beagle、BioStack、MrBayesMatlab等,这些软件已经
可以满足平台用户的需求。
2 高性能计算平台运行情况
到目前为止,集群共运行3万多个作业,累计使用机时为2 783.375 3万小时,作业使用
核数总计为498万,输出数据均在良好范围内,运行状态正常。
2.1 高性能计算平台的申请使用情况
现平台使用单位中包括电子信息工程学院、生命科学学院、物理科学与技术学院、化学与
环境科学学院、质量技术监督学院、药学院、计算机教学部、建筑工程学院、网络空间安全与
计算机学院和药物化学与分子诊断教育部重点实验室。
截止到2019年底,全校共有43个课题组申请使用高性能计算平台,覆盖63个科研项
目,其中国家级科研项目38个,省级科研项目22个,完结12个科研项目。
2.2 高性能计算平台运行维护情况
2.2.1 集群总览
以下对2016年度至2019年度平台的运行情况进行了分析,其中:2016年度共完成21個
用户的26 222个作业,累计使用机时为554.704 3万小时;2017年度共完成27个用户的64 688
个作业,累计使用机时为580.454 3万小时,平均作业机时为89.73小时。2018年度共完成39
个用户的84 078个作业,累计使用机时为754.047 2万小时,平均作业机时为89.68小时,如
表3所示。
2017相比2016年机时增长4.64%,作业数增长146.69%;2018相比2017年机时增长
29.91%,作业数增长29.97%,2019年度共完成49个用户的73 415个作业,累计使用机时为
894.169 5万小时,平均作业机时为121.80小时。2019相比2018年机时增长18.58%,作业数
减少12.68%,如图3、图4所示。
2.2.2 队列统计情况
以2019年度为例,作业队列统计如下:
(1)队列blade_s1共完成了8 509个作业,占作业总数的11.59%,使用机时为60.703 4
万小时,占总机时的6.79%;
(2)队列blade_s2共完成了6 858个作业,占作业总数的9.34%,使用机时为112.690 2
万小时,占总机时的12.60%;
(3)队列blade_s3共完成了3 152个作业,占作业总数的4.29%,使用机时为58.248 2万
小时,占总机时的6.51%;
(4)队列blade_x共完成了26 546个作业,占作业总数的36.16%,使用机时为131.996 9
万小时,占总机时的14.76%;
(5)队列flat_amd共完成了12 730个作业,占作业总数的17.34%,使用机时为320.708
0万小时,占总机时 的35.87%;
(6)队列matlab共完成了58个作业,占作业总数的0.08%,使用机时为0.000 5万小
时,占总机时的0.00%;
(7)队列msi_blade共完成了1 268个作业,占作业总数的1.73%,使用机时为40.627 6
万小时,占总机时的4.54%;
(8)队列msi_flat共完成了179个作业,占作业总数的0.24%,使用机时为4.414 3万小
时,占总机时的0.49%;
(9)队列queue_gpu共完成了6个作业,占作业总数的0.01%,使用机时为0.000 2万小
时,占总机时的0.00%;
(10)队列temporary_blade共完成了9 070个作业,占作业总数的12.35%,使用机时为
139.892 9万小时,占总机时的15.65%;
(11)队列test_blade共完成了3 811个作业,占作业总数的5.19%,使用机时为16.075 0
万小时,占总机时的1.80%;
(12)队列test_flat共完成了1 228个作业,占作业总数的1.67%,使用机时为8.812 4万
小时,占总机时的0.99%;如图5、图6所示。
2.2.3 高性能计算平台维护情况
2016年度将Gridview升级为全新的Gridview 3.2集群管理调度系统,完成了Gridview相
关Portal安装。新增MATLAB,TensorFlow等软件的安装工作。并且根据高性能计算平台运
行情况,结合使用者的反映情况和意见,对高性能计算平台进行了资源管理调配和清理维护工
作,对原空闲模式期间的队列以及任务配额进行了调整,合理分配了用户的作业数、使用核数
以及可用队列。
1.2 高性能计算平台的设备配置
高性能计算系统内部互连带宽56 Gbps,芯片传输延迟100 ns;全系统内存容量8.7 TB,在
线共享存储磁盘容量183 TB;最大运行功耗为90 kW;机柜数量16个,如表2所示。
1.3 高性能计算平台网络拓扑图
集群采用全新的Gridview 3.2管理调度系统,集群拓扑结构如图2所示。
1.4 高性能计算平台安装的队列
到目前为止,平台上总共安装有15个队列,分别是blade_s1、blade_s2、balde_s3、
blade_x、flat_amd、flat_intel、flat_ls、matlab、msi_blade、msi_flat、queue_gpu、queue_mic、
temporary_blade、test_blade、test_flat,队列上的作业运行良好。
1.5 高性能計算机平台上安装的软件
目前,集群现已安装并能正常使用的软件包含Guessian、VASP、WIEN 2k、Cestep、
RAxML、Intel Fortran、Material Studio、Trinity、NAMD、Siesta、MATLAB、TensorFlow、
GROMACS、ANSYS、BLAST、VSim、Beagle、BioStack、MrBayesMatlab等,这些软件已经
可以满足平台用户的需求。
2 高性能计算平台运行情况
到目前为止,集群共运行3万多个作业,累计使用机时为2 783.375 3万小时,作业使用
核数总计为498万,输出数据均在良好范围内,运行状态正常。
2.1 高性能计算平台的申请使用情况
现平台使用单位中包括电子信息工程学院、生命科学学院、物理科学与技术学院、化学与
环境科学学院、质量技术监督学院、药学院、计算机教学部、建筑工程学院、网络空间安全与
计算机学院和药物化学与分子诊断教育部重点实验室。
截止到2019年底,全校共有43个课题组申请使用高性能计算平台,覆盖63个科研项
目,其中国家级科研项目38个,省级科研项目22个,完结12个科研项目。
2.2 高性能计算平台运行维护情况
2.2.1 集群总览
以下对2016年度至2019年度平台的运行情况进行了分析,其中:2016年度共完成21个
用户的26 222个作业,累计使用机时为554.704 3万小时;2017年度共完成27个用户的64 688
个作业,累计使用机时为580.454 3万小时,平均作业机时为89.73小时。2018年度共完成39
个用户的84 078个作业,累计使用机时为754.047 2万小时,平均作业机时为89.68小时,如
表3所示。
2017相比2016年机时增长4.64%,作业数增长146.69%;2018相比2017年机时增长
29.91%,作业数增长29.97%,2019年度共完成49个用户的73 415个作业,累计使用机时为
894.169 5万小时,平均作业机时为121.80小时。2019相比2018年机时增长18.58%,作业数
减少12.68%,如图3、图4所示。
2.2.2 队列统计情况
以2019年度为例,作业队列统计如下:
(1)队列blade_s1共完成了8 509个作业,占作业总数的11.59%,使用机时为60.703 4
万小时,占总机时的6.79%;
(2)队列blade_s2共完成了6 858个作业,占作业总数的9.34%,使用机时为112.690 2
万小时,占总机时的12.60%;
(3)队列blade_s3共完成了3 152个作业,占作业总数的4.29%,使用机时为58.248 2万
小时,占总机时的6.51%;
(4)队列blade_x共完成了26 546个作业,占作业总数的36.16%,使用机时为131.996 9
万小时,占总机时的14.76%;
(5)队列flat_amd共完成了12 730个作业,占作业总数的17.34%,使用机时为320.708
0万小时,占总机时 的35.87%;
(6)队列matlab共完成了58个作业,占作业总数的0.08%,使用机时为0.000 5万小
时,占总机时的0.00%;
(7)队列msi_blade共完成了1 268个作业,占作业总数的1.73%,使用机时为40.627 6
万小时,占总机时的4.54%;
(8)队列msi_flat共完成了179个作业,占作业总数的0.24%,使用机时为4.414 3万小
时,占总机时的0.49%;
(9)队列queue_gpu共完成了6个作业,占作业总数的0.01%,使用机时为0.000 2万小
时,占总机时的0.00%;
(10)队列temporary_blade共完成了9 070个作业,占作业总数的12.35%,使用机时为
139.892 9万小时,占总机时的15.65%;
(11)队列test_blade共完成了3 811个作业,占作业总数的5.19%,使用机时为16.075 0
万小时,占总机时的1.80%;
(12)队列test_flat共完成了1 228个作业,占作业总数的1.67%,使用机时为8.812 4万
小时,占总机时的0.99%;如图5、图6所示。
2.2.3 高性能计算平台维护情况
2016年度将Gridview升级为全新的Gridview 3.2集群管理调度系统,完成了Gridview相
关Portal安装。新增MATLAB,TensorFlow等软件的安装工作。并且根据高性能计算平台运
行情况,结合使用者的反映情况和意见,对高性能计算平台进行了资源管理调配和清理维护工
作,对原空闲模式期间的队列以及任务配额进行了调整,合理分配了用户的作业数、使用核数
发布者:admin,转转请注明出处:http://www.yc00.com/num/1700852375a1031406.html
评论列表(0条)