节点ubuntu软件

ubuntu软件时间:2021-04-01 阅读:()

11软件介绍NAMD是一个用于生物大分子大规模分子动力学的并行软件,支持Charmm、Namd和Amber等多种力场,由美国Illinois大学生物物理系和计算机系联合开发,旨在开发出高效的分子动力学并行程序,可支持Charm++并行.
目前NAMD还支持在GPU加速器上的运算.
NAMD具有非常强的大规模并行计算能力,已经实现了在上千个处理器上的并行计算,对包含超过三十万个原子的大分子系统进行模拟.
NAMD注册后可以免费下载使用:http://www.
ks.
uiuc.
edu/Research/namd/2软件依赖Fortran90编译:操作系统自带的GCC编译器;单精度FFTW3数学库:fftw3,编译时加--enable-float选项;GPU节点CUDA驱动;还依赖以下系统盘自带的安装包:tcl-8.
5.
7-6.
el6.
x86_64tcl-devel-8.
5.
7-6.
el6.
x86_64numactl-devel-2.
0.
7-6.
el6.
x86_64操作系统:Ubuntu16.
043安装步骤3.
1CUDA到https://developer.
nvidia.
com/cuda-downloads下载对应操作系统的cuda安装包.
下载后执行:chmod+xcuda_9.
0.
176_384.
81_linux.
run#使之具有可执行权限sudoshcuda_9.
0.
176_384.
81_linux.
run然后按照相关的提示输入安装路径即可,本文选择默认路径.
详细安装步骤可以参考CUDA9安装手册.
环境变量:cat/etc/profile.
d/cuda-env.
sh2exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportC_INCLUDE_PATH=/usr/local/cuda/include:$C_INCLUDE_PATH4NAMD编译和运行下载NAMD2.
1.
3文件:在NAMD官方网站可以下载,链接如下:http://www.
ks.
uiuc.
edu/Research/namd/2.
13/features.
html在releasenote中,介绍了该版本的NAMD一些新特性,点击downloadsite即可进入下载页面,注册后即可下载.
4.
1multicoreCUDA版二进制NAMD可执行文件我们在NAMD官网下载2.
13版本的multicoreCUDA版NAMD,下载链接如下:http://www.
ks.
uiuc.
edu/Development/Download/download.
cgi点击Linux-x86_64-multicore-CUDA(NVIDIACUDAacceleration)即可下载.
由于2.
1.
3版本的Linux-x86_64-multicore-CUDA是在CUDA8.
0下编译的二进制可执行文件,如果运行平台也是CUDA8.
0,可以直接运行,如果是更高的版本,需要从源码编译安装,请参考下面的安3装方法.
4.
2编译GPU版NAMD解压缩NAMD:tarxvfNAMD_Git-2018-04-06_Source.
tar.
gz#此文件实际为tar,没有gz后缀,因此参数为xvf,不需要xzvf.
NAMD压缩文件中包含Charm,继续解压:cdNAMD_Git-2018-04-06_Sourcetarxvfcharm-6.
8.
2.
tar下载并安装依赖库下载TCL和FFTW,下载链接如下:wgethttp://www.
ks.
uiuc.
edu/Research/namd/libraries/fftw-linux-x86_64.
tar.
gzwgethttp://www.
ks.
uiuc.
edu/Research/namd/libraries/tcl8.
5.
9-linux-x86_64.
tar.
gzwgethttp://www.
ks.
uiuc.
edu/Research/namd/libraries/tcl8.
5.
9-linux-x86_64-threaded.
tar.
gz安装命令如下:tarxzffftw-linux-x86_64.
tar.
gzmvlinux-x86_64fftwtarxzftcl*-linux-x86_64.
tar.
gztarxzftcl*-linux-x86_64-threaded.
tar.
gzmvtcl*-linux-x86_64tclmvtcl*-linux-x86_64-threadedtcl-threaded4.
2.
1编译charm++并行库charm++编译tarxvfcharm-6.
8.
2.
tarcdcharm-6.
8.
2/.
/buildcharm++verbs-linux-x86_64gccsmp--with-production#分布式计算模式4.
/buildcharm++multicore-linux64gcc--with-production#单节点multicore模式这里选择的是gcc编译器,也可以使用其他编译器,如icc,将上面的命令中的gcc替换为icc即可.
4.
2.
2编译GPU版NAMD主程序生成编译时参数如果编译单节点模式:.
/configLinux-x86_64-g++--charm-archmulticore-linux64-gcc--with-cuda--cuda-prefix/usr/local/cudacdLinux-x86_64-g++/make如果编译多节点并行模式:.
/configLinux-x86_64-g++--charm-archverbs-linux-x86_64-smp-gcc--with-cuda--cuda-prefix/usr/local/cudacdLinux-x86_64-g++/make开始编译程序make#编译完成后会生成charmrun,namd2等文件.
4.
3NAMD基于NGCDocker安装在NVIDIAGPUCloud(NGC)中,包含Namd的docker镜像文件,可以直接下载,导入Linuxdocker环境就可以使用.
5注册NGC填写注册信息:6登录NGC系统注册NGC后,登录NGC系统,就可以看到下图中所有的HPCApps的dockerimage镜像.
Dockerimage下载下载image镜像之前,先要获取APIkey:点击GetAPIKey,即可获得:7点击"GenerateAPIKey",并点击弹出对话框中的"Confirm",系统会生成一个APIKey作为nvcr.
io的登录密码,并复制该Password,用于登录:在Linux客户端登录方式如下,作者是在DGX-1平台下,Ubuntu16.
04的系统演示的,如下:8登录成功以后,就可以进行Namd容器下载,如下:将命令"dockerpullnvcr.
io/hpc/namd:2016.
4"复制到Linuxterminal:启动docker并运行Namd使用nvidia-docker命令查看Namd容器镜像信息.
9启动docker镜像:dgxsa@dgx1:~$nvidia-dockerrun--nameMyNamd-v/home/dgxsa/chengyi/share:/data-itnvcr.
io/hpc/namd:2.
12-171025/bin/bashdockerrunOptions-i-tor-it:交互式,连接到一个"tty"--name:给容器命名-v/home/dgxsa/chengyi/share:/data:将host主机的/home/dgxsa/chengyi/myshare存储目录映射到容器的data目录.
启动容器以后,就可以像在一台Linux服务器上操作了,里面已经配置好了所有运行环境,如果需要安装其他软件,可以使用命令:apt-getinstallxxxx进行安装.
如果想退出容器,可以使用命令:Ctrl+D如果想删除容器,可以使用命令:nvidia-dockerrmfd6c96ca0779;fd6c96ca0779为docker-ID如果想退出容器登录界面,但保持容器后台运行,可以使用命令:Ctrl+P,然后Ctrl+QTips:也可以将NAMD的container中/opt/namd文件夹下的可执行文件拷贝下来直接运行.
104.
4运行GPU版NAMD4.
4.
1配置NAMD文件使用NAMD网站上的标准算例,例如apoa1,然后修改算例的输入文件注释掉par_all22_prot_lipid.
xplor,CUDA版NAMD不支持NBFIX修改apoa1.
namd控制文件numsteps1000#总共模拟1000步outputtiming100#每100步输出一次时间信息outputenergies100#每100步输出一次能量,小于60时不能跑在GPU上4.
4.
2命令运行NAMD在GPU节点上运行namd程序当namd程序在GPU节点上运行的时候,每个进程都会在GPU上启动相应的线程在GPU上,使用nvidia-smi程序查看NAMD程序在GPU上的运行状态.
multicore运行/opt/namd/namd-multicore+p40+setcpuaffinity+idlepoll/namd_bench/apoa1/apoa1.
namd跨节点运行创建nodelist文件,按照如下的格式写如果是单个节点16核charmrun并行,格式如下:11dgxsa@dgx1:/raid/chengyi/share/test/apoa1$catnodelisthostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1hostdgx1/raid/chengyi/share/software/namd/charmrun++nodelistnodelist++p16++ppn16/raid/chengyi/share/software/namd/namd2.
12.
171025-verbs+setcpuaffinity+pemap1-7,9-15+commap0,8+devices0,1,2,3apoa1.
namd8个节点计算,每个节点2个进程,如下:dgxsa@dgx1:/raid/chengyi/share/test/apoa1$catnodelisthostnode01hostnode01hostnode02hostnode02hostnode03hostnode03hostnode04hostnode04hostnode05hostnode05hostnode06hostnode06hostnode07hostnode07hostnode08hostnode08跨界点运行namd程序,命令如下:/raid/chengyi/share/software/namd/charmrun++nodelistnodelist++p16++ppn2/raid/chengyi/share/software/namd/namd2.
12.
171025-verbs+setcpuaffinity+pemap1-7,9-15+commap0,8apoa1.
namd12{charmOpts}的参数说明:++nodelist{nodeListFile}–多节点运行需要指定的节点列表文件Charm++也支持++mpiexec参数,用于作业调度系统.
++p$totalPes–指定总的PE线程数++ppn$pesPerProcess–每个节点的线程数,推荐:#ofCoresPerNode/#ofGPUsPerNode–1,即[(每节点核数)/(每节点GPU数)]-1,留一个核心用于通信.
总进程数为$totalPes/$pesPerProcess{namdOpts}的参数说明:NAMD继承{charmOpts}后面设置的参数,如:'++p','++ppn','+p'如果没有{charmOpts},采用multi-core计算,使用'+p'设置计算的核数.
'+setcpuaffinity'选项是为了核绑定,不会到处跳动.
'+pemap#-#'–这是设置thread线程和CPU核心的映射.
'+commap#-#'–这是设置通信线程的范围.
范例:双CPU,每CPU16核心,参数设置如下:+setcpuaffinity+pemap1-15,17-31+commap0,16GPU选项:'+devices{CUDAIDs}'–指定NAMD调用的GPUID4.
4.
3作业运行脚本4.
4.
3.
1Slurm脚本范例#!
/bin/bash#SBATCH--job-namenamdtest#SBATCH--partitionlongqueue#SBATCH--nodes213#SBATCH--ntasks-per-node20#SBATCH--time00:10:00#SBATCH--outputnamd-test.
${SLURM_JOBID}.
out#chooseversionofNAMDtouseexportNAMD_DIR=/projects/username/NAMD/NAMD_2.
11_Linux-x86_64-ibverbs-smpexportPATH=$PATH:$NAMD_DIRcd/scratch/bhaddad/NAMD/Coeus_test#generateNAMDnodelistfornin`echo$SLURM_NODELIST|scontrolshowhostnames`;doecho"host$n++cpus19">>nodelist.
$SLURM_JOBIDdone#calculatetotalprocesses(P)andprocspernode(PPN)PPN=`expr$SLURM_NTASKS_PER_NODE-1`P="$(($PPN*$SLURM_NNODES))"charmrun++mpiexec++remote-shellsrun/home/bhaddad/NAMD_2.
12_Linux-x86_64-verbs-smp/namd2++p$P++ppn$PPN+setcpuaffinity+isomalloc_synctest.
conf4.
4.
3.
2PBS脚本范例#!
/bin/bash#PBS-qgpuqueue#PBS-lnodes=2:ppn=4#PBS-lwalltime=100:00:00#PBS-e${PBS_JOBID}.
err#PBS-o${PBS_JOBID}.
outcd$PBS_O_WORKDIRchmod+xjob.
sh.
/job.
shjob.
sh:#!
/bin/sh-xPROC_NUM=20#number_of_procesor_same_as_in_PBSechoecho"Runningon:$HOSTNAME"echoif["x$PBS_NODEFILE"!
="x"];thenecho"PBSNodefile:$PBS_NODEFILE"HOST_NODEFILE=$PBS_NODEFILEfiif["x$HOST_NODEFILE"="x"];thenecho"Nohostsfiledefined.
Exiting.
.
.
"exitfiecho"Creatinghostfile.
.
.
"exportNODES=`cat$PBS_NODEFILE`exportNODELIST=nodelist14echogroupmain>$NODELISTfornodein$NODES;doechohost$node++shellssh>>$NODELISTdoneecho"Nodelistfile:"cat$NODELISTexportNAMD_DIR=/projects/chengyi/NAMD/NAMD_2.
13_Linux-x86_64-ibverbs-smpexportPATH=$PATH:$NAMD_DIRcharmrun++remote-shellssh++nodelist$NODELIST+p$PROC_NUMnamd2apoa1.
namd4.
5标准算例测试4.
5.
1测试环境NVIDIADGX-1平台,操作系统:ubuntu16.
04无盘CPU:Intel(R)Xeon(R)CPUE5-2698v4@2.
20GHz内存:512GDDR4内存GPU:8*TeslaV100SXM2硬盘:480GSSDGPU驱动:CUDA-9.
0算例:apoa1标准算例和VDPV1算例.
4.
5.
2测试结果由于Apoal算例比较小,GPU利用率较低,所以加速效果不明显,对于计算规模更大的算例,可以获得明显的加速.
CPU进程数+GPU数Walltime(s)Speedup40+012.
3140+826.
730.
4640+414.
280.
8640+28.
791.
4040+16.
191.
9920+021.
231520+827.
190.
7820+414.
521.
4620+28.
582.
4820+15.
933.
5810+039.
8010+827.
041.
4710+414.
742.
7010+28.
814.
5210+16.
745.
90下面是另外一个测试算例VDPV1,共33万个原子,计算量而比较大:CPU进程数+GPU数Walltime(s)speedup40CPU+0801.
0640CPU+8127.
226.
3040CPU+4121.
266.
6140CPU+2132.
486.
0540CPU+1154.
395.
1916从这个算例可以发现,1块V100可以获得5.
2倍的加速,加速效果非常明显,此时通过nvidia-smi查看发现,GPU的实际利用率大约70~80%,2块GPU就只能获得6倍的加速,此时每块GPU的实际利用大约时候40-50%.
当4块以上GPU并行时,GPU的利用率只有20%左右,因此不能获得更高的加速,NAMD计算时,计算量和GPU数量匹配很重要.
在Apoal算例中,GPU的利用率都在10%以下,因此加速效果不是很明显.
注:NAMD在物理服务器上直接运行性能较好,使用apaol算例,40核,8块GPU,和物理机相比,dockercontainer会有11%左右的损失.

展开全文