作业私服服务器架设
私服服务器架设 时间:2021-01-18 阅读:(
)
TeslaGPU集群服务器使用手册v0.
93(2010-1-11)一、系统环境简介TeslaGPU集群服务器域名为tesla.
sccas.
cn,IP地址为159.
226.
49.
76(暂定),内部用户可以在办公网内直接使用SSH登录该集群,外部用户同样需要经过防火墙身份认证之后(认证过程请参见《深腾7000远程登录指南》)再进行SSH登录.
数据的上传与下载仍然是通过scp或者sftp方式进行.
TeslaGPU集群服务器的系统环境如下:1)硬件环境:头节点1个,机器名console,配备一颗IntelXeonE5504四核处理器,2.
0GHz主频,2*4MB缓存,8G内存,6块300GBSAS硬盘,工作于Raid5模式.
计算节点90个,存在两种不同硬件配置,其机器名分别如下:c0101-c0110、c0201-c0203、c0301-c0305(共18个节点)以上节点配置一颗AMDPhenom9850四核处理器,2.
5GHz主频,4*256KB二级缓存,4MB三级缓存,3块TeslaC1060GPU处理器,8GB内存,一块500GBSATA硬盘.
c0204-c0233、c0401-0442(共72个节点)以上节点配置一颗IntelXeonE5410四核处理器,2.
33GHz主频,2*6MB二级缓存,2块TeslaC1060GPU处理器,8GB内存,一块500GBSATA硬盘.
各节点间通过DDR4XInfiniband高速网络和千兆以太网进行连接,分别用于计算数据和系统管理信息的通讯.
2)软件环境:RHEL5.
3x64操作系统,内核版本2.
6.
18-128.
el5.
GNUC/C++/Fortran编译器.
NvidiaCUDAToolkit2.
1开发工具.
Mvapich/OpenMPI并行编程环境.
Atlas/GotoBlas数学函数库.
Torque/Maui资源管理系统及作业调度器.
Ganglia集群监控系统.
3)文件系统:除console外所有节点通过NFS挂载console的/export目录,包括console在内的所有节点的/home目录为/export/home目录的软链接.
由于文件系统性能不高,建议不要在该集群上运行会造成大规模并行或复杂I/O的应用程序.
二、程序开发及调试环境1)基本编译环境目前在TeslaGPU集群上各节点均提供用于编译通用程序代码的GCC编译器,能够编译C/C++/Fortran程序,对应的命令为gcc/g++/gfortran,该编译器为系统默认安装,安装路径位于/usr下.
另外在所有计算节点(不包括console)可以使用NvidiaCUDAToolkit开发工具包提供的用于编译CUDAGPU加速程序CUDA编译器,对应的命令为nvcc.
NvidiaCUDAToolkit安装在/export/cuda下,在计算节点上不用再另外设置环境变量,console上无法使用.
2)并行程序编译环境TeslaGPU集群上安装了两套开源MPI编译并行环境,即Mvapich和OpenMPI,用户需要在自己主目录下建立名为.
mpi_type文件(该文件为隐藏文件),在文件中指明使用哪套并行环境.
如果该文件不存在或不合法,系统将默认使用Mvapich并行编译环境.
~/.
mpi_type文件示例如下:#Herewesetopenmpienvironment.
MPITYPE="openmpi"(注:修改完.
mpi_type文件之后,需要退出并重新登录系统才能使设置生效)要查看当前并行编译环境设置是否生效,可以简单的执行"whichmpicc"并通过返回信息中的路径来进行判定.
三、作业提交运行TeslaGPU集群目前安装的是Torque资源管理系统和Maui作业调度器.
Torque是著名的开源软件OpenPBS的后续开源版本(PBSPro是OpenPBS的商业化版本),命令基本兼容于OpenPBS和PBSPro.
Maui则是一套通用的集群作业调度器,可以结合各种资源管理系统进行安装,并为集群实现复杂的可配置的作业调度功能.
Torque资源管理系统和Maui调度器的官方网站是:http://www.
clusterresources.
com/pages/products/torque-resource-manager.
phphttp://www.
clusterresources.
com/products/maui-cluster-scheduler.
php在上面的网站上可以下载这两个软件的源码和配置使用文档.
如需进一步了解,可自行进行下载和阅读学习.
下面简单说明如何在TeslaGPU集群上使用Torque提交运行作业:1)作业脚本在Torque中,作业脚本用来描述运行作业(程序)所需执行的命令和程序,也可以用来配置该作业的参数(参数一般在提交作业时通过命令行直接指定).
用户通过使用qusb提交该作业脚本,使脚本文件中所写的程序和命令得到执行.
(与深腾上的LSF不同,bsub直接提交可执行程序的名称,这一点请区分开)实际上,当作业得到调度执行之后,系统将远程登录到被分配的主计算节点并执行所提交的作业脚本中的内容.
特别需要注意的是,与平时正常登录一样,在执行作业时系统自动远程登录计算节点后的初始目录(也就是开始执行作业脚本时的目录)仍然是用户的主目录,而不是用户提交作业时所在的目录.
而用户提交作业时所在的目录则被保存为$PBS_O_WORKDIR环境变量传递给执行作业的登录进程.
因此,当用户提前作业时的工作目录不是用户的主目录时,作业脚本里正式内容的第一句,通常应该是将工作目录切换至之前提交作业的目录,即:cd$PBS_O_WORKDIR对于串行程序和纯OpenMP并行程序,作业脚本只需按照的shell脚本书写方法,在脚本中调用程序使其执行即可,假设程序名为当前目录的foo_se,则脚本中可以这么写(文件名请任意指定):#假设该脚本文件名为job.
sh1cd$PBS_O_WORKDIR#如果是OpenMP程序,此处先设置OpenMP执行变量.
/foo_searg1arg2.
.
.
对于MPI并行程序,在计算化学集群上的Torque系统中是通过mpiexec软件包使程序得到执行,调用该软件包的过程已经封装在了mpijob这个命令脚本中.
mpijob命令默认以Mvapich方式执行MPI程序.
如并行环境配置使用的是OpenMPI的话,则需加上相应的-openmpi参数.
如:#假设该脚本文件名为job.
sh2cd$PBS_O_WORKDIR#执行Mvapich并行程序mpijob.
/foo_mpi_mvaarg1arg2.
.
.
或是:#假设该脚本文件名为job.
sh3cd$PBS_O_WORKDIR#执行OpenMPI并行程序mpijob-openmpi.
/foo_mpi_openarg1arg2.
.
.
2)作业提交对于Torque系统,使用qsub命令提交作业,最常用的格式如下:qsub-lnodes=X:ppn=Y-qQUEUESCRIPT其中X代表所需节点数,Y代表每节点使用CPU数,QUEUE代表队列名,SCRIPT是作业脚本名.
TeslaGPU集群中目前有三个队列,分别如下:队列名资源配置最小规模默认规模最大规模最大时长默认时长all集群中所有计算节点4x14x4@intel90x4不超过7天1天amd18个AMD平台计算节点1x11x416x4不超过7天2天intel72个Intel平台计算节点1x11x436x4不超过7天2天其中,amd队列是默认队列,所有没有使用-q参数指定提交到哪个队列的作业将会被提交到amd队列当中.
另外,如果作业提交到all队列,Torque在默认情况下将随机分配空闲节点给作业运行,而不去管该节点是什么平台的处理器.
用名可以在提交作业时使用-l参数并且再加上:amd或:intel选项,即-lnodes=X:ppn=Y:intel或-lnodes=X:ppn=Y:amd,这样就能够指定使用何种平台的计算节点运行作业.
如果需要混合使用两种不同平台的节点,可以通过指定-lnodes=X1:ppn=Y1:intel+X2:ppn=Y2:amd,这样系统就会将作业分配X1个intel节点和X2个amd节点上运行.
作业提交举例如下(例中job.
sh1、job.
sh2、job.
sh3脚本为前面举例所写的脚本):qsub-lnodes=1:ppn=1-qamdjob.
sh1(job.
sh1是之前所写串行程序脚本,即使用单个AMD平台节点上的单个CPU核心执行作业)qsub-lnodes=2:ppn=4-qinteljob.
sh2(使用2个Intel平台的计算节点,每节点占用4个CPU核心,共8个核心执行MPI并行程序,job.
sh2中指定用Mvapich并行环境执行)qsub-lnodes=4:ppn=4:amd+8:ppn=4:intel,walltime=3:0:0-qallsh3(使用4个AMD平台的计算节点,每节点占用4个CPU核心,以及8个Intel平台的计算节点,每节点也占用4个CPU核心来运行作业,并且设置作业时长为3天.
这样一共使用了12x4=48个CPU核心,并且使用OpenMPI并行环境执行)qsub提交作业后,系统返回'1051.
console'类似的输出,其中前面的数字1051代表作业号,作业号是Torque系统中每个作业所拥有的唯一的代号.
需要提示的是,如果程序执行过程中有标准输入过程(比如需要从键盘输入指定变量),那么建议自行使用重定向方式将其从文件输入.
当然,qsub同样提供-I参数进行交互式作业提交,具体使用方法在此不再详叙,可参考官方手册自行尝试.
3)作业状态查看使用qstat命令,可以看到系统中所有正在排队和运行的作业,qstat默认输出类似以下信息:JobidNameUserTimeUseSQueue1056.
consolejob.
sh1user110:02:03Camd1057.
consolejob.
sh2user225:13:27Rintel1061.
consolejob.
sh3user40Rall1062.
consolejob.
sh4user10Qintel上述信息分别代表的含义是作业号,作业名(默认为脚本名),用户名,使用CPU时间,状态(常用状态:R代表运行,Q代表排队,E代表正在退出,H代表挂起,C代表运行完毕),队列名.
如需查看指定作业号的作业,执行:qstatjobid1jobid2.
.
.
jobid1和jobid2代表指定作业号,可以一次查看多个作业.
如需查看指定用户的作业,可以使用参数-u:qstat-uuser1该方式输出和默认略有不同,但大同小异.
如需查看特定作业详细信息,则应使用-f参数:qstat-fjobid该命令将会输出作业号为jobid的作业的详细信息.
4)作业挂起、释放和删除使用qhold命令可以挂起作业,使其不被调度执行;使用qrls命令可以将挂起的作业释放,使之可以被调度执行;而使用qdel命令即可删除作业,不论该作业是否正在运行当中.
这些命令的具体格式为:qholdjobid1jobid2.
.
.
qrlsjobid1jobid2.
.
.
qdeljobid1jobid2.
.
.
其中jobidX代表需要操作的作业号,可以一次操作多个作业.
5)作业的输出结果作业运行完成或异常退出之后,在用户提交作业的目录下会生成'jobname'.
o'jobid'以及'jobname'.
e'jobid'两个文件(比如sh1.
o1066和sh1.
e1066),分别记录作业执行时写往标准输出设备和标准错误输出设备的输出信息,其中jobname是作业名,默认则是提交作业时的作业脚本名,jobid则是作业号.
用户可以通过这两个文件查看和验证程序运行的结果.
同时,建议在编写程序时尽量将程序运行结果输出到特定的磁盘文件而不是标准输出(屏幕).
以上是Torque作业资源管理系统常用到的一些基本操作,更加复杂的操作可以参考Torque官方网站上提供的文档.
另外,如果遇到作业不能正常提交、作业提交后不能被正常调度以及在使用mpijob命令配合Torque运行MPI并行程序时遇到了程序不能正确被执行的错误(指的是没有得到系统的正确执行,而非程序本身的错误)等异常情况,请及时来信或来电反馈相关信息,谢谢大家配合.
该文档如有遗漏或不当之处,请随时批评指出,谢谢.
古德云(goodkvm)怎么样?古德云是一家成立于2020年的商家,原名(锤子云),古德云主要出售VPS服务器、独立服务器。古德云主打产品是香港cn2弹性云及美西cn2云服务器,采用的是kvm虚拟化构架,硬盘Raid10。目前,古德云香港沙田cn2机房及美国五星级机房云服务器,2核2G,40G系统盘+50G数据盘,仅35元/月起,性价比较高,可以入手!点击进入:古德云goodkvm官方网站地址古德...
商家介绍:星梦云怎么样,星梦云好不好,资质齐全,IDC/ISP均有,从星梦云这边租的服务器均可以备案,属于一手资源,高防机柜、大带宽、高防IP业务,一手整C IP段,四川电信,星梦云专注四川高防服务器,成都服务器,雅安服务器,。活动优惠促销:1、成都电信夏日激情大宽带活动机(封锁UDP,不可解封):机房CPU内存硬盘带宽IP防护流量原价活动价开通方式成都电信优化线路2vCPU2G40G+60G21...
前天,还有在"Hostodo商家提供两款大流量美国VPS主机 可选拉斯维加斯和迈阿密"文章中提到有提供两款流量较大的套餐,这里今天看到有发布四款庆祝独立日的七月份的活动,最低年付VPS主机13.99美元,如果有需要年付便宜VPS主机的可以选择商家。目前,Hostodo机房可选拉斯维加斯和迈阿密两个数据中心,且都是基于KVM虚拟+NVMe整列,年付送DirectAdmin授权,需要发工单申请。(如何...
私服服务器架设为你推荐
网络域名注册如何注册网络域名网站空间租赁网站空间租用费多少中国互联网域名注册负责我国境内internet用户域名注册是什么机构网络服务器租用现在网站服务器租赁一年多少钱?海外主机美国主机与国内主机有哪些区别免费国外空间哪些免费的国外空间最好?速度快.功能大?免费国内空间网站免费空间(国内的)那里有?域名注册查询如何查域名有没有被注册北京网站空间网站空间哪里的好,山东虚拟主机山东东营制作网站的公司在哪里?
老域名失效请用户记下 北京vps 最便宜虚拟主机 腾讯云盘 zpanel kdata 美国主机论坛 便宜建站 表单样式 12u机柜尺寸 NetSpeeder 北京主机 ca4249 cpanel空间 太原联通测速平台 河南移动邮件系统 腾讯云分析 200g硬盘 域名转接 可外链网盘 更多