作业私服服务器架设
私服服务器架设 时间:2021-01-18 阅读:(
)
TeslaGPU集群服务器使用手册v0.
93(2010-1-11)一、系统环境简介TeslaGPU集群服务器域名为tesla.
sccas.
cn,IP地址为159.
226.
49.
76(暂定),内部用户可以在办公网内直接使用SSH登录该集群,外部用户同样需要经过防火墙身份认证之后(认证过程请参见《深腾7000远程登录指南》)再进行SSH登录.
数据的上传与下载仍然是通过scp或者sftp方式进行.
TeslaGPU集群服务器的系统环境如下:1)硬件环境:头节点1个,机器名console,配备一颗IntelXeonE5504四核处理器,2.
0GHz主频,2*4MB缓存,8G内存,6块300GBSAS硬盘,工作于Raid5模式.
计算节点90个,存在两种不同硬件配置,其机器名分别如下:c0101-c0110、c0201-c0203、c0301-c0305(共18个节点)以上节点配置一颗AMDPhenom9850四核处理器,2.
5GHz主频,4*256KB二级缓存,4MB三级缓存,3块TeslaC1060GPU处理器,8GB内存,一块500GBSATA硬盘.
c0204-c0233、c0401-0442(共72个节点)以上节点配置一颗IntelXeonE5410四核处理器,2.
33GHz主频,2*6MB二级缓存,2块TeslaC1060GPU处理器,8GB内存,一块500GBSATA硬盘.
各节点间通过DDR4XInfiniband高速网络和千兆以太网进行连接,分别用于计算数据和系统管理信息的通讯.
2)软件环境:RHEL5.
3x64操作系统,内核版本2.
6.
18-128.
el5.
GNUC/C++/Fortran编译器.
NvidiaCUDAToolkit2.
1开发工具.
Mvapich/OpenMPI并行编程环境.
Atlas/GotoBlas数学函数库.
Torque/Maui资源管理系统及作业调度器.
Ganglia集群监控系统.
3)文件系统:除console外所有节点通过NFS挂载console的/export目录,包括console在内的所有节点的/home目录为/export/home目录的软链接.
由于文件系统性能不高,建议不要在该集群上运行会造成大规模并行或复杂I/O的应用程序.
二、程序开发及调试环境1)基本编译环境目前在TeslaGPU集群上各节点均提供用于编译通用程序代码的GCC编译器,能够编译C/C++/Fortran程序,对应的命令为gcc/g++/gfortran,该编译器为系统默认安装,安装路径位于/usr下.
另外在所有计算节点(不包括console)可以使用NvidiaCUDAToolkit开发工具包提供的用于编译CUDAGPU加速程序CUDA编译器,对应的命令为nvcc.
NvidiaCUDAToolkit安装在/export/cuda下,在计算节点上不用再另外设置环境变量,console上无法使用.
2)并行程序编译环境TeslaGPU集群上安装了两套开源MPI编译并行环境,即Mvapich和OpenMPI,用户需要在自己主目录下建立名为.
mpi_type文件(该文件为隐藏文件),在文件中指明使用哪套并行环境.
如果该文件不存在或不合法,系统将默认使用Mvapich并行编译环境.
~/.
mpi_type文件示例如下:#Herewesetopenmpienvironment.
MPITYPE="openmpi"(注:修改完.
mpi_type文件之后,需要退出并重新登录系统才能使设置生效)要查看当前并行编译环境设置是否生效,可以简单的执行"whichmpicc"并通过返回信息中的路径来进行判定.
三、作业提交运行TeslaGPU集群目前安装的是Torque资源管理系统和Maui作业调度器.
Torque是著名的开源软件OpenPBS的后续开源版本(PBSPro是OpenPBS的商业化版本),命令基本兼容于OpenPBS和PBSPro.
Maui则是一套通用的集群作业调度器,可以结合各种资源管理系统进行安装,并为集群实现复杂的可配置的作业调度功能.
Torque资源管理系统和Maui调度器的官方网站是:http://www.
clusterresources.
com/pages/products/torque-resource-manager.
phphttp://www.
clusterresources.
com/products/maui-cluster-scheduler.
php在上面的网站上可以下载这两个软件的源码和配置使用文档.
如需进一步了解,可自行进行下载和阅读学习.
下面简单说明如何在TeslaGPU集群上使用Torque提交运行作业:1)作业脚本在Torque中,作业脚本用来描述运行作业(程序)所需执行的命令和程序,也可以用来配置该作业的参数(参数一般在提交作业时通过命令行直接指定).
用户通过使用qusb提交该作业脚本,使脚本文件中所写的程序和命令得到执行.
(与深腾上的LSF不同,bsub直接提交可执行程序的名称,这一点请区分开)实际上,当作业得到调度执行之后,系统将远程登录到被分配的主计算节点并执行所提交的作业脚本中的内容.
特别需要注意的是,与平时正常登录一样,在执行作业时系统自动远程登录计算节点后的初始目录(也就是开始执行作业脚本时的目录)仍然是用户的主目录,而不是用户提交作业时所在的目录.
而用户提交作业时所在的目录则被保存为$PBS_O_WORKDIR环境变量传递给执行作业的登录进程.
因此,当用户提前作业时的工作目录不是用户的主目录时,作业脚本里正式内容的第一句,通常应该是将工作目录切换至之前提交作业的目录,即:cd$PBS_O_WORKDIR对于串行程序和纯OpenMP并行程序,作业脚本只需按照的shell脚本书写方法,在脚本中调用程序使其执行即可,假设程序名为当前目录的foo_se,则脚本中可以这么写(文件名请任意指定):#假设该脚本文件名为job.
sh1cd$PBS_O_WORKDIR#如果是OpenMP程序,此处先设置OpenMP执行变量.
/foo_searg1arg2.
.
.
对于MPI并行程序,在计算化学集群上的Torque系统中是通过mpiexec软件包使程序得到执行,调用该软件包的过程已经封装在了mpijob这个命令脚本中.
mpijob命令默认以Mvapich方式执行MPI程序.
如并行环境配置使用的是OpenMPI的话,则需加上相应的-openmpi参数.
如:#假设该脚本文件名为job.
sh2cd$PBS_O_WORKDIR#执行Mvapich并行程序mpijob.
/foo_mpi_mvaarg1arg2.
.
.
或是:#假设该脚本文件名为job.
sh3cd$PBS_O_WORKDIR#执行OpenMPI并行程序mpijob-openmpi.
/foo_mpi_openarg1arg2.
.
.
2)作业提交对于Torque系统,使用qsub命令提交作业,最常用的格式如下:qsub-lnodes=X:ppn=Y-qQUEUESCRIPT其中X代表所需节点数,Y代表每节点使用CPU数,QUEUE代表队列名,SCRIPT是作业脚本名.
TeslaGPU集群中目前有三个队列,分别如下:队列名资源配置最小规模默认规模最大规模最大时长默认时长all集群中所有计算节点4x14x4@intel90x4不超过7天1天amd18个AMD平台计算节点1x11x416x4不超过7天2天intel72个Intel平台计算节点1x11x436x4不超过7天2天其中,amd队列是默认队列,所有没有使用-q参数指定提交到哪个队列的作业将会被提交到amd队列当中.
另外,如果作业提交到all队列,Torque在默认情况下将随机分配空闲节点给作业运行,而不去管该节点是什么平台的处理器.
用名可以在提交作业时使用-l参数并且再加上:amd或:intel选项,即-lnodes=X:ppn=Y:intel或-lnodes=X:ppn=Y:amd,这样就能够指定使用何种平台的计算节点运行作业.
如果需要混合使用两种不同平台的节点,可以通过指定-lnodes=X1:ppn=Y1:intel+X2:ppn=Y2:amd,这样系统就会将作业分配X1个intel节点和X2个amd节点上运行.
作业提交举例如下(例中job.
sh1、job.
sh2、job.
sh3脚本为前面举例所写的脚本):qsub-lnodes=1:ppn=1-qamdjob.
sh1(job.
sh1是之前所写串行程序脚本,即使用单个AMD平台节点上的单个CPU核心执行作业)qsub-lnodes=2:ppn=4-qinteljob.
sh2(使用2个Intel平台的计算节点,每节点占用4个CPU核心,共8个核心执行MPI并行程序,job.
sh2中指定用Mvapich并行环境执行)qsub-lnodes=4:ppn=4:amd+8:ppn=4:intel,walltime=3:0:0-qallsh3(使用4个AMD平台的计算节点,每节点占用4个CPU核心,以及8个Intel平台的计算节点,每节点也占用4个CPU核心来运行作业,并且设置作业时长为3天.
这样一共使用了12x4=48个CPU核心,并且使用OpenMPI并行环境执行)qsub提交作业后,系统返回'1051.
console'类似的输出,其中前面的数字1051代表作业号,作业号是Torque系统中每个作业所拥有的唯一的代号.
需要提示的是,如果程序执行过程中有标准输入过程(比如需要从键盘输入指定变量),那么建议自行使用重定向方式将其从文件输入.
当然,qsub同样提供-I参数进行交互式作业提交,具体使用方法在此不再详叙,可参考官方手册自行尝试.
3)作业状态查看使用qstat命令,可以看到系统中所有正在排队和运行的作业,qstat默认输出类似以下信息:JobidNameUserTimeUseSQueue1056.
consolejob.
sh1user110:02:03Camd1057.
consolejob.
sh2user225:13:27Rintel1061.
consolejob.
sh3user40Rall1062.
consolejob.
sh4user10Qintel上述信息分别代表的含义是作业号,作业名(默认为脚本名),用户名,使用CPU时间,状态(常用状态:R代表运行,Q代表排队,E代表正在退出,H代表挂起,C代表运行完毕),队列名.
如需查看指定作业号的作业,执行:qstatjobid1jobid2.
.
.
jobid1和jobid2代表指定作业号,可以一次查看多个作业.
如需查看指定用户的作业,可以使用参数-u:qstat-uuser1该方式输出和默认略有不同,但大同小异.
如需查看特定作业详细信息,则应使用-f参数:qstat-fjobid该命令将会输出作业号为jobid的作业的详细信息.
4)作业挂起、释放和删除使用qhold命令可以挂起作业,使其不被调度执行;使用qrls命令可以将挂起的作业释放,使之可以被调度执行;而使用qdel命令即可删除作业,不论该作业是否正在运行当中.
这些命令的具体格式为:qholdjobid1jobid2.
.
.
qrlsjobid1jobid2.
.
.
qdeljobid1jobid2.
.
.
其中jobidX代表需要操作的作业号,可以一次操作多个作业.
5)作业的输出结果作业运行完成或异常退出之后,在用户提交作业的目录下会生成'jobname'.
o'jobid'以及'jobname'.
e'jobid'两个文件(比如sh1.
o1066和sh1.
e1066),分别记录作业执行时写往标准输出设备和标准错误输出设备的输出信息,其中jobname是作业名,默认则是提交作业时的作业脚本名,jobid则是作业号.
用户可以通过这两个文件查看和验证程序运行的结果.
同时,建议在编写程序时尽量将程序运行结果输出到特定的磁盘文件而不是标准输出(屏幕).
以上是Torque作业资源管理系统常用到的一些基本操作,更加复杂的操作可以参考Torque官方网站上提供的文档.
另外,如果遇到作业不能正常提交、作业提交后不能被正常调度以及在使用mpijob命令配合Torque运行MPI并行程序时遇到了程序不能正确被执行的错误(指的是没有得到系统的正确执行,而非程序本身的错误)等异常情况,请及时来信或来电反馈相关信息,谢谢大家配合.
该文档如有遗漏或不当之处,请随时批评指出,谢谢.
raksmart作为一家老牌美国机房总是被很多人问到raksmart香港服务器怎么样、raksmart好不好?其实,这也好理解。香港服务器离大陆最近、理论上是不需要备案的服务器里面速度最快的,被过多关注也就在情理之中了。本着为大家趟雷就是本站的光荣这一理念,拿了一台raksmart的香港独立服务器,简单做个测评,分享下实测的数据,仅供参考!官方网站:https://www.raksmart.com...
优林怎么样?优林好不好?优林 是一家国人VPS主机商,成立于2016年,主营国内外服务器产品。云服务器基于hyper-v和kvm虚拟架构,国内速度还不错。今天优林给我们带来促销的是国内东北地区哈尔滨云服务器!全部是独享带宽!首月5折 续费5折续费!地区CPU内存硬盘带宽价格购买哈尔滨电信2核2G50G1M53元直达链接哈尔滨电信4核4G50G1M83元直达链接哈尔滨电信8核8G50G1M131元直...
UCloud优刻得商家这几年应该已经被我们不少的个人站长用户认知,且确实在当下阿里云、腾讯云服务商不断的只促销服务于新用户活动,给我们很多老用户折扣的空间不多。于是,我们可以通过拓展选择其他同类服务商享受新人的福利,这里其中之一就选择UCloud商家。UCloud服务商2020年创业板上市的,实际上很早就有认识到,那时候价格高的离谱,谁让他们只服务有钱的企业用户呢。这里希望融入到我们大众消费者,你...
私服服务器架设为你推荐
服务器租用武汉服务器 想要租个服务器,不知道哪个公司的比较好啊,我是湖北的。。急。。。国内域名注册国内最靠谱的域名注册商是哪个?空间租用网站空间申请是免费的吗?还有就是使用租用空间,这种便宜空间好使吗?免费国内空间现在国内比较好的免费网站空间有那个啊?域名服务什么叫主域名服务器?ip代理地址ip代理有什么用?有图片..美国服务器托管美国服务器托管好还是租用好空间域名空间和域名是什么?海外域名外贸网站如何选择合适的海外域名?香港虚拟空间香港虚拟空间 好不、现在还有人买嘛
免费域名注册 vps优惠码cnyvps 如何申请免费域名 enzu singlehop mach5 腾讯云数据库 监控宝 万网优惠券 12306抢票助手 idc是什么 可外链网盘 免费网页申请 百度云空间 工信部icp备案查询 云服务是什么意思 卡巴斯基官网下载 杭州电信 hdroad 开心online 更多