作业私服服务器架设
私服服务器架设 时间:2021-01-18 阅读:(
)
TeslaGPU集群服务器使用手册v0.
93(2010-1-11)一、系统环境简介TeslaGPU集群服务器域名为tesla.
sccas.
cn,IP地址为159.
226.
49.
76(暂定),内部用户可以在办公网内直接使用SSH登录该集群,外部用户同样需要经过防火墙身份认证之后(认证过程请参见《深腾7000远程登录指南》)再进行SSH登录.
数据的上传与下载仍然是通过scp或者sftp方式进行.
TeslaGPU集群服务器的系统环境如下:1)硬件环境:头节点1个,机器名console,配备一颗IntelXeonE5504四核处理器,2.
0GHz主频,2*4MB缓存,8G内存,6块300GBSAS硬盘,工作于Raid5模式.
计算节点90个,存在两种不同硬件配置,其机器名分别如下:c0101-c0110、c0201-c0203、c0301-c0305(共18个节点)以上节点配置一颗AMDPhenom9850四核处理器,2.
5GHz主频,4*256KB二级缓存,4MB三级缓存,3块TeslaC1060GPU处理器,8GB内存,一块500GBSATA硬盘.
c0204-c0233、c0401-0442(共72个节点)以上节点配置一颗IntelXeonE5410四核处理器,2.
33GHz主频,2*6MB二级缓存,2块TeslaC1060GPU处理器,8GB内存,一块500GBSATA硬盘.
各节点间通过DDR4XInfiniband高速网络和千兆以太网进行连接,分别用于计算数据和系统管理信息的通讯.
2)软件环境:RHEL5.
3x64操作系统,内核版本2.
6.
18-128.
el5.
GNUC/C++/Fortran编译器.
NvidiaCUDAToolkit2.
1开发工具.
Mvapich/OpenMPI并行编程环境.
Atlas/GotoBlas数学函数库.
Torque/Maui资源管理系统及作业调度器.
Ganglia集群监控系统.
3)文件系统:除console外所有节点通过NFS挂载console的/export目录,包括console在内的所有节点的/home目录为/export/home目录的软链接.
由于文件系统性能不高,建议不要在该集群上运行会造成大规模并行或复杂I/O的应用程序.
二、程序开发及调试环境1)基本编译环境目前在TeslaGPU集群上各节点均提供用于编译通用程序代码的GCC编译器,能够编译C/C++/Fortran程序,对应的命令为gcc/g++/gfortran,该编译器为系统默认安装,安装路径位于/usr下.
另外在所有计算节点(不包括console)可以使用NvidiaCUDAToolkit开发工具包提供的用于编译CUDAGPU加速程序CUDA编译器,对应的命令为nvcc.
NvidiaCUDAToolkit安装在/export/cuda下,在计算节点上不用再另外设置环境变量,console上无法使用.
2)并行程序编译环境TeslaGPU集群上安装了两套开源MPI编译并行环境,即Mvapich和OpenMPI,用户需要在自己主目录下建立名为.
mpi_type文件(该文件为隐藏文件),在文件中指明使用哪套并行环境.
如果该文件不存在或不合法,系统将默认使用Mvapich并行编译环境.
~/.
mpi_type文件示例如下:#Herewesetopenmpienvironment.
MPITYPE="openmpi"(注:修改完.
mpi_type文件之后,需要退出并重新登录系统才能使设置生效)要查看当前并行编译环境设置是否生效,可以简单的执行"whichmpicc"并通过返回信息中的路径来进行判定.
三、作业提交运行TeslaGPU集群目前安装的是Torque资源管理系统和Maui作业调度器.
Torque是著名的开源软件OpenPBS的后续开源版本(PBSPro是OpenPBS的商业化版本),命令基本兼容于OpenPBS和PBSPro.
Maui则是一套通用的集群作业调度器,可以结合各种资源管理系统进行安装,并为集群实现复杂的可配置的作业调度功能.
Torque资源管理系统和Maui调度器的官方网站是:http://www.
clusterresources.
com/pages/products/torque-resource-manager.
phphttp://www.
clusterresources.
com/products/maui-cluster-scheduler.
php在上面的网站上可以下载这两个软件的源码和配置使用文档.
如需进一步了解,可自行进行下载和阅读学习.
下面简单说明如何在TeslaGPU集群上使用Torque提交运行作业:1)作业脚本在Torque中,作业脚本用来描述运行作业(程序)所需执行的命令和程序,也可以用来配置该作业的参数(参数一般在提交作业时通过命令行直接指定).
用户通过使用qusb提交该作业脚本,使脚本文件中所写的程序和命令得到执行.
(与深腾上的LSF不同,bsub直接提交可执行程序的名称,这一点请区分开)实际上,当作业得到调度执行之后,系统将远程登录到被分配的主计算节点并执行所提交的作业脚本中的内容.
特别需要注意的是,与平时正常登录一样,在执行作业时系统自动远程登录计算节点后的初始目录(也就是开始执行作业脚本时的目录)仍然是用户的主目录,而不是用户提交作业时所在的目录.
而用户提交作业时所在的目录则被保存为$PBS_O_WORKDIR环境变量传递给执行作业的登录进程.
因此,当用户提前作业时的工作目录不是用户的主目录时,作业脚本里正式内容的第一句,通常应该是将工作目录切换至之前提交作业的目录,即:cd$PBS_O_WORKDIR对于串行程序和纯OpenMP并行程序,作业脚本只需按照的shell脚本书写方法,在脚本中调用程序使其执行即可,假设程序名为当前目录的foo_se,则脚本中可以这么写(文件名请任意指定):#假设该脚本文件名为job.
sh1cd$PBS_O_WORKDIR#如果是OpenMP程序,此处先设置OpenMP执行变量.
/foo_searg1arg2.
.
.
对于MPI并行程序,在计算化学集群上的Torque系统中是通过mpiexec软件包使程序得到执行,调用该软件包的过程已经封装在了mpijob这个命令脚本中.
mpijob命令默认以Mvapich方式执行MPI程序.
如并行环境配置使用的是OpenMPI的话,则需加上相应的-openmpi参数.
如:#假设该脚本文件名为job.
sh2cd$PBS_O_WORKDIR#执行Mvapich并行程序mpijob.
/foo_mpi_mvaarg1arg2.
.
.
或是:#假设该脚本文件名为job.
sh3cd$PBS_O_WORKDIR#执行OpenMPI并行程序mpijob-openmpi.
/foo_mpi_openarg1arg2.
.
.
2)作业提交对于Torque系统,使用qsub命令提交作业,最常用的格式如下:qsub-lnodes=X:ppn=Y-qQUEUESCRIPT其中X代表所需节点数,Y代表每节点使用CPU数,QUEUE代表队列名,SCRIPT是作业脚本名.
TeslaGPU集群中目前有三个队列,分别如下:队列名资源配置最小规模默认规模最大规模最大时长默认时长all集群中所有计算节点4x14x4@intel90x4不超过7天1天amd18个AMD平台计算节点1x11x416x4不超过7天2天intel72个Intel平台计算节点1x11x436x4不超过7天2天其中,amd队列是默认队列,所有没有使用-q参数指定提交到哪个队列的作业将会被提交到amd队列当中.
另外,如果作业提交到all队列,Torque在默认情况下将随机分配空闲节点给作业运行,而不去管该节点是什么平台的处理器.
用名可以在提交作业时使用-l参数并且再加上:amd或:intel选项,即-lnodes=X:ppn=Y:intel或-lnodes=X:ppn=Y:amd,这样就能够指定使用何种平台的计算节点运行作业.
如果需要混合使用两种不同平台的节点,可以通过指定-lnodes=X1:ppn=Y1:intel+X2:ppn=Y2:amd,这样系统就会将作业分配X1个intel节点和X2个amd节点上运行.
作业提交举例如下(例中job.
sh1、job.
sh2、job.
sh3脚本为前面举例所写的脚本):qsub-lnodes=1:ppn=1-qamdjob.
sh1(job.
sh1是之前所写串行程序脚本,即使用单个AMD平台节点上的单个CPU核心执行作业)qsub-lnodes=2:ppn=4-qinteljob.
sh2(使用2个Intel平台的计算节点,每节点占用4个CPU核心,共8个核心执行MPI并行程序,job.
sh2中指定用Mvapich并行环境执行)qsub-lnodes=4:ppn=4:amd+8:ppn=4:intel,walltime=3:0:0-qallsh3(使用4个AMD平台的计算节点,每节点占用4个CPU核心,以及8个Intel平台的计算节点,每节点也占用4个CPU核心来运行作业,并且设置作业时长为3天.
这样一共使用了12x4=48个CPU核心,并且使用OpenMPI并行环境执行)qsub提交作业后,系统返回'1051.
console'类似的输出,其中前面的数字1051代表作业号,作业号是Torque系统中每个作业所拥有的唯一的代号.
需要提示的是,如果程序执行过程中有标准输入过程(比如需要从键盘输入指定变量),那么建议自行使用重定向方式将其从文件输入.
当然,qsub同样提供-I参数进行交互式作业提交,具体使用方法在此不再详叙,可参考官方手册自行尝试.
3)作业状态查看使用qstat命令,可以看到系统中所有正在排队和运行的作业,qstat默认输出类似以下信息:JobidNameUserTimeUseSQueue1056.
consolejob.
sh1user110:02:03Camd1057.
consolejob.
sh2user225:13:27Rintel1061.
consolejob.
sh3user40Rall1062.
consolejob.
sh4user10Qintel上述信息分别代表的含义是作业号,作业名(默认为脚本名),用户名,使用CPU时间,状态(常用状态:R代表运行,Q代表排队,E代表正在退出,H代表挂起,C代表运行完毕),队列名.
如需查看指定作业号的作业,执行:qstatjobid1jobid2.
.
.
jobid1和jobid2代表指定作业号,可以一次查看多个作业.
如需查看指定用户的作业,可以使用参数-u:qstat-uuser1该方式输出和默认略有不同,但大同小异.
如需查看特定作业详细信息,则应使用-f参数:qstat-fjobid该命令将会输出作业号为jobid的作业的详细信息.
4)作业挂起、释放和删除使用qhold命令可以挂起作业,使其不被调度执行;使用qrls命令可以将挂起的作业释放,使之可以被调度执行;而使用qdel命令即可删除作业,不论该作业是否正在运行当中.
这些命令的具体格式为:qholdjobid1jobid2.
.
.
qrlsjobid1jobid2.
.
.
qdeljobid1jobid2.
.
.
其中jobidX代表需要操作的作业号,可以一次操作多个作业.
5)作业的输出结果作业运行完成或异常退出之后,在用户提交作业的目录下会生成'jobname'.
o'jobid'以及'jobname'.
e'jobid'两个文件(比如sh1.
o1066和sh1.
e1066),分别记录作业执行时写往标准输出设备和标准错误输出设备的输出信息,其中jobname是作业名,默认则是提交作业时的作业脚本名,jobid则是作业号.
用户可以通过这两个文件查看和验证程序运行的结果.
同时,建议在编写程序时尽量将程序运行结果输出到特定的磁盘文件而不是标准输出(屏幕).
以上是Torque作业资源管理系统常用到的一些基本操作,更加复杂的操作可以参考Torque官方网站上提供的文档.
另外,如果遇到作业不能正常提交、作业提交后不能被正常调度以及在使用mpijob命令配合Torque运行MPI并行程序时遇到了程序不能正确被执行的错误(指的是没有得到系统的正确执行,而非程序本身的错误)等异常情况,请及时来信或来电反馈相关信息,谢谢大家配合.
该文档如有遗漏或不当之处,请随时批评指出,谢谢.
全球领先的IDC服务商华纳云“美国服务器”正式发售啦~~~~此次上线的美国服务器包含美国云服务器、美国服务器、美国高防服务器以及美国高防云服务器。针对此次美国服务器新品上线,华纳云也推出了史无前例的超低活动力度。美国云服务器低至3折,1核1G5M低至24元/月,20G DDos防御的美国服务器低至688元/月,年付再送2个月,两年送4个月,三年送6个月,且永久续费同价,更多款高性价比配置供您选择。...
我们很多老用户对于BuyVM商家还是相当熟悉的,也有翻看BuyVM相关的文章可以追溯到2014年的时候有介绍过,不过那时候介绍这个商家并不是很多,主要是因为这个商家很是刁钻。比如我们注册账户的信息是否完整,以及我们使用是否规范,甚至有其他各种问题导致我们是不能购买他们家机器的。以前你嚣张是很多人没有办法购买到其他商家的机器,那时候其他商家的机器不多。而如今,我们可选的商家比较多,你再也嚣张不起来。...
官方网站:点击访问青云互联活动官网优惠码:终身88折扣优惠码:WN789-2021香港测试IP:154.196.254美国测试IP:243.164.1活动方案:用户购买任意全区域云服务器月付以上享受免费更换IP服务;限美国区域云服务器凡是购买均可以提交工单定制天机防火墙高防御保护端口以及保护模式;香港区域购买季度、半年付、年付周期均可免费申请额外1IP;使用优惠码购买后续费周期终身同活动价,价格不...
私服服务器架设为你推荐
美国免费主机谁告诉我哪有免费的虚拟主机?asp主机请问虚似主机和Asp服务器软件都是一个意思吗vps主机vps主机好吗?是不是垃圾?中文域名注册查询域名还分中文和英文的吗,在哪里可以查到中文域名到期了?com域名空间.com的域名+300M的空间要多少钱?海外主机美国主机哪个好,最好是速度和稳定性能跟得上?代理主机什么叫做代理服务器?有什么用途?100m网站空间50M的网页内容买100M的网站空间够用了没?重庆网站空间重庆建网站的公司 我司准备建一个好点的网站,求推荐下载虚拟主机虚拟机软件到那里下载。怎么安装
紧急升级请记住新域名 短域名 vps租用 hkbn 电影服务器 国内永久免费云服务器 韩国电信 免费ftp空间 表单样式 轻量 申请空间 老左来了 ntfs格式分区 129邮箱 umax120 息壤代理 smtp服务器地址 免费个人网页 腾讯网盘 锐速 更多