作业联志服务器

联志服务器  时间:2021-03-26  阅读:()
Hadoop历史服务器详解Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息.
默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器$sbin/mr-jobhistory-daemon.
shstarthistoryserver这样我们就可以在相应机器的19888端口上打开历史服务器的WEBUI界面.
可以查看已经运行完的作业情况.
历史服务器可以单独在一台机器上启动,主要是通过以下的参数配置:mapreduce.
jobhistory.
address0.
0.
0.
0:10020mapreduce.
jobhistory.
webapp.
address0.
0.
0.
0:19888上面的参数是在mapred-site.
xml文件中进行配置,mapreduce.
jobhistory.
address和mapreduce.
jobhistory.
webapp.
address默认的值分别是0.
0.
0.
0:10020和0.
0.
0.
0:19888,大家可以根据自己的情况进行相应的配置,参数的格式是host:port.
配置完上述的参数之后,重新启动Hadoopjobhistory,这样我们就可以在mapreduce.
jobhistory.
webapp.
address参数配置的主机上对Hadoop历史作业情况经行查看.
很多人就会问了,这些历史数据是存放在哪里的是存放在HDFS中的,我们可以通过下面的配置来设置在HDFS的什么目录下存放历史作业记录:mapreduce.
jobhistory.
done-dir${yarn.
app.
mapreduce.
am.
staging-dir}/history/donemapreduce.
jobhistory.
intermediate-done-dir1/4${yarn.
app.
mapreduce.
am.
staging-dir}/history/done_intermediateyarn.
app.
mapreduce.
am.
staging-dir/tmp/hadoop-yarn/staging上面的配置都默认的值,我们可以在mapred-site.
xml文件中进行修改.
其中,mapreduce.
jobhistory.
done-dir参数的意思是在什么目录下存放已经运行完的Hadoop作业记录;mapreduce.
jobhistory.
intermediate-done-dir的意思是正在运行的Hadoop作业记录.
我们可以到mapreduce.
jobhistory.
done-dir参数配置的目录下看看里面存放的是什么东西:[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/Found2itemsdrwxrwx----wypsupergroup02013-12-0323:36/jobs/done/2013drwxrwx----wypsupergroup02014-02-0100:02/jobs/done/2014[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16Found27itemsdrwxrwx----wypsupergroup02014-02-1602:02/jobs/done/2014/02/16/001216drwxrwx----wypsupergroup02014-02-1602:44/jobs/done/2014/02/16/001217drwxrwx----wypsupergroup02014-02-1603:38/jobs/done/2014/02/16/001218drwxrwx----wypsupergroup02014-02-1604:20/jobs/done/2014/02/16/001219drwxrwx----wypsupergroup02014-02-1605:14/jobs/done/2014/02/16/001220[wyp@masterhadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16/001216Found1318items-rwxrwx---3wypsupergroup455413352014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480689141-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161_conf.
xml-rwxrwx---3wypsupergroup455947592014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480694818-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162_conf.
xml2/4通过上面的结果我们可以得到一下几点:(1)、历史作业记录是存放在HDFS目录中;(2)、由于历史作业记录可能非常多,所以历史作业记录是按照年/月/日的形式分别存放在相应的目录中,这样便于管理和查找;(3)、对于每一个Hadoop历史作业记录相关信息都用两个文件存放,后缀名分别为*.
jhist,*.
xml.
*.
jhist文件里存放的是具体Hadoop作业的详细信息,如下:{"type":"JOB_INITED","event":{"org.
apache.
hadoop.
mapreduce.
jobhistory.
JobInited":{"jobid":"job_1388830974669_1215999","launchTime":1392477383583,"totalMaps":1,"totalReduces":1,"jobStatus":"INITED","uberized":false}}}这是HadoopJOB初始化的一条信息,通过观察我们知道,*.
jhist文件里面全部都是Json格式的数据.
根据type进行区分这条Json的含义,在Hadoop中,总共包含了一下几个type:"JOB_SUBMITTED","JOB_INITED","JOB_FINISHED","JOB_PRIORITY_CHANGED","JOB_STATUS_CHANGED","JOB_FAILED","JOB_KILLED","JOB_ERROR","JOB_INFO_CHANGED","TASK_STARTED","TASK_FINISHED","TASK_FAILED","TASK_UPDATED","NORMALIZED_RESOURCE","MAP_ATTEMPT_STARTED","MAP_ATTEMPT_FINISHED","MAP_ATTEMPT_FAILED","MAP_ATTEMPT_KILLED","REDUCE_ATTEMPT_STARTED",3/4"REDUCE_ATTEMPT_FINISHED","REDUCE_ATTEMPT_FAILED","REDUCE_ATTEMPT_KILLED","SETUP_ATTEMPT_STARTED","SETUP_ATTEMPT_FINISHED","SETUP_ATTEMPT_FAILED","SETUP_ATTEMPT_KILLED","CLEANUP_ATTEMPT_STARTED","CLEANUP_ATTEMPT_FINISHED","CLEANUP_ATTEMPT_FAILED","CLEANUP_ATTEMPT_KILLED","AM_STARTED"而*.
xml文件里面记录的是相应作业运行时候的完整参数配置,大家可以进去查看一下.
(4)、每一个作业的历史记录都存放在一个单独的文件中.
mapreduce.
jobhistory.
intermediate-done-dir配置的目录下主要存放的是当前正在运行的Hadoop任务的记录相关信息,感兴趣的同学可以进去看看,这里就不介绍了.
如果对Hadoop历史服务器WEBUI上提供的数据不满意,我们就可以通过对mapreduce.
jobhistory.
done-dir配置的目录进行分析,得到我们感兴趣的信息,比如统计某天中运行了多少个map、运行最长的作业用了多少时间、每个用户运行的Mapreduce任务数、总共运行了多少Mapreduce数等信息,这样对监控Hadoop集群是很好的,我们可以根据那些信息来确定怎么给某个用户分配资源等等.
细心的同学可能发现,在Hadoop历史服务器的WEBUI上最多显示20000个历史的作业记录信息;其实我们可以通过下面的参数进行配置,然后重启一下Hadoopjobhistory即可.
mapreduce.
jobhistory.
joblist.
cache.
size20000本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载.
本文链接:【】()PoweredbyTCPDF(www.
tcpdf.
org)4/4

RAKsmart 2021新年新增韩国服务器及香港美国日本VPS半价

RAKsmart 商家我们肯定不算陌生,目前主要的营销客户群肯定是我们。于是在去年的时候有新增很多很多的机房,比如也有测试过的日本、香港、美国机房,这不今年有新增韩国机房(记得去年是不是也有增加过)。且如果没有记错的话,之前VPS主机也有一次磁盘故障的问题。 这不今天有看到商家新增韩国服务器产品,当然目前我还不清楚商家韩国服务器的线路和速度情况,后面我搞一台测试机进行...

创梦网络-四川一手资源高防大带宽云服务器,物理机租用,机柜资源,自建防火墙,雅安最高单机700G防护,四川联通1G大带宽8.3W/年,无视UDP攻击,免费防CC

? ? ? ?创梦网络怎么样,创梦网络公司位于四川省达州市,属于四川本地企业,资质齐全,IDC/ISP均有,从创梦网络这边租的服务器均可以****,属于一手资源,高防机柜、大带宽、高防IP业务,另外创梦网络近期还会上线四川联通大带宽,四川联通高防IP,一手整CIP段,四川电信,联通高防机柜,CN2专线相关业务。成都优化线路,机柜租用、服务器云服务器租用,适合建站做游戏,不须要在套CDN,全国访问快...

舍利云30元/月起;美国CERA云服务器,原生ip,低至28元/月起

目前舍利云服务器的主要特色是适合seo和建站,性价比方面非常不错,舍利云的产品以BGP线路速度优质稳定而著称,对于产品的线路和带宽有着极其严格的讲究,这主要表现在其对母鸡的超售有严格的管控,与此同时舍利云也尽心尽力为用户提供完美服务。目前,香港cn2云服务器,5M/10M带宽,价格低至30元/月,可试用1天;;美国cera云服务器,原生ip,低至28元/月起。一、香港CN2云服务器香港CN2精品线...

联志服务器为你推荐
蓝瘦香菇被抢注最近玩网络上流传的难受香菇是什么典故neworiental天津新东方总部地址在哪里?刘祚天Mc浩然的资料以及百科谁知道?rawtoolsTF卡被写保护了怎么办?rawtoolsRAW是什么衣服牌子罗伦佐娜手上鸡皮肤怎么办,维洛娜毛周角化修复液同ip站点同ip站点很多有没有影响?www.522av.com跪求 我的三个母亲高清在线观看地址 我的三个母亲高清QVOD下载播放地址 我的三个母亲高清迅雷高速下载地址百度指数词百度指数我创建的新词www.bbb551.com100bbb网站怎样上不去了
高防服务器租用qy godaddy域名解析教程 老域名全部失效请记好新域名 sugarhosts pccw cpanel主机 sub-process 鲜果阅读 最好的空间 圣诞促销 howfile 宁波服务器 hkg 流量计费 免费全能主机 linux服务器维护 国外免费asp空间 卡巴斯基免费试用 太原联通测速 免费ftp 更多