作业联志服务器
联志服务器 时间:2021-03-26 阅读:(
)
Hadoop历史服务器详解Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息.
默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器$sbin/mr-jobhistory-daemon.
shstarthistoryserver这样我们就可以在相应机器的19888端口上打开历史服务器的WEBUI界面.
可以查看已经运行完的作业情况.
历史服务器可以单独在一台机器上启动,主要是通过以下的参数配置:mapreduce.
jobhistory.
address0.
0.
0.
0:10020mapreduce.
jobhistory.
webapp.
address0.
0.
0.
0:19888上面的参数是在mapred-site.
xml文件中进行配置,mapreduce.
jobhistory.
address和mapreduce.
jobhistory.
webapp.
address默认的值分别是0.
0.
0.
0:10020和0.
0.
0.
0:19888,大家可以根据自己的情况进行相应的配置,参数的格式是host:port.
配置完上述的参数之后,重新启动Hadoopjobhistory,这样我们就可以在mapreduce.
jobhistory.
webapp.
address参数配置的主机上对Hadoop历史作业情况经行查看.
很多人就会问了,这些历史数据是存放在哪里的是存放在HDFS中的,我们可以通过下面的配置来设置在HDFS的什么目录下存放历史作业记录:mapreduce.
jobhistory.
done-dir${yarn.
app.
mapreduce.
am.
staging-dir}/history/donemapreduce.
jobhistory.
intermediate-done-dir1/4${yarn.
app.
mapreduce.
am.
staging-dir}/history/done_intermediateyarn.
app.
mapreduce.
am.
staging-dir/tmp/hadoop-yarn/staging上面的配置都默认的值,我们可以在mapred-site.
xml文件中进行修改.
其中,mapreduce.
jobhistory.
done-dir参数的意思是在什么目录下存放已经运行完的Hadoop作业记录;mapreduce.
jobhistory.
intermediate-done-dir的意思是正在运行的Hadoop作业记录.
我们可以到mapreduce.
jobhistory.
done-dir参数配置的目录下看看里面存放的是什么东西:[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/Found2itemsdrwxrwx----wypsupergroup02013-12-0323:36/jobs/done/2013drwxrwx----wypsupergroup02014-02-0100:02/jobs/done/2014[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16Found27itemsdrwxrwx----wypsupergroup02014-02-1602:02/jobs/done/2014/02/16/001216drwxrwx----wypsupergroup02014-02-1602:44/jobs/done/2014/02/16/001217drwxrwx----wypsupergroup02014-02-1603:38/jobs/done/2014/02/16/001218drwxrwx----wypsupergroup02014-02-1604:20/jobs/done/2014/02/16/001219drwxrwx----wypsupergroup02014-02-1605:14/jobs/done/2014/02/16/001220[wyp@masterhadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16/001216Found1318items-rwxrwx---3wypsupergroup455413352014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480689141-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161_conf.
xml-rwxrwx---3wypsupergroup455947592014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480694818-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162_conf.
xml2/4通过上面的结果我们可以得到一下几点:(1)、历史作业记录是存放在HDFS目录中;(2)、由于历史作业记录可能非常多,所以历史作业记录是按照年/月/日的形式分别存放在相应的目录中,这样便于管理和查找;(3)、对于每一个Hadoop历史作业记录相关信息都用两个文件存放,后缀名分别为*.
jhist,*.
xml.
*.
jhist文件里存放的是具体Hadoop作业的详细信息,如下:{"type":"JOB_INITED","event":{"org.
apache.
hadoop.
mapreduce.
jobhistory.
JobInited":{"jobid":"job_1388830974669_1215999","launchTime":1392477383583,"totalMaps":1,"totalReduces":1,"jobStatus":"INITED","uberized":false}}}这是HadoopJOB初始化的一条信息,通过观察我们知道,*.
jhist文件里面全部都是Json格式的数据.
根据type进行区分这条Json的含义,在Hadoop中,总共包含了一下几个type:"JOB_SUBMITTED","JOB_INITED","JOB_FINISHED","JOB_PRIORITY_CHANGED","JOB_STATUS_CHANGED","JOB_FAILED","JOB_KILLED","JOB_ERROR","JOB_INFO_CHANGED","TASK_STARTED","TASK_FINISHED","TASK_FAILED","TASK_UPDATED","NORMALIZED_RESOURCE","MAP_ATTEMPT_STARTED","MAP_ATTEMPT_FINISHED","MAP_ATTEMPT_FAILED","MAP_ATTEMPT_KILLED","REDUCE_ATTEMPT_STARTED",3/4"REDUCE_ATTEMPT_FINISHED","REDUCE_ATTEMPT_FAILED","REDUCE_ATTEMPT_KILLED","SETUP_ATTEMPT_STARTED","SETUP_ATTEMPT_FINISHED","SETUP_ATTEMPT_FAILED","SETUP_ATTEMPT_KILLED","CLEANUP_ATTEMPT_STARTED","CLEANUP_ATTEMPT_FINISHED","CLEANUP_ATTEMPT_FAILED","CLEANUP_ATTEMPT_KILLED","AM_STARTED"而*.
xml文件里面记录的是相应作业运行时候的完整参数配置,大家可以进去查看一下.
(4)、每一个作业的历史记录都存放在一个单独的文件中.
mapreduce.
jobhistory.
intermediate-done-dir配置的目录下主要存放的是当前正在运行的Hadoop任务的记录相关信息,感兴趣的同学可以进去看看,这里就不介绍了.
如果对Hadoop历史服务器WEBUI上提供的数据不满意,我们就可以通过对mapreduce.
jobhistory.
done-dir配置的目录进行分析,得到我们感兴趣的信息,比如统计某天中运行了多少个map、运行最长的作业用了多少时间、每个用户运行的Mapreduce任务数、总共运行了多少Mapreduce数等信息,这样对监控Hadoop集群是很好的,我们可以根据那些信息来确定怎么给某个用户分配资源等等.
细心的同学可能发现,在Hadoop历史服务器的WEBUI上最多显示20000个历史的作业记录信息;其实我们可以通过下面的参数进行配置,然后重启一下Hadoopjobhistory即可.
mapreduce.
jobhistory.
joblist.
cache.
size20000本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载.
本文链接:【】()PoweredbyTCPDF(www.
tcpdf.
org)4/4
MechanicWeb怎么样?MechanicWeb好不好?MechanicWeb成立于2008年,目前在美国洛杉矶、凤凰城、达拉斯、迈阿密、北卡、纽约、英国、卢森堡、德国、加拿大、新加坡有11个数据中心,主营全托管型虚拟主机、VPS主机、半专用服务器和独立服务器业务。MechanicWeb只做高端的托管vps,这次MechanicWeb上新Xeon W-1290P处理器套餐,基准3.7GHz最高...
HostKvm 商家我们算是比较熟悉的国内商家,商家主要还是提供以亚洲数据中心,以及直连海外线路的服务商。这次商家有新增香港和俄罗斯两个机房的高防服务器方案。默认提供30GB防御,且目前半价优惠至4.25美元起步,其他方案的VPS主机还是正常的八折优惠。我们看看优惠活动。香港和俄罗斯半价优惠:2021fall,限购100台。通用优惠码:2021 ,八折优惠全部VPS。我们看看具体的套餐。1、香港高...
DogYun是一家2019年成立的国人主机商,提供VPS和独立服务器租用等,数据中心包括中国香港、美国洛杉矶、日本、韩国、德国、荷兰等,其中VPS包括常规VPS(经典云)和按小时计费VPS(动态云),使用自行开发的面板和管理系统,支持自定义配置,动态云各个硬件独立按小时计费,带宽按照用户使用量计费(不使用不计费)或者购买流量包,线路也可以自行切换。目前商家发布了6.18促销方案,新购动态云7折,经...
联志服务器为你推荐
netlife熊猫烧香是怎么制作的百度关键词价格查询百度竞价关键词价格查询,帮忙查几个词儿点击一次多少钱,thankspsbc.com邮政储蓄卡如何激活冯媛甑尸城女主角叫什么名字同ip网站一个域名能对应多个IP吗8090lu.com《8090》节目有不有高清的在线观看网站啊?www.228gg.comwww.a8tb.com这个网站该如何改善dpscycleDPScycle插件为什么没有猎人模块 最好详细点dpscycle国服魔兽WLK,有什么适合死亡骑士的插件?汴京清谈汴京繁华 简介50字?
宿迁服务器租用 hostigation 域名商 加勒比群岛 godaddy 台湾谷歌网址 qingyun web服务器架设 中国电信测网速 cdn加速原理 爱奇艺vip免费试用7天 100mbps 新世界服务器 阿里云官方网站 国外的代理服务器 广州虚拟主机 atom处理器 域名转入 云服务是什么意思 zcloud 更多