作业联志服务器
联志服务器 时间:2021-03-26 阅读:(
)
Hadoop历史服务器详解Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息.
默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器$sbin/mr-jobhistory-daemon.
shstarthistoryserver这样我们就可以在相应机器的19888端口上打开历史服务器的WEBUI界面.
可以查看已经运行完的作业情况.
历史服务器可以单独在一台机器上启动,主要是通过以下的参数配置:mapreduce.
jobhistory.
address0.
0.
0.
0:10020mapreduce.
jobhistory.
webapp.
address0.
0.
0.
0:19888上面的参数是在mapred-site.
xml文件中进行配置,mapreduce.
jobhistory.
address和mapreduce.
jobhistory.
webapp.
address默认的值分别是0.
0.
0.
0:10020和0.
0.
0.
0:19888,大家可以根据自己的情况进行相应的配置,参数的格式是host:port.
配置完上述的参数之后,重新启动Hadoopjobhistory,这样我们就可以在mapreduce.
jobhistory.
webapp.
address参数配置的主机上对Hadoop历史作业情况经行查看.
很多人就会问了,这些历史数据是存放在哪里的是存放在HDFS中的,我们可以通过下面的配置来设置在HDFS的什么目录下存放历史作业记录:mapreduce.
jobhistory.
done-dir${yarn.
app.
mapreduce.
am.
staging-dir}/history/donemapreduce.
jobhistory.
intermediate-done-dir1/4${yarn.
app.
mapreduce.
am.
staging-dir}/history/done_intermediateyarn.
app.
mapreduce.
am.
staging-dir/tmp/hadoop-yarn/staging上面的配置都默认的值,我们可以在mapred-site.
xml文件中进行修改.
其中,mapreduce.
jobhistory.
done-dir参数的意思是在什么目录下存放已经运行完的Hadoop作业记录;mapreduce.
jobhistory.
intermediate-done-dir的意思是正在运行的Hadoop作业记录.
我们可以到mapreduce.
jobhistory.
done-dir参数配置的目录下看看里面存放的是什么东西:[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/Found2itemsdrwxrwx----wypsupergroup02013-12-0323:36/jobs/done/2013drwxrwx----wypsupergroup02014-02-0100:02/jobs/done/2014[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16Found27itemsdrwxrwx----wypsupergroup02014-02-1602:02/jobs/done/2014/02/16/001216drwxrwx----wypsupergroup02014-02-1602:44/jobs/done/2014/02/16/001217drwxrwx----wypsupergroup02014-02-1603:38/jobs/done/2014/02/16/001218drwxrwx----wypsupergroup02014-02-1604:20/jobs/done/2014/02/16/001219drwxrwx----wypsupergroup02014-02-1605:14/jobs/done/2014/02/16/001220[wyp@masterhadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16/001216Found1318items-rwxrwx---3wypsupergroup455413352014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480689141-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161_conf.
xml-rwxrwx---3wypsupergroup455947592014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480694818-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162_conf.
xml2/4通过上面的结果我们可以得到一下几点:(1)、历史作业记录是存放在HDFS目录中;(2)、由于历史作业记录可能非常多,所以历史作业记录是按照年/月/日的形式分别存放在相应的目录中,这样便于管理和查找;(3)、对于每一个Hadoop历史作业记录相关信息都用两个文件存放,后缀名分别为*.
jhist,*.
xml.
*.
jhist文件里存放的是具体Hadoop作业的详细信息,如下:{"type":"JOB_INITED","event":{"org.
apache.
hadoop.
mapreduce.
jobhistory.
JobInited":{"jobid":"job_1388830974669_1215999","launchTime":1392477383583,"totalMaps":1,"totalReduces":1,"jobStatus":"INITED","uberized":false}}}这是HadoopJOB初始化的一条信息,通过观察我们知道,*.
jhist文件里面全部都是Json格式的数据.
根据type进行区分这条Json的含义,在Hadoop中,总共包含了一下几个type:"JOB_SUBMITTED","JOB_INITED","JOB_FINISHED","JOB_PRIORITY_CHANGED","JOB_STATUS_CHANGED","JOB_FAILED","JOB_KILLED","JOB_ERROR","JOB_INFO_CHANGED","TASK_STARTED","TASK_FINISHED","TASK_FAILED","TASK_UPDATED","NORMALIZED_RESOURCE","MAP_ATTEMPT_STARTED","MAP_ATTEMPT_FINISHED","MAP_ATTEMPT_FAILED","MAP_ATTEMPT_KILLED","REDUCE_ATTEMPT_STARTED",3/4"REDUCE_ATTEMPT_FINISHED","REDUCE_ATTEMPT_FAILED","REDUCE_ATTEMPT_KILLED","SETUP_ATTEMPT_STARTED","SETUP_ATTEMPT_FINISHED","SETUP_ATTEMPT_FAILED","SETUP_ATTEMPT_KILLED","CLEANUP_ATTEMPT_STARTED","CLEANUP_ATTEMPT_FINISHED","CLEANUP_ATTEMPT_FAILED","CLEANUP_ATTEMPT_KILLED","AM_STARTED"而*.
xml文件里面记录的是相应作业运行时候的完整参数配置,大家可以进去查看一下.
(4)、每一个作业的历史记录都存放在一个单独的文件中.
mapreduce.
jobhistory.
intermediate-done-dir配置的目录下主要存放的是当前正在运行的Hadoop任务的记录相关信息,感兴趣的同学可以进去看看,这里就不介绍了.
如果对Hadoop历史服务器WEBUI上提供的数据不满意,我们就可以通过对mapreduce.
jobhistory.
done-dir配置的目录进行分析,得到我们感兴趣的信息,比如统计某天中运行了多少个map、运行最长的作业用了多少时间、每个用户运行的Mapreduce任务数、总共运行了多少Mapreduce数等信息,这样对监控Hadoop集群是很好的,我们可以根据那些信息来确定怎么给某个用户分配资源等等.
细心的同学可能发现,在Hadoop历史服务器的WEBUI上最多显示20000个历史的作业记录信息;其实我们可以通过下面的参数进行配置,然后重启一下Hadoopjobhistory即可.
mapreduce.
jobhistory.
joblist.
cache.
size20000本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载.
本文链接:【】()PoweredbyTCPDF(www.
tcpdf.
org)4/4
六一云 成立于2018年,归属于西安六一网络科技有限公司,是一家国内正规持有IDC ISP CDN IRCS电信经营许可证书的老牌商家。大陆持证公司受大陆各部门监管不好用支持退款退现,再也不怕被割韭菜了!主要业务有:国内高防云,美国高防云,美国cera大带宽,香港CTG,香港沙田CN2,海外站群服务,物理机,宿母鸡等,另外也诚招代理欢迎咨询。官网www.61cloud.net最新直销劲爆...
老薛主机怎么样?老薛主机这个商家有存在有一些年头。如果没有记错的话,早年老薛主机是做虚拟主机业务的,还算不错在异常激烈的市场中生存到现在,应该算是在众多商家中早期积累到一定的用户群的,主打小众个人网站业务所以能持续到现在。这不,站长看到商家有在进行夏季促销,比如我们很多网友可能有需要的香港vps主机季度及以上可以半价优惠,如果有在选择不同主机商的香港机房的可以看看老薛主机商家的香港vps。点击进入...
商家介绍:星梦云怎么样,星梦云好不好,资质齐全,IDC/ISP均有,从星梦云这边租的服务器均可以备案,属于一手资源,高防机柜、大带宽、高防IP业务,一手整C IP段,四川电信,星梦云专注四川高防服务器,成都服务器,雅安服务器,。活动优惠促销:1、成都电信夏日激情大宽带活动机(封锁UDP,不可解封):机房CPU内存硬盘带宽IP防护流量原价活动价开通方式成都电信优化线路2vCPU2G40G+60G21...
联志服务器为你推荐
futureshopgloway是什么牌子2020双十一成绩单2020年河南全县初二期末成绩排名?sonicchat深圳哪里有卖汽车模型?今日油条油条的由来及历史蓝色骨头手机宠物的一个蓝色骨头代表多少级,灰色又代表多少级,另外假如有骨头又代表多少级商标注册流程及费用注册商标的程序及费用?www.544qq.COM跪求:天时达T092怎么下载QQwww.mywife.ccmywife哪部最经典斗城网女追男有多易?喜欢你,可我不知道你喜不喜欢我!!平安夜希望有他陪我过lcoc.toptop weenie 是什么?
重庆虚拟主机 最新代理服务器地址 购买域名和空间 80vps godaddy续费优惠码 京东商城0元抢购 idc资讯 安徽双线服务器 创建邮箱 金主 阿里云邮箱怎么注册 免备案jsp空间 hdroad 上海联通 免 cx域名 最好的空间留言 2000元电脑主机配置 双宿主机防火墙 网通ip地址 更多