作业联志服务器

联志服务器  时间:2021-03-26  阅读:()
Hadoop历史服务器详解Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息.
默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器$sbin/mr-jobhistory-daemon.
shstarthistoryserver这样我们就可以在相应机器的19888端口上打开历史服务器的WEBUI界面.
可以查看已经运行完的作业情况.
历史服务器可以单独在一台机器上启动,主要是通过以下的参数配置:mapreduce.
jobhistory.
address0.
0.
0.
0:10020mapreduce.
jobhistory.
webapp.
address0.
0.
0.
0:19888上面的参数是在mapred-site.
xml文件中进行配置,mapreduce.
jobhistory.
address和mapreduce.
jobhistory.
webapp.
address默认的值分别是0.
0.
0.
0:10020和0.
0.
0.
0:19888,大家可以根据自己的情况进行相应的配置,参数的格式是host:port.
配置完上述的参数之后,重新启动Hadoopjobhistory,这样我们就可以在mapreduce.
jobhistory.
webapp.
address参数配置的主机上对Hadoop历史作业情况经行查看.
很多人就会问了,这些历史数据是存放在哪里的是存放在HDFS中的,我们可以通过下面的配置来设置在HDFS的什么目录下存放历史作业记录:mapreduce.
jobhistory.
done-dir${yarn.
app.
mapreduce.
am.
staging-dir}/history/donemapreduce.
jobhistory.
intermediate-done-dir1/4${yarn.
app.
mapreduce.
am.
staging-dir}/history/done_intermediateyarn.
app.
mapreduce.
am.
staging-dir/tmp/hadoop-yarn/staging上面的配置都默认的值,我们可以在mapred-site.
xml文件中进行修改.
其中,mapreduce.
jobhistory.
done-dir参数的意思是在什么目录下存放已经运行完的Hadoop作业记录;mapreduce.
jobhistory.
intermediate-done-dir的意思是正在运行的Hadoop作业记录.
我们可以到mapreduce.
jobhistory.
done-dir参数配置的目录下看看里面存放的是什么东西:[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/Found2itemsdrwxrwx----wypsupergroup02013-12-0323:36/jobs/done/2013drwxrwx----wypsupergroup02014-02-0100:02/jobs/done/2014[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16Found27itemsdrwxrwx----wypsupergroup02014-02-1602:02/jobs/done/2014/02/16/001216drwxrwx----wypsupergroup02014-02-1602:44/jobs/done/2014/02/16/001217drwxrwx----wypsupergroup02014-02-1603:38/jobs/done/2014/02/16/001218drwxrwx----wypsupergroup02014-02-1604:20/jobs/done/2014/02/16/001219drwxrwx----wypsupergroup02014-02-1605:14/jobs/done/2014/02/16/001220[wyp@masterhadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16/001216Found1318items-rwxrwx---3wypsupergroup455413352014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480689141-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161_conf.
xml-rwxrwx---3wypsupergroup455947592014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480694818-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162_conf.
xml2/4通过上面的结果我们可以得到一下几点:(1)、历史作业记录是存放在HDFS目录中;(2)、由于历史作业记录可能非常多,所以历史作业记录是按照年/月/日的形式分别存放在相应的目录中,这样便于管理和查找;(3)、对于每一个Hadoop历史作业记录相关信息都用两个文件存放,后缀名分别为*.
jhist,*.
xml.
*.
jhist文件里存放的是具体Hadoop作业的详细信息,如下:{"type":"JOB_INITED","event":{"org.
apache.
hadoop.
mapreduce.
jobhistory.
JobInited":{"jobid":"job_1388830974669_1215999","launchTime":1392477383583,"totalMaps":1,"totalReduces":1,"jobStatus":"INITED","uberized":false}}}这是HadoopJOB初始化的一条信息,通过观察我们知道,*.
jhist文件里面全部都是Json格式的数据.
根据type进行区分这条Json的含义,在Hadoop中,总共包含了一下几个type:"JOB_SUBMITTED","JOB_INITED","JOB_FINISHED","JOB_PRIORITY_CHANGED","JOB_STATUS_CHANGED","JOB_FAILED","JOB_KILLED","JOB_ERROR","JOB_INFO_CHANGED","TASK_STARTED","TASK_FINISHED","TASK_FAILED","TASK_UPDATED","NORMALIZED_RESOURCE","MAP_ATTEMPT_STARTED","MAP_ATTEMPT_FINISHED","MAP_ATTEMPT_FAILED","MAP_ATTEMPT_KILLED","REDUCE_ATTEMPT_STARTED",3/4"REDUCE_ATTEMPT_FINISHED","REDUCE_ATTEMPT_FAILED","REDUCE_ATTEMPT_KILLED","SETUP_ATTEMPT_STARTED","SETUP_ATTEMPT_FINISHED","SETUP_ATTEMPT_FAILED","SETUP_ATTEMPT_KILLED","CLEANUP_ATTEMPT_STARTED","CLEANUP_ATTEMPT_FINISHED","CLEANUP_ATTEMPT_FAILED","CLEANUP_ATTEMPT_KILLED","AM_STARTED"而*.
xml文件里面记录的是相应作业运行时候的完整参数配置,大家可以进去查看一下.
(4)、每一个作业的历史记录都存放在一个单独的文件中.
mapreduce.
jobhistory.
intermediate-done-dir配置的目录下主要存放的是当前正在运行的Hadoop任务的记录相关信息,感兴趣的同学可以进去看看,这里就不介绍了.
如果对Hadoop历史服务器WEBUI上提供的数据不满意,我们就可以通过对mapreduce.
jobhistory.
done-dir配置的目录进行分析,得到我们感兴趣的信息,比如统计某天中运行了多少个map、运行最长的作业用了多少时间、每个用户运行的Mapreduce任务数、总共运行了多少Mapreduce数等信息,这样对监控Hadoop集群是很好的,我们可以根据那些信息来确定怎么给某个用户分配资源等等.
细心的同学可能发现,在Hadoop历史服务器的WEBUI上最多显示20000个历史的作业记录信息;其实我们可以通过下面的参数进行配置,然后重启一下Hadoopjobhistory即可.
mapreduce.
jobhistory.
joblist.
cache.
size20000本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载.
本文链接:【】()PoweredbyTCPDF(www.
tcpdf.
org)4/4

HaBangNet(6.95美元/月)美国vps 5TB流量/德国vps 香港双向CN2 GIA VPS

HaBangNet支持支付宝和微信支付,只是价格偏贵,之前国内用户并不多。这次HaBangNet推出三个特价套餐,其中美国机房和德国机房价格也还可以,但是香港机房虽然是双向CN2 GIA线路,但是还是贵的惊人,需要美国和德国机房的可以参考下。HaBangNet是一家成立于2014年的香港IDC商家,中文译名:哈邦网络公司,主营中国香港、新加坡、澳大利亚、荷兰、美国、德国机房的虚拟主机、vps、专用...

2021年国内/国外便宜VPS主机/云服务器商家推荐整理

2021年各大云服务商竞争尤为激烈,因为云服务商家的竞争我们可以选择更加便宜的VPS或云服务器,这样成本更低,选择空间更大。但是,如果我们是建站用途或者是稳定项目的,不要太过于追求便宜VPS或便宜云服务器,更需要追求稳定和服务。不同的商家有不同的特点,而且任何商家和线路不可能一直稳定,我们需要做的就是定期观察和数据定期备份。下面,请跟云服务器网(yuntue.com)小编来看一下2021年国内/国...

易探云美国云服务器评测,主机低至33元/月,336元/年

美国服务器哪家平台好?美国服务器无需备案,即开即用,上线快。美国服务器多数带防御,且有时候项目运营的时候,防御能力是用户考虑的重点,特别是网站容易受到攻击的行业。现在有那么多美国一年服务器,哪家的美国云服务器好呢?美国服务器用哪家好?这里推荐易探云,有美国BGP、美国CN2、美国高防、美国GIA等云服务器,线路优化的不错。易探云刚好就是做香港及美国云服务器的主要商家之一,我们来看一下易探云美国云服...

联志服务器为你推荐
vc组合维生素C和维生素E混合胶囊有用吗,还是分开的好?美国互联网瘫痪网络中断会对美国军力造成什么影响云爆发云出十里未及孤村什么意思咏春大师被ko练了十几年的 “ 咏春高手”~~被练一年空手道的轻易打败,难道如今的国术就像国足,不堪一击~~www.522av.com现在怎样在手机上看AVwww.kanav001.com翻译为日文: 主人,请你收养我一天吧. 带上罗马音标会更好www103838.com39052.com这电影网支持网页观看吗?partnersonlinecashfiesta 该怎么使用啊~~广告法新修订的《广告法》有哪些内容yinrentangzimotang氨基酸洗发水的功效咋样?
com域名 sugarhosts 樊云 softlayer 百度云100as java主机 2017年黑色星期五 php探针 阿里云代金券 搜狗12306抢票助手 日本空间 绍兴高防 傲盾官网 鲁诺 免费私人服务器 空间登录首页 便宜空间 smtp服务器地址 万网空间 阿里云邮箱登陆 更多