作业联志服务器

联志服务器  时间:2021-03-26  阅读:()
Hadoop历史服务器详解Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息.
默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器$sbin/mr-jobhistory-daemon.
shstarthistoryserver这样我们就可以在相应机器的19888端口上打开历史服务器的WEBUI界面.
可以查看已经运行完的作业情况.
历史服务器可以单独在一台机器上启动,主要是通过以下的参数配置:mapreduce.
jobhistory.
address0.
0.
0.
0:10020mapreduce.
jobhistory.
webapp.
address0.
0.
0.
0:19888上面的参数是在mapred-site.
xml文件中进行配置,mapreduce.
jobhistory.
address和mapreduce.
jobhistory.
webapp.
address默认的值分别是0.
0.
0.
0:10020和0.
0.
0.
0:19888,大家可以根据自己的情况进行相应的配置,参数的格式是host:port.
配置完上述的参数之后,重新启动Hadoopjobhistory,这样我们就可以在mapreduce.
jobhistory.
webapp.
address参数配置的主机上对Hadoop历史作业情况经行查看.
很多人就会问了,这些历史数据是存放在哪里的是存放在HDFS中的,我们可以通过下面的配置来设置在HDFS的什么目录下存放历史作业记录:mapreduce.
jobhistory.
done-dir${yarn.
app.
mapreduce.
am.
staging-dir}/history/donemapreduce.
jobhistory.
intermediate-done-dir1/4${yarn.
app.
mapreduce.
am.
staging-dir}/history/done_intermediateyarn.
app.
mapreduce.
am.
staging-dir/tmp/hadoop-yarn/staging上面的配置都默认的值,我们可以在mapred-site.
xml文件中进行修改.
其中,mapreduce.
jobhistory.
done-dir参数的意思是在什么目录下存放已经运行完的Hadoop作业记录;mapreduce.
jobhistory.
intermediate-done-dir的意思是正在运行的Hadoop作业记录.
我们可以到mapreduce.
jobhistory.
done-dir参数配置的目录下看看里面存放的是什么东西:[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/Found2itemsdrwxrwx----wypsupergroup02013-12-0323:36/jobs/done/2013drwxrwx----wypsupergroup02014-02-0100:02/jobs/done/2014[wyp@master/home/wyp/hadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16Found27itemsdrwxrwx----wypsupergroup02014-02-1602:02/jobs/done/2014/02/16/001216drwxrwx----wypsupergroup02014-02-1602:44/jobs/done/2014/02/16/001217drwxrwx----wypsupergroup02014-02-1603:38/jobs/done/2014/02/16/001218drwxrwx----wypsupergroup02014-02-1604:20/jobs/done/2014/02/16/001219drwxrwx----wypsupergroup02014-02-1605:14/jobs/done/2014/02/16/001220[wyp@masterhadoop]#bin/hadoopfs-ls/jobs/done/2014/02/16/001216Found1318items-rwxrwx---3wypsupergroup455413352014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480689141-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216161_conf.
xml-rwxrwx---3wypsupergroup455947592014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162-1392478837250-wyp-insert+overwrite+table+qt_city_query_ana.
.
.
e%28Stage-1392480694818-5894-33-SUCCEEDED-wyp.
jhist-rwxrwx---3wypsupergroup1935722014-02-1600:11/jobs/done/2014/02/16/001216/job_1388830974669_1216162_conf.
xml2/4通过上面的结果我们可以得到一下几点:(1)、历史作业记录是存放在HDFS目录中;(2)、由于历史作业记录可能非常多,所以历史作业记录是按照年/月/日的形式分别存放在相应的目录中,这样便于管理和查找;(3)、对于每一个Hadoop历史作业记录相关信息都用两个文件存放,后缀名分别为*.
jhist,*.
xml.
*.
jhist文件里存放的是具体Hadoop作业的详细信息,如下:{"type":"JOB_INITED","event":{"org.
apache.
hadoop.
mapreduce.
jobhistory.
JobInited":{"jobid":"job_1388830974669_1215999","launchTime":1392477383583,"totalMaps":1,"totalReduces":1,"jobStatus":"INITED","uberized":false}}}这是HadoopJOB初始化的一条信息,通过观察我们知道,*.
jhist文件里面全部都是Json格式的数据.
根据type进行区分这条Json的含义,在Hadoop中,总共包含了一下几个type:"JOB_SUBMITTED","JOB_INITED","JOB_FINISHED","JOB_PRIORITY_CHANGED","JOB_STATUS_CHANGED","JOB_FAILED","JOB_KILLED","JOB_ERROR","JOB_INFO_CHANGED","TASK_STARTED","TASK_FINISHED","TASK_FAILED","TASK_UPDATED","NORMALIZED_RESOURCE","MAP_ATTEMPT_STARTED","MAP_ATTEMPT_FINISHED","MAP_ATTEMPT_FAILED","MAP_ATTEMPT_KILLED","REDUCE_ATTEMPT_STARTED",3/4"REDUCE_ATTEMPT_FINISHED","REDUCE_ATTEMPT_FAILED","REDUCE_ATTEMPT_KILLED","SETUP_ATTEMPT_STARTED","SETUP_ATTEMPT_FINISHED","SETUP_ATTEMPT_FAILED","SETUP_ATTEMPT_KILLED","CLEANUP_ATTEMPT_STARTED","CLEANUP_ATTEMPT_FINISHED","CLEANUP_ATTEMPT_FAILED","CLEANUP_ATTEMPT_KILLED","AM_STARTED"而*.
xml文件里面记录的是相应作业运行时候的完整参数配置,大家可以进去查看一下.
(4)、每一个作业的历史记录都存放在一个单独的文件中.
mapreduce.
jobhistory.
intermediate-done-dir配置的目录下主要存放的是当前正在运行的Hadoop任务的记录相关信息,感兴趣的同学可以进去看看,这里就不介绍了.
如果对Hadoop历史服务器WEBUI上提供的数据不满意,我们就可以通过对mapreduce.
jobhistory.
done-dir配置的目录进行分析,得到我们感兴趣的信息,比如统计某天中运行了多少个map、运行最长的作业用了多少时间、每个用户运行的Mapreduce任务数、总共运行了多少Mapreduce数等信息,这样对监控Hadoop集群是很好的,我们可以根据那些信息来确定怎么给某个用户分配资源等等.
细心的同学可能发现,在Hadoop历史服务器的WEBUI上最多显示20000个历史的作业记录信息;其实我们可以通过下面的参数进行配置,然后重启一下Hadoopjobhistory即可.
mapreduce.
jobhistory.
joblist.
cache.
size20000本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载.
本文链接:【】()PoweredbyTCPDF(www.
tcpdf.
org)4/4

HostYun(月18元),CN2直连香港大带宽VPS 50M带宽起

对于如今的云服务商的竞争着实很激烈,我们可以看到国内国外服务商的各种内卷,使得我们很多个人服务商压力还是比较大的。我们看到这几年的服务商变动还是比较大的,很多新服务商坚持不超过三个月,有的是多个品牌同步进行然后分别的跑路赚一波走人。对于我们用户来说,便宜的服务商固然可以试试,但是如果是不确定的,建议月付或者主力业务尽量的还是注意备份。HostYun 最近几个月还是比较活跃的,在前面也有多次介绍到商...

无忧云-河南洛阳BGP,CEPH集群分布式存储,数据安全可靠,活动期间月付大优惠!

 无忧云怎么样?无忧云服务器好不好?无忧云值不值得购买?无忧云是一家成立于2017年的老牌商家旗下的服务器销售品牌,现由深圳市云上无忧网络科技有限公司运营,是正规持证IDC/ISP/IRCS商家,主要销售国内、中国香港、国外服务器产品,线路有腾讯云国外线路、自营香港CN2线路等,都是中国大陆直连线路,非常适合免备案建站业务需求和各种负载较高的项目,同时国内服务器也有多个BGP以及高防节点...

欧路云(22元/月),美国CERA弹性云服务器!香港弹性云服务器15元/月起;加拿大高防vps仅23元/月起

欧路云怎么样?欧路云主要运行弹性云服务器,可自由定制配置,可选加拿大的480G超高防系列,也可以选择美国(200G高防)系列,也有速度直逼内地的香港CN2系列。所有配置都可以在下单的时候自行根据项目 需求来定制自由升级降级 (降级按天数配置费用 退款回预存款)。2021年7月14日美国 CERA 弹性云服务器 上新 联通CUVIP 线路!8折特惠中!点击进入:欧路云官方网站地址付款方式:PayPa...

联志服务器为你推荐
留学生认证留学生服务中心认证内容和范围?百花百游百花净斑方多少钱一盒百度指数词百度指数我创建的新词se95se.comwww.sea8.com这个网站是用什么做的 需要多少钱partnersonline电脑内一切浏览器无法打开javlibrary.comsony home network library官方下载地址本冈一郎本冈一郎到底有效果吗?有人用过吗?汴京清谈汴京残梦怎么样官人放题《墨竹题图诗》 大意www.mm.com找几个有美女图片的网址
中文域名注册 网站域名备案 cybermonday google电话 免费主机 私服服务器 mediafire下载工具 vmsnap3 表格样式 tk域名 ev证书 嘟牛 789电视网 135邮箱 美国在线代理服务器 太原网通测速平台 支付宝扫码领红包 服务器硬件防火墙 登陆空间 smtp虚拟服务器 更多