org/apache/hadoop/util/platformname 哪个jar
今天好好找了一下,这是我找到的
有关配置的conf方面在 mon/mom-2.2.0.jar
.apache.hadoop.conf.Configuration
org.apache.hadoop.fs.Path
org.apache.hadoop.io.IntWritable
org.apache.hadoop.io.Text
org.apache.hadoop.util.GenericOptionsParser
)
有关Mapreduce的部分那就是在 hadoop/mapreduce/hadoop-mapreduce-client-core-2.2.0.jar 里面了
.apache.hadoop.mapreduce.Job
org.apache.hadoop.mapreduce.Mapper
org.apache.hadoop.mapreduce.Reducer
org.apache.hadoop.mapreduce.lib.input.FileInputFormat
org.apache.hadoop.mapreduce.lib.output.FiliOutputFormat
)mapreduce 可以不输出吗
支持多路输出(SuffixMultipleTextOutputFormat)
如下示例:
hadoop streaming
-input /home/mr/data/test_tab/
-output /home/mr/output/tab_test/out19
.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat # 指定.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat
-jobconf suffix.multiple.outputformat.filesuffix=a,c,f,abc,cde # 指定输出文件名的前缀,所有需要输出的文件名必须通过该参数配置,否则job会失败
-jobconf suffix.multiple.outputformat.separator="#" # 设置value与文件名的分割符,默认为“#”,如果value本身含有“#”,则可以通过该参数设置其他的分隔符
-mapper "cat"
-reducer "sh reduce.sh"
-file reduce.sh
注:标记为红色的参数必须设置!hadoop怎么判断空值
.apache.hadoop.mapreduce.lib.input.FileInputFormat;
.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
String?in0?=?args[0];
String?in1?=?args[1];
String?out?=?args[2];
FileInputFormat.addInputPath(job,new?Path(in0));
FileInputFormat.addInputPath(job,new?Path(in1));
FileOutputFormat.setOutputPath(job,new?Path(out));inputformat怎么解释
这几天准备好好看看MapReduce编程。
要编程就肯定要涉及到输入、输出的问题。
今天就先来谈谈自定义的InputFormat
我们先来看看系统默认的TextInputFormat.java
[java] view plaincopy
public class TextInputFormat extends FileInputFormat<LongWritable, Text> {
@Override
public RecordReader<LongWritable, Text>
createRecordReader(InputSplit split,
TaskAttemptContext context) {
return new LineRecordReader();//这里是系统实现的的RecordReader按行读取,等会我们就是要改写这个类。
}
@Override
protected boolean isSplitable(JobContext context, Path file) {
CompressionCodec codec =
new CompressionCodecFactory(context.getConfiguration()).getCodec(file);
return codec == null;//而这里通过返回一个null,实际就是关闭了对当前读入文件的划分。
}
}
这个类,没什么说的。
接着我们来实现我们的读取类. MyRecordReader
[java] view plaincopy
//我实现的功能比较简单,只要明白了原理,剩下的就看自己发挥了。
//我们知道系统默认的TextInputFormat读取的key、value分别是偏移和行,而我就简单改下,改成key、value分别是行号和行
public class MyRecordReader extends RecordReader<LongWritable, Text>{ //这里继承RecordReader来实现我们自己的读取。
private static final Log LOG = LogFactory.getLog(MyRecordReader.class);
private long pos; //记录行号
private boolean more;
private LineReader in;
private int maxLineLength;
private LongWritable key = null;
private Text value = null;
public void initialize(InputSplit genericSplit,
TaskAttemptContext context) throws IOException {
pos = 1;
more = true;
FileSplit split = (FileSplit) genericSplit;//获取split
Configuration job = context.getConfiguration();
this.maxLineLength = job.getInt("mapred.linerecordreader.maxlength",
Integer.MAX_VALUE);
final Path file = split.getPath();//得到文件路径
// open the file and seek to the start of the split
FileSystem fs = file.getFileSystem(job);
FSDataInputStream fileIn = fs.open(split.getPath()); //打开文件
in = new LineReader(fileIn, job);
}
public boolean nextKeyValue() throws IOException { //这个函数会被MapRunner循环读取<key、value>
if (key == null) {
key = new LongWritable();
}
key.set(pos); //设置key
if (value == null) {
value = new Text();
}
int newSize = 0;
while (true) {
newSize = in.readLine(value, maxLineLength,maxLineLength); //读取一行内容
pos++; //行号自加一
if (newSize == 0) {
break;
}
if (newSize < maxLineLength) {
break;
}
// line too long. try again
LOG.info("Skipped line of size " + newSize + " at pos " +hadoop 怎么设置多个输入路径
以上的更改就是两个表进来,都可通过此类进行输入,无须针对两个表,要写两个继承FileInputFormat并实现WritableComparable接口的类。
下面才是如何让才采样器只采一个文件的,啊哈!答案说出来笑死人了,那就是利用MultipleInputs先指定要采样的那个输入路径,然后调用采样器,采样结束后于采样相关的流、文件什么的进行关闭,最后再用MultipleInputs指定第二个输入路径。
这样路径一的文件(可以包含多个文本,你懂的)先采样,然后路径一和路径二的文件都进入map了,map再根据一些额外的信息判断来自那个路径的数据。
MultipleInputs.addInputPath(conf, new Path(args[0]), Definemyself.class,Mapclass.class);//第一个输入路径
/*********下面采样**********更多采样的细节见我领一篇博客,不一样的视角那篇***********/
Path input = new Path(args[0].toString());
input = input.makeQualified(input.getFileSystem(conf));
InputSampler.RandomSampler<Text, NullWritable> sampler = new InputSampler.RandomSampler<Text, NullWritable>(0.4,20, 5);
/...........此处省略细节................/
IOUtils.closeStream(fs_out);// 关闭流,有关采样的结束了。
/...............此处添加一些其他的需要的工作,例如分布式缓存啦,Hashtable的处理阿............../
MultipleInputs.addInputPath(conf, new Path(args[3]), Definemyself.class, Mapclass.class); //最后指定输入的第二条路径
JobClient.runJob(conf);
A2Hosting主机,A2Hosting怎么样?A2Hosting是UK2集团下属公司,成立于2003年的老牌国外主机商,产品包括虚拟主机、VPS和独立服务器等,数据中心提供包括美国、新加坡softlayer和荷兰三个地区机房。A2Hosting在国外是一家非常大非常有名气的终合型主机商,拥有几百万的客户,非常值得信赖,国外主机论坛对它家的虚拟主机评价非常不错,当前,A2Hosting主机庆祝1...
企鹅小屋:垃圾服务商有跑路风险!企鹅不允许你二次工单的,二次提交工单直接关服务器,再严重就封号,意思是你提交工单要小心,别因为提交工单被干了账号!前段时间,就有站长说企鹅小屋要跑路了,站长不太相信,本站平台已经为企鹅小屋推荐了几千元的业绩,CPS返利达182.67CNY。然后,站长通过企鹅小屋后台申请提现,提现申请至今已经有20几天,企鹅小屋也没有转账。然后,搞笑的一幕出现了:平台账号登录不上提示...
飞讯云官网“飞讯云”是湖北飞讯网络有限公司旗下的云计算服务品牌,专注为个人开发者用户、中小型、大型企业用户提供一站式核心网络云端部署服务,促使用户云端部署化简为零,轻松快捷运用云计算。飞讯云是国内为数不多具有ISP/IDC双资质的专业云计算服务商,同时持有系统软件著作权证书、CNNIC地址分配联盟成员证书,通过了ISO27001信息安全管理体系国际认证、ISO9001质量保证体系国际认证。 《中华...
fileinputformat为你推荐
企鹅医生企鹅医生这个软件是真还是假啊at89s52单片机有谁知道单片机如AT89c52,AT89s52具体是指什么含义啊?知识分享平台关于分享职场技能的知识付费平台,大家有什么好推荐的吗?腾讯技术腾讯是什么东西?什么是生态系统生态系统的功能有什么?微信智能机器人有一个人加我微信,他说他自己是图灵机器人,我想问一下这是啥软件怎么可以自动回复微信?labelforandroid:labelfor是什么意思腾讯贴吧QQ贴吧图标灭了后该怎样再点亮?红牛下架红牛下架事件怎么回事?美宜佳最近怎么买不到红牛了?embed函数c语言“sqrt函数”的用法是什么?
vps试用 天津虚拟主机 北京vps 中文域名申请 wdcp 怎么测试下载速度 seednet 100m空间 183是联通还是移动 vip购优惠 512mb 阿里云官方网站 美国凤凰城 godaddy空间 开心online e-mail 服务器操作系统 美国vpn服务器 tracert 内存 更多