hadoop求最大值问题,代码比求最值前N个要简单一些,因为直接使用LongWritable类型,不需要自定义hadoop对象进行比较,所以直接覆盖map和reduce方法,并且覆盖cleanup方法,这是在map和reduce都执行完成之后才会执行的方法,只需要把最大值写入即可
public class MySuper {
public static void main(String[] args) throws Exception {
final String INPUT_PATHs = "hdfs://chaoren:9000/seq100w.txt";
final String OUT_PATHs = "hdfs://chaoren:9000/out";
Configuration conf = new Configuration();
final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATHs), conf);
final Path outPath = new Path(OUT_PATHs);
if(fileSystem.exists(outPath)){
fileSystem.delete(outPath, true);
}
final Job job = new Job(conf , MySuper.class.getSimpleName());
FileInputFormat.setInputPaths(job, INPUT_PATHs);
job.setMapperClass(MyMapper2.class);
job.setReducerClass(MyReducer2.class);
job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(NullWritable.class);
FileOutputFormat.setOutputPath(job, outPath);
job.waitForCompletion(true);
}
}
class MyMapper2 extends Mapper<LongWritable, Text, LongWritable, NullWritable>{
long max = Long.MIN_VALUE;
protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {
final long temp = Long.parseLong(v1.toString());
if(temp>max){
max = temp;
}
};
protected void cleanup(org.apache.hadoop.mapreduce.Mapper<LongWritable,Text,LongWritable, NullWritable>.Context context) throws java.io.IOException ,InterruptedException {
context.write(new LongWritable(max), NullWritable.get());
};
}
class MyReducer2 extends Reducer<LongWritable, NullWritable, LongWritable, NullWritable>{
long max = Long.MIN_VALUE;
protected void reduce(LongWritable k2, java.lang.Iterable<NullWritable> arg1, org.apache.hadoop.mapreduce.Reducer<LongWritable,NullWritable,LongWritable,NullWritable>.Context arg2) throws java.io.IOException ,InterruptedException {
final long temp = k2.get();
if(temp>max){
max = temp;
}
};
protected void cleanup(org.apache.hadoop.mapreduce.Reducer<LongWritable,NullWritable,LongWritable,NullWritable>.Context context) throws java.io.IOException ,InterruptedException {
context.write(new LongWritable(max), NullWritable.get());
};
}
分享到:
相关推荐
java操作hadoop之mapreduce计算整数的最大值和最小值实战源码,附带全部所需jar包,欢迎下载一起学习。
(1)统计全球每年的最高气温和最低气温。 (2)MapReduce输出结果包含年份、最高气温、最低气温,并按最高气温降序排序。如果最高气温相同,则按最低气温升序排序。 (3)使用自定义数据类型。 (4)结合Combiner和自定义...
Hadoop 分析统计学生考试成绩1
(1)统计全球每年的最高气温和最低气温。 (2)MapReduce输出结果包含年份、最高气温、最低气温,并按最高气温降序排序。如果最高气温相同,则按最低气温升序排序。 (3)使用自定义数据类型。 (4)结合Combiner和自定义...
基于Hadoop Streaming的数据分析工具描述:这是一个数据分析工具,用于在 Hadoop Streaming 上运行的基本数据分析。 功能: 计算描述性统计量最小值,最大值直方图吝啬的变化标准变异
Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行,你可以用ulimit -n 命令进行修改,或者修改/etc/security/...
word源码java hadoop-test hadoop、mapreduce的一些练习 包org.dan.service Hadoop ...包org.dan.mr.max_order_price MapReduce编写自定义的Partitioner和GroupingComparator实现高效求最大值 包org.dan.mr.smallfile M
由于 Hive 是建立在 Hadoop 之上的,因此 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的(世界上最大的 Hadoop 集群在 Yahoo!,2009年的规模在 4000 台节点左右)。而数据库由于 ACID 语义的严格限制,扩展行非常...
Hadoop、Spark、Kafka、Hbase..... 等,更新中... 综合实践项目 项目名 说明 使用 Spark SQL imooc 访问日志,数据清洗,统计,可视化 入门学习示例 项目名 所属组件 介绍 MapReduce MapReduce 实验 - 计算气温 最大...
4.查找大量数字的最小值,最大值和中位数 使用自定义分区程序来区分自然键和排序键。 5.找到两个巨大的稀疏矩阵相乘的结果矩阵 数据中的每一行都具有以下形式: A,0、172、5 在此,A是该行所属的矩阵。 0是行号。...
Hadoop-Analytics---RHadoop 简短描述 在本项目中,您将编写在 Hadoop 中实现数据挖掘和机器学习技术的 map-reduce 作业。 更具体地说,您将实施 K-Means 聚类技术并学习 RHadoop。 问题 1(K-Means 聚类)[50 分] K...
利用MapReduce实现了求学生成绩的最大值,最小值,及成绩分布。结合我的博客“MapReduce之学生平均成绩”看,效果更好。
如果您安装了 Hadoop,您可以使用“hadoop jar”命令来获取包含您需要的 jar 的 CLASSPATH 环境。 如果没有,您必须自己设置 CLASSPATH,以便它包含所有 htrace jar 文件。 ~ > hadoop jar target/htrace-flooder-...
为解决电力危险点异构化检测问题,提高...实验结果表明:与SVG检测技术相比,采用本文检测方法动态PCA指标最大值达到85.3 %,电力危险点的异构化分布范围明显缩小,有效解决了电网环境动态节点的目的性调度分配问题。
将数组的不同部分分给不同的进程,每个进程得出部分的最大值,然后汇总到根进程,进行判断,最后得到整个数组的最大值。 mpi_sinx.c 并行求sinx的积分 采用分割法,将区域分成很多份,每个进程再对分到的区域进行...
求所有文件中数值的最大三个值( Top 3 ),并按降序输出。MR编程mapper,reducer,combiner类的源代码
ElasticMapReduce 使用Hadoop进行Elastic ... 温度和风的最大值和最小值的输出直接写入输出文件“ part-r-00000”,该文件在项目目录下的“输出”文件夹中创建。 每个类别的值并单独列出,但以正确的升序排列。
大数据处理和分析的分布式架构(2020/2021) 都灵理工大学“分布式体系结构”课程的...字数 字数 筛选星火RDD 练习文本:数字锻炼 日志过滤 日志分析 最大值 前k个最大值 与最大值关联的日期 与最大值关联的日期 平均值
已知有若干个文件(多个),文件中包含若干个正整数,每行一个,示例如下: 45 3 78 456 70 1 999 。。。 编写MR程序分别求解所有文件中最大的三个值(TOP 3)
mr各种应用场景的例子,1.1 内存排序1.2 mr数据类型1.3 自定义mr数据类型1.4 使用自定义数据实现内存排序1.5 二次排序1.6 使用自定义mr数据类型实现二次排序1.7 内存排序找出每一组中的最大值1.8 排序找出每一组中的...