深入了解Hadoop如何实现序列化
前言
序列化想必大家都很熟悉了,对象在进行网络传输过程中,需要序列化之后才能传输到客户端,或者客户端的数据序列化之后送达到服务端
序列化的标准解释如下:
序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输
对应的反序列化为序列化的逆向过程
反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象
为什么要序列化
一般来说,程序动态创建出来的“活的” 对象只生存在内存里,一旦服务停机或断电就没了。而且“活”对象只能存活于本地进程,不能发送到网络上其他的服务器或者进程中使用。 然而通过序列化之后,则可以存储“活的”对象,从而进行网络传输,提供给其他进程或机器使用。
为什么不使用java序列化
在java中,创建一个对象如果希望这个对象是序列化的对象,只需要实现serializable接口即可,但java的序列化在hadoop看来,是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),从而不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制,只需要对象实现writable接口,重写里面的两个方法。
hadoop序列化特点
- 紧凑 :高效使用存储空间
- 快速:读写数据的额外开销小
- 互操作:支持多语言的交互
hadoop序列化业务场景
在真实的业务场景中,类似于wordcount那样的单个字符串的场景很少,而且无法应对各种复杂的大数据场景和海量数据的处理业务,因此在传输过程中,为了更加灵活的进行数据在map、reduce中的传输,将解析到的数据以序列化对象的方式传输,是非常便捷的
在hadoop中,具体实现bean对象序列化步骤如下7步:
- 实现writable接口
- 反序列化时,需要反射调用空参构造函数,即类对象中必须有空参构造
- 重写序列化write的方法
- 重写反序列化的readfields方法
- 注意反序列化的顺序和序列化的顺序完全一致
- 若想把结果显示在文件中,需重写tostring(),可用"\t"分开,方便后续用
- 如果需将自定义的bean放在key中传输,还需要实现comparable接口,因为mapreduce框中shuffle过程要求对key必须能排序
案例业务描述
业务需求描述,如下数据为从某个地方导出来的一批统计手机号峰值流量和低谷流量的文本文件,现在的业务需求是,通过程序,最终输出各个手机号对应的峰值流量、低谷流量以及总流量的统计分析文件
那么最终的效果可按如下格式输出
了解了上面的业务后,下面开始按照前面描述的几个步骤进行编码实现
编码实现
1、定义一个封装手机流量各个属性的对象
从wordcount的案例中我们了解了使用mapreduce编码的基本编码套路,即map逻辑中读取原始数据文件,然后传递到reduce中
同样,在这里的map逻辑中,需要读取上面的原始的流量文本文件,但是既然在reduce中要能实现最终的统计输出,那么从map中出来的数据格式,必然是已经处理好的bean对象,key为手机号,而value值则为封装了当前手机号对应的峰值流量、低谷流量以及计算的总流量信息
了解了这一点,就大概知道这个bean对象该如何定义了
import org.apache.hadoop.io.writable; import java.io.datainput; import java.io.dataoutput; import java.io.ioexception; public class phonebean implements writable { //峰值流量 private long upflow; //低谷流量 private long downflow; //总流量 private long sumflow; //提供无参构造 public phonebean() { } //提供三个参数的getter和setter方法 public long getupflow() { return upflow; } public void setupflow(long upflow) { this.upflow = upflow; } public long getdownflow() { return downflow; } public void setdownflow(long downflow) { this.downflow = downflow; } public long getsumflow() { return sumflow; } public void setsumflow(long sumflow) { this.sumflow = sumflow; } public void setsumflow() { this.sumflow = this.upflow + this.downflow; } //实现序列化和反序列化方法,注意顺序一定要保持一致 @override public void write(dataoutput dataoutput) throws ioexception { dataoutput.writelong(upflow); dataoutput.writelong(downflow); dataoutput.writelong(sumflow); } @override public void readfields(datainput datainput) throws ioexception { this.upflow = datainput.readlong(); this.downflow = datainput.readlong(); this.sumflow = datainput.readlong(); } //重写tostring方法 @override public string tostring() { return upflow + "\t" + downflow + "\t" + sumflow; } }
2、自定义mapper类
该类读取和解析文本文件,将各个手机号的属性封装到phonebean对象中,并输出到reduce使用
import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; import java.io.ioexception; public class phonemapper extends mapper<longwritable, text, text, phonebean> { private text outk = new text(); private phonebean outv = new phonebean(); @override protected void map(longwritable key, text value, context context) throws ioexception, interruptedexception { string line = value.tostring(); //分割数据 string[] split = line.split("\t"); //抓取需要的数据:手机号,上行流量,下行流量 string phone = split[1]; string max = split[3]; string mine = split[4]; //封装outk outv outk.set(phone); outv.setupflow(long.parselong(max)); outv.setdownflow(long.parselong(mine)); outv.setsumflow(); //写出outk outv context.write(outk, outv); } }
3.、自定义reduce类
关于reduce中的入参类型和出参类型,到这里想必都已经了解,就不再过多解释了
import org.apache.commons.lang3.stringutils; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; import java.io.ioexception; import java.util.linkedlist; public class phonemapper extends mapper<longwritable, text, text, phonebean> { private text outk = new text(); private phonebean outv = new phonebean(); @override protected void map(longwritable key, text value, context context) throws ioexception, interruptedexception { string line = value.tostring(); //分割数据 string[] splits = line.split("\t"); linkedlist<string> linkedlist = new linkedlist<>(); for(string str:splits){ if(stringutils.isnotempty(str)){ linkedlist.add(str.trim()); } } //抓取需要的数据:手机号,上行流量,下行流量 string phone = linkedlist.get(1); string max = linkedlist.get(3); string mine = linkedlist.get(4); //封装outk outv outk.set(phone); outv.setupflow(long.parselong(max)); outv.setdownflow(long.parselong(mine)); outv.setsumflow(); //写出outk outv context.write(outk, outv); } }
4、job类
依照wordcount案例中的模板做即可
import org.apache.hadoop.conf.configuration; import org.apache.hadoop.fs.path; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.job; import org.apache.hadoop.mapreduce.lib.input.fileinputformat; import org.apache.hadoop.mapreduce.lib.output.fileoutputformat; public class phonejob { public static void main(string[] args) throws exception { //1 获取job对象 configuration conf = new configuration(); job job = job.getinstance(conf); //2 关联本driver类 job.setjarbyclass(phonejob.class); //3 关联mapper和reducer job.setmapperclass(phonemapper.class); job.setreducerclass(phonereducer.class); //4 设置map端输出kv类型 job.setmapoutputkeyclass(text.class); job.setmapoutputvalueclass(phonebean.class); //5 设置程序最终输出的kv类型 job.setoutputkeyclass(text.class); job.setoutputvalueclass(phonebean.class); //6 设置程序的输入输出路径 string inpath = "f:\\网盘\\csv\\phone_data.txt"; string outpath = "f:\\网盘\\csv\\out.txt"; fileinputformat.setinputpaths(job, new path(inpath)); fileoutputformat.setoutputpath(job, new path(outpath)); //7 提交job boolean b = job.waitforcompletion(true); system.exit(b ? 0 : 1); } } }
运行这段程序,观察是否在输出的目标路径下,生成了统计结果
打开最后那个文件,然后对比下原始的文件,正好满足预期的业务需求
以上就是深入了解hadoop如何实现序列化的详细内容,更多关于hadoop序列化的资料请关注其它相关文章!
上一篇: iQOO9好不好用 iQOO9使用体验
下一篇: Python新年炫酷烟花秀代码