重复读取InputStream的方法
程序员文章站
2022-07-12 13:33:52
...
在这篇博客中我们已经知道了Java的InputStream是不能重复被读取的。
但是在有的场合中,我们需要重复利用InputStream的数据。
比如:
1. 一个office word文件流,我需要首先读取InputStream中的前一些字节来判断word文件的实际内容(word文件可以保存html,mht的内容)。然后再根据实际内容决定我要解析InputStream的方式。
2. 一个Html文件流,我需要首先读取InputStream中的一些字节来判断Html文件编码方式。然后再根据html文件编码方式读取Html内容。
3. 从socket收到的一个InputStream,我首先需要读取InputStream判断是什么类型的字符串。然后再将InputStream读取写到文件里。
总之,在实际的工作当中,我们常常会需要多次读取一个InputStream的需求。
如果该InputStream是我们通过某种方式“主动”获取的,那我们可以不必重复读取一个InputStream,而是再次获取一样数据的InputStream来处理。
例如:
再例如:
但是,对于“被动”利用InputStream的接口,在接口内部需要重复利用InputStream,对于InputStream的来源,可能是文件,可能是网络,也可能是内存里的一个String,对于InputStream的方式接口内部不得而知,因此更谈不上在接口内部重复获取了。
例如有这样一个接口:
在接口内部我们可能需要首先读取InputStream前n个字节来判断InputStream流的数据流型,然后转化InputStream为一个字符串。
最简单的方式就是缓存,首先将InputStream缓存到内存,然后重复使用内存里的数据。
例如:
接口内部使用情景:
上述的方式是将InputStream缓存到一个ByteArrayOutputStream中,当然缓存的数据类型和方式都是任意的,这只是一种解决思路。
这种方式有一个最大的缺点,就是内存压力。
外部传给接口的InputStream有可能很大。每调用一次接口就将InputStream缓存到内存中,内存要承受的压力是可想而知的。
编程永远都是在时间和空间之间找到一个平衡点,前面说的“主动获取方式”的重复获取也有它的缺点,就是需要重新读取文件,获取重新建立网络连接等,这就是需要消耗更多的时间。
万事万物都是这样,天下没有完美的事,有舍才有得,选择什么就意味着放弃什么,开了一扇窗可能就要关一扇门。所以不管是生活还是编程,我们都需要在舍与得,选择的与放弃的,窗和门之间做出相对合理的抉择,或者说不得不做的抉择。
闲话扯远了,其实重复利用InputStream还有另一种方式:
通过mark和reset方法重复利用InputStream
但是在有的场合中,我们需要重复利用InputStream的数据。
比如:
1. 一个office word文件流,我需要首先读取InputStream中的前一些字节来判断word文件的实际内容(word文件可以保存html,mht的内容)。然后再根据实际内容决定我要解析InputStream的方式。
2. 一个Html文件流,我需要首先读取InputStream中的一些字节来判断Html文件编码方式。然后再根据html文件编码方式读取Html内容。
3. 从socket收到的一个InputStream,我首先需要读取InputStream判断是什么类型的字符串。然后再将InputStream读取写到文件里。
总之,在实际的工作当中,我们常常会需要多次读取一个InputStream的需求。
如果该InputStream是我们通过某种方式“主动”获取的,那我们可以不必重复读取一个InputStream,而是再次获取一样数据的InputStream来处理。
例如:
InputStream inputStream = new FileInputStream(path); //利用inputStream inputStream = new FileInputStream(path); //再次利用inputStream
再例如:
InputStream inputStream = httpconn.getInputStream(); //利用inputStream inputStream = httpconn.getInputStream(); //再次利用inputStream
但是,对于“被动”利用InputStream的接口,在接口内部需要重复利用InputStream,对于InputStream的来源,可能是文件,可能是网络,也可能是内存里的一个String,对于InputStream的方式接口内部不得而知,因此更谈不上在接口内部重复获取了。
例如有这样一个接口:
//将InputStream转换成一个文本字符串 public String convert(InputStream inputStream);
在接口内部我们可能需要首先读取InputStream前n个字节来判断InputStream流的数据流型,然后转化InputStream为一个字符串。
最简单的方式就是缓存,首先将InputStream缓存到内存,然后重复使用内存里的数据。
例如:
package com.gs.cvoud.attachment.converter; import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.InputStream; import com.gs.cvoud.util.ObjectUtils; /** * 缓存InputStream,以便InputStream的重复利用 * @author boyce * @version 2014-2-24 */ public class InputStreamCacher { private static final org.slf4j.Logger logger = org.slf4j.LoggerFactory.getLogger(InputStreamCacher.class); /** * 将InputStream中的字节保存到ByteArrayOutputStream中。 */ private ByteArrayOutputStream byteArrayOutputStream = null; public InputStreamCacher(InputStream inputStream) { if (ObjectUtils.isNull(inputStream)) return; byteArrayOutputStream = new ByteArrayOutputStream(); byte[] buffer = new byte[1024]; int len; try { while ((len = inputStream.read(buffer)) > -1 ) { byteArrayOutputStream.write(buffer, 0, len); } byteArrayOutputStream.flush(); } catch (IOException e) { logger.error(e.getMessage(), e); } } public InputStream getInputStream() { if (ObjectUtils.isNull(byteArrayOutputStream)) return null; return new ByteArrayInputStream(byteArrayOutputStream.toByteArray()); } }
接口内部使用情景:
InputStreamCacher cacher = new InputStreamCacher(inputStream); InputStream stream = cacher.getInputStream(); //读取stream stream = cacher.getInputStream();
上述的方式是将InputStream缓存到一个ByteArrayOutputStream中,当然缓存的数据类型和方式都是任意的,这只是一种解决思路。
这种方式有一个最大的缺点,就是内存压力。
外部传给接口的InputStream有可能很大。每调用一次接口就将InputStream缓存到内存中,内存要承受的压力是可想而知的。
编程永远都是在时间和空间之间找到一个平衡点,前面说的“主动获取方式”的重复获取也有它的缺点,就是需要重新读取文件,获取重新建立网络连接等,这就是需要消耗更多的时间。
万事万物都是这样,天下没有完美的事,有舍才有得,选择什么就意味着放弃什么,开了一扇窗可能就要关一扇门。所以不管是生活还是编程,我们都需要在舍与得,选择的与放弃的,窗和门之间做出相对合理的抉择,或者说不得不做的抉择。
闲话扯远了,其实重复利用InputStream还有另一种方式:
通过mark和reset方法重复利用InputStream
上一篇: hadoop中hdfs读取文件的原理剖析
下一篇: Solr与Mysql简单集成