Http协议Content-Length详解

程序员文章站 2024-01-26 20:53:46

http协议是互联网中最重要的协议之一，虽然看上去很简单，但是实际中经常遇到问题，我们就已经遇到好几次了。有长连接相关的，有报文解析相关的。对http协议不能一知半解，必须透彻理解才行。本文通过一个线上实例，详细介绍http协议中的content-length字段。 ......

前言

http协议是互联网中最重要的协议之一，虽然看上去很简单，但是实际中经常遇到问题，我们就已经遇到好几次了。有长连接相关的，有报文解析相关的。对http协议不能一知半解，必须透彻理解才行。本文通过一个线上实例，详细介绍http协议中的content-length字段。

问题

我们的手机app在做更新时会从服务器上下载的一些资源，一般都是一些小文件，更新的代码差不多是下面这样的：

static void update() throws ioexception {
    url url = new url("http://172.16.59.129:8000/update/test.so");
    httpurlconnection conn = (httpurlconnection) url.openconnection();
    if(conn.getresponsecode() == 200) {
        int totallength = conn.getcontentlength();
    bufferedinputstream in = new bufferedinputstream(conn.getinputstream());
    byte[] buffer = new byte[512];
    int readlength = 0;
    int length = 0;
    while((length=in.read(buffer)) != -1) {
        readlength += length;
        //进度条
        system.out.println(((float)readlength) /((float)(totallength)));
    }
    }
}

比如上面的代码更新一个so文件，先通过content-length获取文件的总大小，然后读stream，每读一段，就计算出当前读的总大小，除以content-length，用来显示进度条。

结果weblogic从10升级到12后，content-length一直返回-1，这样就不能显示进度条了，但是文件流还能正常读。把weblogic重启了，一开始还能返回content-length，一会又是-1了。

原因分析

http协议的请求报文和回复报文都有header和body，body就是你要获取的资源，例如一个html页面，一个jpeg图片，而header是用来做某些约定的。例如客户端与服务端商定一些传输格式，客户端先获取头部，得知一些格式信息，然后才开始读取body。

客户端： accept-encoding:gzip （给我压缩一下，我用的是流量，先下载下来我再慢慢解压吧）

服务端1：content-encoding:null(没有content-encoding头。我不给压缩，cpu没空，你爱要不要）

服务端2：content-encoding:gzip (给你节省流量，压缩一下）

客户端：connection: keep-alive (大哥，咱好不容易建了个tcp连接，下次接着用）

服务端1: connection: keep-alive （都不容易，接着用）

服务端2: connection: close (谁跟你接着用，我们这个tcp是一次性的，下次再找我还得重新连)

http协议没有三次握手，一般客户端向服务端请求资源时，以服务端为准。还有一些header并没有协商的过程，而是服务端直接告诉客户端按什么来。例如上述的content-length，是服务端告诉客户端body的大小有多大。但是！服务端并不一定能准确的提前告诉你body有多大。服务端要先写header，再写body，如果要在header里把body大小写进去，就得提前知道body大小。如果这个body是动态生成的，服务端先生成完，再开始写header，这样需要很多额外的开销，所以header里不一定有content-length。

那客户端怎么知道body的大小呢？服务器有三种方式告诉你。

1.服务器已经知道资源大小，通过content-length这个header告诉你。

content-length:1076(body的大小是1076b，你读取1076b就可以完成任务了）
transfer-encoding: null

2.服务器没法提前知道资源的大小，或者不愿意花费资源提前计算资源大小，就会把http回复报文中加一个header叫transfer-encoding:chunked，就是分块传输的意思。每一块都使用固定的格式，前边是块的大小，后面是数据，然后最后一块大小是0。这样客户端解析的时候就需要注意去掉一些无用的字段。

content-length:null
transfer-encoding:chunked (接下来的body我要一块一块的传，每一块开始是这一块的大小，等我传到大小为0的块时，就没了）

3.服务器不知道资源的大小，同时也不支持chunked的传输模式，那么就既没有content-length头，也没有transfer-encoding头，这种情况下必须使用短连接，以连接结束来标示数据传输结束，传输结束就能知道大小了。这时候服务器返回的header里connection一定是close。

content-length:null

transfer-encoding:null

connection:close(我不知道大小，我也用不了chunked，啥时候我关了tcp连接，就说明传输结束了）

实验

我通过nginx在虚拟机里做实验，默认nginx是支持chunked模式的，可以关掉。

使用的代码如下，可能会调整参数。

static void update() throws ioexception {
    url url = new url("http://172.16.59.129:8000/update/test.so");
    httpurlconnection conn = (httpurlconnection) url.openconnection();
    //conn.setrequestproperty("accept-encoding", "gzip");
    //conn.setrequestproperty("connection", "keep-alive");
    conn.connect();
    if(conn.getresponsecode() == 200) {
        system.out.println(conn.getheaderfields().keyset());
        system.out.println(conn.getheaderfield("transfer-encoding"));
        system.out.println(conn.getheaderfield("content-length"));
        system.out.println(conn.getheaderfield("content-encoding"));
        system.out.println(conn.getheaderfield("connection"));
    }
}

1.nginx在开启chunked_transfer_encoding的时候

(1) 在reqeust header里不使用gzip，也就是不加accept-encoding:gzip

test.so文件大小	结果
100b	能正常返回content-length,没有transfer-encoding头
69m	能正常返回content-length,没有transfer-encoding头
3072m	能正常返回content-length,没有transfer-encoding头

可以发现nginx不管资源多大，如果客户端不接受gzip的压缩格式，就不会使用chunked模式，而且跟是否使用短连接没关系。

(2)在request header里加入gzip，accepting-encoding:gzip

test.so文件大小	结果
100b	没有content-length,transfer-encoding=trunked
69m	没有content-length,transfer-encoding=trunked
3072m	没有content-length,transfer-encoding=trunked

可以看到nginx在开启chunked_transfer_encoding，并且客户端接受gzip的时候，会使用chunked模式，nginx开启gzip后不会计算资源的大小，直接用chunked模式。

2.nginx关闭chunked_transfer_encoding

(1) 在reqeust header里不使用gzip，也就是不加accept-encoding:gzip

test.so文件大小	结果
100b	能正常返回content-length,没有transfer-encoding头
69m	能正常返回content-length,没有transfer-encoding头
3072m	能正常返回content-length,没有transfer-encoding头

因为能很容易的知道文件大小，所以nginx还是能返回content-length。

(2)在request header里加入gzip，accepting-encoding:gzip

test.so文件大小	结果
100b	没有content-length和transfer-encoding头，不论客户端connection为keep-alive还是close，服务端返回的connection头都是close
69m	没有content-length和transfer-encoding头，不论客户端connection为keep-alive还是close，服务端返回的connection头都是close
3072m	没有content-length和transfer-encoding头，不论客户端connection为keep-alive还是close，服务端返回的connection头都是close

这就是上面说的第三种情况，不知道大小，也不支持trunked，那就必须使用短连接来标示结束。

问题解决方案

咨询了中间件组的同事，以前也遇到类似的问题，因为升级了weblogic导致客户端解析xml出错，因为使用了chunked模式，中间有一些格式化的字符，而客户端解析的代码并没有考虑chunked模式的解析，导致解析出错。

因为我们客户端必须用content-length展示进度，因此不能用chunked模式，weblogic可以把chunked模式关闭。用下面的方法：

#!java weblogic.wlst 
connect('username’,'password', 't3://localhost:7001')
edit()
startedit()
cd("servers/adminserver/webserver/adminserver")
cmo.setchunkedtransferdisabled(true)
save()
activate()
exit()

改了之后，确实不返回chunked了，但是也没有content-length，因为weblogic就是不提前获取文件大小，而是强制加了connection:close，也就是前边说的第三种，通过连接结束标识数据结束。最后只能把这些资源放倒apache里了。

总结

一个好的http客户端，必须充分实现协议，不然就可能出问题，浏览器对于服务端可能产生的各种情况都很好的做了处理，但是自己实现http协议的解析时一定得注意考虑多种情况。

上一篇： Redis面试篇 -- Redis主从复制原理

下一篇：通过反射对任意class类中方法赋值的方式

Http协议Content-Length详解

前言

问题

原因分析

实验

1.nginx在开启chunked_transfer_encoding的时候

2.nginx关闭chunked_transfer_encoding

问题解决方案

总结

Nginx反向代理tcp和http协议配置

初识HTTP协议（8）---反向代理

SpringBoot系列五、Http协议开发

简易爬虫实践：http协议请求代理proxy、header

2.http协议:用户代理,状态码,请求头等

HTTP消息、DNS服务与协议栈消息发送

http协议模拟发送

https协议详解

HTTP与HTTP协议

web笔记三：Http协议中get和post请求