python处理cookie详解
要在用户浏览器上安装cookie,http服务器向http响应添加类似以下内容的http报头:
set-cookie:session=8345234;expires=sun,15-nov-2013 15:00:00 gmt;path=/;domain=baidu.com
expires是cookie的生存周期,path是cookie的有效路径,domain是cookie的有效域.
路径"path"用于设置可以读取一个cookie的最顶层的目录.
将cookie的路径设置为你的网页最顶层的目录可以让该该目录下的所有网页都能访问该cookie.
方法:在你的cookie中加入path=/; 如果你只想让"food" 目录中的网页可以使用该cookie,则你加入path=/food;.
domain:有些网站有许多小的域名,例如百度可能还在"news.baidu.com" "zhidao.baidu.com" 和"v.baidu.com" 域名下有网页.
如果想让"baidu.com"下的所有机器都可以读取该cookie,必须在cookie中加入 "domain=.baidu.com" .
用户浏览器会存储cookie直到过期,浏览器会向符合path和domain的服务器发送类似以下内容的http请求报头:
cookie:session=8345234。
例如,登陆www.baidu.com的时候,百度服务器发送回的http响应报头中cookie是:
set-cookie:h_ps_pssid=4681_4567_1452_9876_4759; path=/; domain=.baidu.com
set-cookie:bdsvrtm=74; path=/
浏览器的http请求报头:
cookie:baiduid=0fd996sdfg12********107b9c227f4c:fg=1; locale=zh; bdshare_firstime=1384567418140; nbid=d830dd2345hh2818a9f4134e5a2d778d3b:fg=1; h_ps_lc=4_shadu2014; bd_ck_sam=1; h_ps_pssid=4681_4567_1452_9876_4759
浏览器将cookie发送回http服务器时,使用key=value字符串的编码形式,不返回expires,path和domain等可选属性。
cookie字符串通常位于http_cookie环境变量中,可以如下读取:
import os
print "content-type: text/plain\n"
if "http_cookie" in os.environ:
print os.environ["http_cookie"]
else:
print "http_cookie not set!"
python中cookie模块(python2,python3中为http.cookies)提供了一个类似字典的特殊对象simplecookie,其中存储并管理着称为morsel的cookie值集合。
每个morsel都有name,value以及可选属性(expires,path,domain,comment,max-age,secure,version,httponly)。
simplecookie可使用output()方法创建以http报头形式表示的cookie数据输出,用js_output()方法生成包含javascript代码的字符串。
用http_cookie生成cookie:
cookie=cookie.simplecookie(os.environ['http_cookie'])
print cookie.output()
set cookie:
import cookie
import datetime
import random
expiration = datetime.datetime.now() + datetime.timedelta(days=30)
cookie = cookie.simplecookie()
cookie["session"] = random.randint(1,1000000000)
cookie["session"]["domain"] = ".baidu.com"
cookie["session"]["path"] = "/"
cookie["session"]["expires"] = expiration.strftime("%a, %d-%b-%y %h:%m:%s pst")
print "content-type: text/plain"
print cookie.output()
print "cookie set with: " + cookie.output()
输出:
content-type: text/plain
set-cookie: session=155209565; domain=.jayconrod.com; expires=mon, 03-mar-2014 07:42:47 pst; path=/
cookie set with: set-cookie: session=155209565; domain=.jayconrod.com; expires=mon, 03-mar-2014 07:42:47 pst; path=/
python中cookielib库(python3中为http.cookiejar)为存储和管理cookie提供客户端支持。
该模块主要功能是提供可存储cookie的对象。使用此模块捕获cookie并在后续连接请求时重新发送,还可以用来
处理包含cookie数据的文件。
这个模块主要提供了这几个对象,cookiejar,filecookiejar,mozillacookiejar,lwpcookiejar。
cookiejar对象存储在内存中。
>>> import urllib2
>>> import cookielib
>>> cookie=cookielib.cookiejar()
>>> handler=urllib2.httpcookieprocessor(cookie)
>>> opener=urllib2.build_opener(handler)
>>> opener.open('http://www.google.com.hk')<addinfourl at 161806444 whose fp = <socket._fileobject object at 0x9a348ac>>
访问google的cookie已经被捕捉了。
来看下是怎样的:
>>> print cookie
<cookielib.cookiejar[<cookie nid=67=b6yqoeiejcqdj-adada_wmnyl_jvadsdedchftmtagertgrjk452ko6gr9g0q5p9h1vlmhpcr56xcrwwg1pv6iqhznavlnwoem-ln7kiuwi92l-x2fvuqgwdnn3qowdw for .google.com.hk/>, <cookie pref=id=7ae0fa51234ce2b1:ff=0:nw=1:tm=1391219446:lm=1391219446:s=cfiz5x8ts9ny3cmk for .google.com.hk/>]>
看来是cookie实例的集合,cookie实例有name,value,path,expires等属性:
>>> for ck in cookie:
... print ck.name,':',ck.value
...
nid : 67=b6yqoeiejcqdj-adada_wmnyl_jvadsdedchftmtagertgrjk452ko6gr9g0q5p9h1vlmhpcr56xcrwwg1pv6iqhznavlnwoem-ln7kiuwi92l-x2fvuqgwdnn3qowdw
pref : id=7ae0fa51234ce2b1:ff=0:nw=1:tm=1391219446:lm=1391219446:s=cfiz5x8ts9ny3cmk
也可以将cookie捕捉到文件中。
filecookiejar(filename)
创建filecookiejar实例,检索cookie信息并将信息存储到文件中,filename是文件名。
mozillacookiejar(filename)
创建与mozilla cookies.txt文件兼容的filecookiejar实例。
lwpcookiejar(filename)
创建与libwww-perl set-cookie3文件兼容的filecookiejar实例。
代码:
import urllib2
import cookielib
def handlecookie():
#handle cookie whit file
filename='filecookiejar.txt'
url='http://www.google.com.hk'
filecookiejar=cookielib.lwpcookiejar(filename)
filecookejar.save()
opener =urllib2.build_opener(urllib2.httpcookieprocessor(filecookiejar))
opener.open(url)
filecookiejar.save()
print open(filename).read()
#read cookie from file
readfilename = "readfilecookiejar.txt"
mozillacookiejarfile =cookielib.mozillacookiejar(readfilename)
print mozillacookiejarfile
mozillacookiejarfile.load(cookiefilenamemozilla)
print mozillacookiejarfile
if __name__=="__main__":
handlecookie()
上一篇: SEOer 常常遇到的一些问题与总结
下一篇: 中国式微营销,能走多远?