爬虫学习
程序员文章站
2022-03-02 19:32:31
...
爬虫学习:
1.保存HTML网页为本地文件,用到:
req=urllib2.Request(url,headers=headers)#发送请求
response=urllib2.urlopen(req)#获得并访问请求
page=response.read()
f=file("newname.html","w")
f.write(page)
f.close()
例子如下:
#本程序的目的,为了将需要的网页保存为本地文件,方便以后个人查询
#本程序仅仅是下载网页到本地(可以看成是将网页另存为本地文件)
#故没有涉及到模拟访问等内容
#文件保存命名时,推荐使用关键字眼,如“正列式”,"urllib2",方便配合
#Everything搜索使用
# -*- coding: utf-8 -*-
import string, urllib2
#定义下载函数
def dowmload(url,inputname):
sName = str(inputname) +'.html' #为新建文件指明名字及格式。
print 'downloading...' + 'and save as ' + sName + '...'
f = file(sName,'w+')#“下载”即是保存为当地新建文件。
m = urllib2.urlopen(url).read() #网页内容转化为文本
f.write(m)#将上述文本写入新建的文件f当中
f.close()#关闭
#-------- 在这里输入参数 ------------------
print "***你好,欢迎使用本程序!***"
print "***开始下载网页到你电脑上!***"
print "!!!注意:主要是下载文字信息!!!"
url = str(raw_input(u'请输入需要下载HTML的地址(回车):\n'))
inputname = raw_input(u'请输入文件名称(回车):\n')
#-------- 在这里输入参数 ------------------
#调用
dowmload(url,inputname)
2.
上一篇: 爬虫学习