欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

爬虫学习

程序员文章站 2022-03-02 19:32:31
...

爬虫学习:

1.保存HTML网页为本地文件,用到:

req=urllib2.Request(url,headers=headers)#发送请求
response=urllib2.urlopen(req)#获得并访问请求

page=response.read()

f=file("newname.html","w")
f.write(page)
f.close()

例子如下:

#本程序的目的,为了将需要的网页保存为本地文件,方便以后个人查询
#本程序仅仅是下载网页到本地(可以看成是将网页另存为本地文件)
#故没有涉及到模拟访问等内容
#文件保存命名时,推荐使用关键字眼,如“正列式”,"urllib2",方便配合
#Everything搜索使用
# -*- coding: utf-8 -*-
import string, urllib2

#定义下载函数
def dowmload(url,inputname):
    sName = str(inputname) +'.html' #为新建文件指明名字及格式。

    print 'downloading...' + 'and save as  ' + sName + '...'

    f = file(sName,'w+')#“下载”即是保存为当地新建文件。

    m = urllib2.urlopen(url).read() #网页内容转化为文本

    f.write(m)#将上述文本写入新建的文件f当中

    f.close()#关闭

#-------- 在这里输入参数 ------------------
print  "***你好,欢迎使用本程序!***"
print "***开始下载网页到你电脑上!***"
print "!!!注意:主要是下载文字信息!!!"
url = str(raw_input(u'请输入需要下载HTML的地址(回车):\n'))
inputname = raw_input(u'请输入文件名称(回车):\n')
#-------- 在这里输入参数 ------------------

#调用
dowmload(url,inputname)

2.

相关标签: 爬虫