爬虫学习

程序员文章站 2022-03-02 19:32:31

...

爬虫学习：

1.保存HTML网页为本地文件，用到:

req=urllib2.Request(url,headers=headers)#发送请求
response=urllib2.urlopen(req)#获得并访问请求

page=response.read()

f=file("newname.html","w")
f.write(page)
f.close()

例子如下：

#本程序的目的，为了将需要的网页保存为本地文件，方便以后个人查询
#本程序仅仅是下载网页到本地（可以看成是将网页另存为本地文件）
#故没有涉及到模拟访问等内容
#文件保存命名时，推荐使用关键字眼，如“正列式”，"urllib2"，方便配合
#Everything搜索使用
# -*- coding: utf-8 -*-
import string, urllib2

#定义下载函数
def dowmload(url,inputname):
    sName = str(inputname) +'.html' #为新建文件指明名字及格式。

    print 'downloading...' + 'and save as  ' + sName + '...'

    f = file(sName,'w+')#“下载”即是保存为当地新建文件。

    m = urllib2.urlopen(url).read() #网页内容转化为文本

    f.write(m)#将上述文本写入新建的文件f当中

    f.close()#关闭

#-------- 在这里输入参数 ------------------
print  "***你好，欢迎使用本程序！***"
print "***开始下载网页到你电脑上！***"
print "！！！注意：主要是下载文字信息！！！"
url = str(raw_input(u'请输入需要下载HTML的地址(回车)：\n'))
inputname = raw_input(u'请输入文件名称（回车）：\n')
#-------- 在这里输入参数 ------------------

#调用
dowmload(url,inputname)

爬虫学习

爬虫学习：

scrapy在python爬虫中搭建出错的解决方法

Python 基本语法学习

C语言/C++编程学习：栈的代码实现之数组方案

Python学习笔记Day3

教你如何利用python3爬虫爬取漫画岛-非人哉漫画

C语言指针学习（4）指针和数组

HTML学习笔记

Mybatis源码学习第十一课---插件开发原理

PHP网页游戏学习之Xnova(ogame)源码解读（十四）_PHP

MYSQL C API 学习汇总