Python爬虫入门笔记

程序员文章站 2024-02-19 18:41:10

...

Python爬虫入门笔记

读取文件匹配格式并写入文件

import re
data=open("f:/source.txt","r").read()
pat="<div class=\"name\">(.*?)</div>"
res=re.compile(pat).findall(data)
fh=open("f:/newtxt.txt","w")
for i in res:
    fh.write(i+"\n")
fh.close()

构造测试URL

import urllib.request
keywd="the"
keywd=urllib.request.quote(keywd)
url="http://www.baidu.com/s?ie=UTF-8&wd="+keywd
req=urllib.request.Request(url)
data=urllib.request.urlopen(req).read()
fh1=open("f:/1.html","wb")
fh1.write(data)
fh1.close()

构造URL post

import urllib.request
import urllib.parse
url="https://www.iqianyue.com/mypost"
mydata=urllib.parse.urlencode({"name":"[email protected]","pass":"123456"}).encode("utf-8")
req=urllib.request.Request(url,mydata)
#req.add_header
data=urllib.request.urlopen(req).read()
fh=open("f:/python study/3.html","wb")
fh.write(data)
fh.close()

测试url retreve捕获网页至本地

import urllib.request
urllib.request.urlretrieve("https://www.hellobi.com/",filename="f:/python study/4.html")

output

('f:/python study/4.html', <http.client.HTTPMessage at 0x1fb9efc2c88>)

测试urlopen的timeout

import urllib.request
#data=urllib.request.urlopen("https://www.hellobi.com/",timeout=0.244)
for i in range(0,100):
    try:
        file=urllib.request.urlopen("https://www.hellobi.com/",timeout=0.244)
        print(file.getcode())
    except Exception as e:
        print("出现异常"+str(e)+str(file.getcode()))

Python爬虫入门笔记

Python爬虫入门笔记

读取文件匹配格式并写入文件

构造测试URL

构造URL post

测试url retreve捕获网页至本地

output

测试urlopen的timeout

python实践到入门，外星人项目12章的习题的自我练习

Python爬虫入门笔记

《python编程从入门到实践》Django项目注意点和心得：第18章 Django入门其一

《python编程从入门到实践》Django项目注意点和心得：第18章 Django入门其二

Python爬虫入门笔记

mongodb 学习笔记之二 mongodb入门（数据库、文档和集合）

python中import学习备忘笔记

python制作爬虫爬取京东商品评论教程

python moviepy 的用法入门篇

python开源爬虫框架scrapy源码解析（二）