简单的python网络爬虫实现

程序员文章站 2022-05-08 18:26:26

...

　　此次爬虫很简单，就是爬斗鱼直播平台上的美女主播的图片，注要用了urllib2库，爬虫的网址是https://www.douyu.com/directory/game/yz 。直接贴代码：

import urllib2
import urllib
import re
import time



def getHtml(url):
    request = urllib2.Request(url)
    request.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) 
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36')
    response = urllib2.urlopen(request)
    html=response.read()
    return html

def getImage(html):
imglist=re.findall(r’data-original=”(.*?.(jpg|jpeg))”’,html)
print(len(imglist))
path =””
x=0
for img in imglist:
urllib.urlretrieve(img[0],”/home/qiracle/douyu/”+str(x)+”.”+img[1])
x+=1
time.sleep(1)

html =getHtml("https://www.douyu.com/directory/game/yz")
getImage(html)

最终爬到的结果如下：

简单的python网络爬虫实现

简单的python网络爬虫实现

Python 两个列表的差集、并集和交集实现代码

Python实现网络端口转发和重定向的方法

Python实现批量更换指定目录下文件扩展名的方法

Python按行读取文件的实现方法【小文件和大文件读取】

Python基于sftp及rsa密匙实现远程拷贝文件的方法

Python简单实现安全开关文件的两种方式

浅谈线性表的原理及简单实现方法

Python实现拷贝多个文件到同一目录的方法

C#实现的封装CURD到SqlHelper类用法简单分析

PHP实现简单实用的分页类代码