爬虫实战爬取校花图片

程序员文章站 2022-05-02 16:59:26

...

爬取校花图片

import requests as rq
from bs4 import BeautifulSoup as bf
import urllib.request
import os

paths ="images"

#个人基本信息的页面链接并存入列表infourl
urli= 'http://www.xiaohuar.com/p-1-{}.html'
infourl = []
for i in range(1,50):
    infourl.append(urli.format(i))


#获取校花姓名及所在大学
def getname(url):
    res = rq.get(url)
    res.encoding = 'gb2312'
    soup = bf(res.text, 'html.parser')
    info = soup.select('title')
    name = info[0].text.rstrip("_大学校花")
    return name

#个人相册的页面链接并存入列表img_page_url
urlm = "http://www.xiaohuar.com/s-1-{}.html#p1"
img_page_url=[]
for i in range(1,50):
    img_page_url.append(urlm.format(i))
print(img_page_url)

#获取校花照片链接
def getimg(pageurl):
    res = rq.get(pageurl)
    soup = bf(res.text, 'html.parser')
    imgclass = soup.select('.image0')
    imgurl = []
    for i in imgclass:
        urlc = "http://www.xiaohuar.com/" + i['src']
        imgurl.append(urlc)
    return imgurl


# 创建文件夹
p =[]
z = 1
for url in infourl:#遍历个人信息页面
    path = os.path.join(paths,str(z)+getname(url))
    os.mkdir(path)
    p.append(path)
    z+=1


# 下载图片
i =0
for j in img_page_url:
    n =0
    for k in getimg(j):
        with open(p[i]+"/"+str(n)+".jpg","wb") as f:
            rep = rq.get(k).content
            f.write(rep)
            n=n+1
    i=i+1

利用Scrapy框架爬取

上一篇：关于mysql的表名/字段名/字段值是否区分大小写的问题_MySQL

下一篇： Java解析和遍历html文档利器_html/css_WEB-ITnose

爬虫实战爬取校花图片

爬取校花图片

PHP爬虫之百万级别知乎用户数据爬取与分析

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

Python爬虫层层递进，从爬取一章小说到爬取全站小说

Python网络爬虫开发从环境搭建到实例爬取网页

python爬取你感兴趣图片，构建你自己的数据集（以英雄联盟为例）

Python实现的爬取小说爬虫功能示例

爬虫入门之爬取策略 XPath与bs4实现(五)

Python爬虫爬取智联招聘（进阶版）

用.NET Core写爬虫爬取电影天堂

以视频爬取实例讲解Python爬虫神器Beautiful Soup用法