Python爬虫实战一 | 抓取取校花网的所有妹子

程序员文章站 2022-03-22 16:56:45

...

今天晚上顺带就实际的写写工具，我们刚学完Python的基础语法！抓点妹子带回家~

总结一下之前的吧，我写了关于Python爬虫的六节课程，也就是六篇文章，文章有点简洁，但是很细节，如果还有不懂的请加我QQ：1099718640，或者留言，小东看到了一定会及时回复的哦！愿和各位志同道合的程序猴子一起畅谈人生！哈哈~

今天晚上，刚开完班会。。。老实说，小东大一的成绩很不好，全班倒数，无颜见父老啊，待在“卓越班”感觉自己负罪感满满，哎╮(╯▽╰)╭，在博客里吐槽一下啦~今后好好把公共基础课学好，大学到最终还是以成绩来衡量的，但还是要尽量地多去参加一下竞赛，哈哈~

这是在运行途中截得图，我故意输出的，哈哈~

# 抓取校花网 校花图片
# 作者：DYBOY 小东
# 时间：2017-09-06

'''
http://www.xiaohuar.com/list-1-0.html 第一页
http://www.xiaohuar.com/list-1-1.html 第二页

'''

import requests
import re

from bs4 import BeautifulSoup
#以上作为基本引用


def getGirls(girl_url):
    main_url = 'http://www.xiaohuar.com'
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
    res = requests.get(girl_url,headers = header,timeout=10)
    res.encoding = 'gb2312'
    soup = BeautifulSoup(res.text,'html.parser')
    for images in soup.select('.item'):
        img_url = main_url + images.select('.item_t .img a img')[0]['src']
        houzhui = img_url[-4:]
        img_alt = images.select('.item_t .img a img')[0]['alt'] + houzhui
        print(img_alt)
        img = requests.get(img_url)
        with open('xiaohua/' + img_alt,"wb") as code:
            code.write(img.content)
    print('ok!')

def url_change():
    for i in range(19,44):
        url = 'http://www.xiaohuar.com/list-1-' + str(i) + '.html'
        getGirls(url)


#MAIN
url_change()

部分成果

代码自己去github上去看~

注：本文属于原创文章，转载请注明本文地址！

作者QQ:1099718640

CSDN博客主页：http://blog.csdn.net/dyboy2017

Github开源项目：https://github.com/dyboy2017/xiaohua

相关标签： python 学习开发记录爬虫

上一篇：如何用PHP向MySQL中添加汉字数据

下一篇： Php运算符、流程统制、函数

Python爬虫实战一 | 抓取取校花网的所有妹子

代码自己去github上去看~

电商二选一“机会”or “命运”？员工被裁残忍命运何去何从？

从网站结构优化角度分析如何提升搜索引擎的友好度

JavaScript实现的前端AES加密解密功能【基于CryptoJS】

vuejs动态组件给子组件传递数据的方法详解

Vue.js每天必学之组件与组件间的通信

拿锄头的尸体

深入理解Javascript中的作用域链和闭包

男女同居的惊魂刺激

浅谈企业网站建设的3大不要

10分钟彻底搞懂Http的强制缓存和协商缓存(小结)