Python 简单网络爬虫

程序员文章站 2022-03-02 22:48:25

...

import urllib.request as  ub
import re

#输出网页源代码
def get_html(url):

     page = ub.urlopen(url)
     html = page.read()
     return html

def get_image(html_code):
    # 接着我们要做的就是从get_html方法返回的辣么长一串字符串中拿到满足正则表达式的 字符串。
    reg = r'src="(.+?\.jpg)" width'  # 正则表达式
    reg_img = re.compile(reg)  # 编译一下，运行更快
    imglist = reg_img.findall(html_code)  # 进行匹配
    # 下载图片
    x = 0
    for img in imglist:
        ub.urlretrieve(img, '../image/pC/%s.jpg' % x)
        x += 1

if __name__ == "__main__":
    #注意'if __name__ == "__main__":'后的语句应该缩进
    print(u'-------网页图片抓取-------')
    while(1):
        url = input('请输入url:')
        if url:
            print(u'----------正在获取网页---------')
            html_code = get_html(url).decode('utf-8')
            print(u'----------正在下载图片---------')
            get_image(html_code)
            print(u'----------下载成功-------------')
        else:
            print(u'输入地址不正确!')
        url1 = input("退出请输入q,继续输入任意键")
        if url1 == 'q' :
            break

参考：https://www.cnblogs.com/Axi8/p/5757270.html

上一篇： python网络爬虫：pyquery

下一篇： 1021 -点分治 - 聪聪可可（BZOJ 2152）

Python 简单网络爬虫

【LeeCode 简单字符串 python3】557 反转字符串中的单词 III

python利用proxybroker构建爬虫免费IP代理池

Python爬虫抓取手机APP的传输数据

Python爬虫模拟登录带验证码网站

编写Python爬虫抓取暴走漫画上gif图片的实例分享

python中PIL安装简单教程

Python自动化部署工具Fabric的简单上手指南

网易云歌单信息爬取及数据分析（python爬虫）

学 Java 网络爬虫，需要哪些基础知识？

Python爬虫包BeautifulSoup简介与安装（一）

Python 简单网络爬虫

【LeeCode 简单 字符串 python3】557 反转字符串中的单词 III

python利用proxybroker构建爬虫免费IP代理池

Python爬虫抓取手机APP的传输数据

Python爬虫模拟登录带验证码网站

编写Python爬虫抓取暴走漫画上gif图片的实例分享

python中PIL安装简单教程

Python自动化部署工具Fabric的简单上手指南

网易云歌单信息爬取及数据分析（python爬虫）

学 Java 网络爬虫，需要哪些基础知识？

Python爬虫包BeautifulSoup简介与安装（一）

【LeeCode 简单字符串 python3】557 反转字符串中的单词 III