Pthon 网络爬虫 xiaohua

程序员文章站 2022-05-04 11:49:44

...

#网络爬虫步骤：
#1.确定要爬取的网址
#2.根据网址获取源代码
#3.正则表达式
#4.保存（数据库，本地）

import  urllib.request
import  re


path="http://www.xiaohuar.com/2014.html"
content=urllib.request.urlopen(path).read()
content=content.decode("gb2312","ignore")

print(content)
imgRe=re.compile(r'src=".+?\.jpg"')
imagePaths=imgRe.findall(content)
print("共：",imagePaths.__len__(),"张美女")
for imagePath in  imagePaths:
    print(imagePath[5:-1])

注意点：
path后面是你需要爬取的网址
ontent.decode 设置编码
后面的编码根据你需要爬取的网页的设置编码相同
后面用正则表达式获取图片的地址

Pthon 网络爬虫 xiaohua

基于Python实现的百度贴吧网络爬虫实例

Python网络爬虫项目：内容提取器的定义

教你如何编写简单的网络爬虫

《精通Python网络爬虫》第18章　博客类爬虫项目代码

js逆向解密之网络爬虫

java实现一个简单的网络爬虫代码示例

Python网络爬虫项目：内容提取器的定义

教你如何编写简单的网络爬虫

js逆向解密之网络爬虫

Python3网络爬虫中的requests高级用法详解

Pthon 网络爬虫 xiaohua

基于Python实现的百度贴吧网络爬虫实例

Python网络爬虫项目：内容提取器的定义

教你如何编写简单的网络爬虫

《精通Python网络爬虫》第18章 博客类爬虫项目代码

js逆向解密之网络爬虫

java实现一个简单的网络爬虫代码示例

Python网络爬虫项目：内容提取器的定义

教你如何编写简单的网络爬虫

js逆向解密之网络爬虫

Python3网络爬虫中的requests高级用法详解

《精通Python网络爬虫》第18章　博客类爬虫项目代码