欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Pthon 网络爬虫 xiaohua

程序员文章站 2022-05-04 11:49:44
...

#网络爬虫步骤:
#1.确定要爬取的网址
#2.根据网址获取源代码
#3.正则表达式
#4.保存(数据库,本地)

import  urllib.request
import  re


path="http://www.xiaohuar.com/2014.html"
content=urllib.request.urlopen(path).read()
content=content.decode("gb2312","ignore")

print(content)
imgRe=re.compile(r'src=".+?\.jpg"')
imagePaths=imgRe.findall(content)
print("共:",imagePaths.__len__(),"张美女")
for imagePath in  imagePaths:
    print(imagePath[5:-1])

注意点:
path后面是你需要爬取的网址
ontent.decode 设置编码
后面的编码根据你需要爬取的网页的设置编码相同
后面用正则表达式 获取图片的地址

相关标签: 爬取页面图片