Pthon 网络爬虫 xiaohua
程序员文章站
2022-05-04 11:49:44
...
#网络爬虫步骤:
#1.确定要爬取的网址
#2.根据网址获取源代码
#3.正则表达式
#4.保存(数据库,本地)
import urllib.request
import re
path="http://www.xiaohuar.com/2014.html"
content=urllib.request.urlopen(path).read()
content=content.decode("gb2312","ignore")
print(content)
imgRe=re.compile(r'src=".+?\.jpg"')
imagePaths=imgRe.findall(content)
print("共:",imagePaths.__len__(),"张美女")
for imagePath in imagePaths:
print(imagePath[5:-1])
注意点:
path后面是你需要爬取的网址
ontent.decode 设置编码
后面的编码根据你需要爬取的网页的设置编码相同
后面用正则表达式 获取图片的地址
上一篇: js 利用逗号运算符偷梁
下一篇: python爬虫抓取信息-urllib