欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python爬虫实现抓取京东店铺信息及下载图片功能示例

程序员文章站 2024-02-03 10:41:52
本文实例讲述了python爬虫实现抓取京东店铺信息及下载图片功能。分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import beaut...

本文实例讲述了python爬虫实现抓取京东店铺信息及下载图片功能。分享给大家供大家参考,具体如下:

这个是抓取信息的

from bs4 import beautifulsoup
import requests
url = 'https://list.tmall.com/search_product.htm?q=%cb%ae%ba%f8+%c9%d5%cb%ae&type=p&vmarket=&spm=875.7931836%2fa.a2227oh.d100&from=mallfp..pc_1_searchbutton'
response = requests.get(url)                          #解析网页
soup = beautifulsoup(response.text,'lxml')                   #.text将解析到的网页可读
storenames = soup.select('#j_itemlist > div > div > p.producttitle > a')    #选择出商店的信息
prices = soup.select('#j_itemlist > div > div > p.productprice > em')     #选择出价格的信息
sales = soup.select('#j_itemlist > div > div > p.productstatus > span > em')  #选择出销售额的信息
for storename, price, sale in zip(storenames,prices,sales):
  storename = storename.get_text().strip()   #用get_text()方法筛选出标签中的文本信息,由于筛选结果有换行符\n所以用strip()将换行符去掉
  price = price.get_text()
  sale = sale.get_text()
  print('商店名:%-40s价格:%-40s销售额:%s'%(storename,price,sale))   #使打印出来的信息规范
  print('----------------------------------------------------------------------------------------------')

这个是下载图片的

from bs4 import beautifulsoup
import requests
import urllib.request
url = 'https://list.tmall.com/search_product.htm?q=%cb%ae%ba%f8+%c9%d5%cb%ae&type=p&vmarket=&spm=875.7931836%2fa.a2227oh.d100&from=mallfp..pc_1_searchbutton'
response = requests.get(url)
soup = beautifulsoup(response.text, 'lxml')
imgs = soup.select('#j_itemlist > div > div > div.productimg-wrap > a > img')
a = 1
for i in imgs:
  if(i.get('src')==none):
    break
  img = 'http:'+i.get('src') #这里废了好长的时间,原来网站必须要有http:的
  #print(img)
  urllib.request.urlretrieve(img,'%s.jpg'%a, none,)
  a = a+1

ps:

1.选择信息的时候用css

2.用get_text()方法筛选出标签中的文本信息

3.striplstriprstrip的用法:

python中的strip用于去除字符串的首尾字符;同理,lstrip用于去除左边的字符;rstrip用于去除右边的字符。

这三个函数都可传入一个参数,指定要去除的首尾字符。

需要注意的是,传入的是一个字符数组,编译器去除两端所有相应的字符,直到没有匹配的字符,比如:

thestring = 'saaaay yes no yaaaass'
print thestring.strip('say')

thestring依次被去除首尾在['s','a','y']数组内的字符,直到字符在不数组内。所以,输出的结果为:

yes no

比较简单吧,lstriprstrip原理是一样的。

注意:当没有传入参数时,是默认去除首尾空格和换行符的。

thestring = 'saaaay yes no yaaaass'
print thestring.strip('say')
print thestring.strip('say ') #say后面有空格
print thestring.lstrip('say')
print thestring.rstrip('say')

运行结果:

yes no
es no
yes no yaaaass
saaaay yes no

更多关于python相关内容可查看本站专题:《python socket编程技巧总结》、《python正则表达式用法总结》、《python数据结构与算法教程》、《python函数使用技巧总结》、《python字符串操作技巧汇总》、《python入门与进阶经典教程》及《python文件与目录操作技巧汇总

希望本文所述对大家python程序设计有所帮助。