python爬虫学习之大批量抓取京东商品id和标签
程序员文章站
2022-07-01 23:14:38
Python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握Python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签 ......
python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签。
python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签
python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签
源码
1 ''' 2 在学习过程中有什么不懂得可以加我的 3 python学习交流扣扣qun,934109170 4 群里有不错的学习教程、开发工具与电子书籍。 5 与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。 6 ''' 7 import requests 8 import re 9 import pandas as pd 10 11 def get_data(): 12 jj_url1 = 'http://search.jd.com/s_new.php?keyword=%e5%ae%b6%e5%b1%85%e7%94%a8%e5%93%81&enc=utf-8&qrst=1&rt=1&stop=1&pt=1&vt=2&sttr=1&offset=6&page=' 13 jj_url2 = '&s=53&click=0' 14 bt_ = [] 15 _id = [] 16 url_list = [] 17 for i in range(1, 10, 2): 18 jj_url = jj_url1 + str(i) + jj_url2 19 url_list.append(jj_url) 20 html = requests.get(jj_url).content.decode('utf-8') 21 reg1 = re.compile('<a target="_blank" title="(.*?)"') 22 reg2 = re.compile('<i class="promo-words" id="(.*?)"></i>') 23 bt = re.findall(reg1, html) 24 id_ = re.findall(reg2, html) 25 bt_.extend(bt) 26 _id.extend(id_) 27 return bt_, _id 28 29 def split_str(_id): 30 zid = [] 31 for _ in _id: 32 zid.append(_.split('_')[2]) 33 return zid 34 35 def save_data(zid, bt_): 36 data = pd.dataframe({ 37 '标题': bt_, 38 'id': zid 39 }) 40 data.to_excel('./家居用品.xlsx', index=false) 41 42 def start_main(): 43 bt_, _id = get_data() 44 zid = split_str(_id) 45 save_data(zid, bt_) 46 47 if __name__ == '__main__': 48 start_main()