欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

python抓取京东商城手机列表url实例代码

程序员文章站 2022-05-09 18:41:47
...
复制代码 代码如下:

#-*- coding: UTF-8 -*-
'''
Created on 2013-12-5

@author: good-temper
'''

import urllib2
import bs4
import time

def getPage(urlStr):
'''
获取页面内容
'''
content = urllib2.urlopen(urlStr).read()
return content

def getNextPageUrl(currPageNum):
#http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-页码-1-1-72-4137-33.html
url = u'http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-'+str(currPageNum+1)+'-1-1-72-4137-33.html'

#是否有下一页
content = getPage(url);
soup = bs4.BeautifulSoup(content)
list = soup.findAll('span',{'class':'next-disabled'});
if(len(list) == 0):
return url
return ''

def analyzeList():
pageNum = 0
list = []
url = getNextPageUrl(pageNum)
while url !='':
soup = bs4.BeautifulSoup(getPage(url))
pagelist = soup.findAll('div',{'class':'p-name'})
for elem in pagelist:
soup1 = bs4.BeautifulSoup(str(elem))
list.append(soup1.find('a')['href'])

pageNum = pageNum+1
print pageNum
url = getNextPageUrl(pageNum)
return list

def analyzeContent(url):

return ''

def writeToFile(list, path):
f = open(path, 'a')
for elem in list:
f.write(elem+'\n')
f.close()

if __name__ == '__main__':
list = analyzeList()
print '共抓取'+str(len(list))+'条\n'

writeToFile(list, u'E:\\jd_phone_list.dat');

python抓取京东商城手机列表url实例代码

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。

相关文章

相关视频


网友评论

文明上网理性发言,请遵守 新闻评论服务协议

我要评论
  • python抓取京东商城手机列表url实例代码
  • 专题推荐