零基础写python爬虫之抓取糗事百科代码分享

程序员文章站 2022-03-06 18:20:04

...

项目内容：

用Python写的糗事百科的网络爬虫。

使用方法：

新建一个Bug.py文件，然后将代码复制到里面后，双击运行。

程序功能：

在命令提示行中浏览糗事百科。

原理解释：

首先，先浏览一下糗事百科的主页：http://www.qiushibaike.com/hot/page/1
可以看出来，链接中page/后面的数字就是对应的页码，记住这一点为以后的编写做准备。
然后，右击查看页面源码：

零基础写python爬虫之抓取糗事百科代码分享

观察发现，每一个段子都用div标记，其中class必为content，title是发帖时间，我们只需要用正则表达式将其“扣”出来就可以了。
明白了原理之后，剩下的就是正则表达式的内容了，可以参照这篇文章：
http://www.bitsCN.com/article/57150.htm

运行效果：

零基础写python爬虫之抓取糗事百科代码分享

代码如下:

# -*- coding: utf-8 -*-

import urllib2
import urllib
import re
import thread
import time
#----------- 加载处理糗事百科 -----------
class Spider_Model:

def __init__(self):
self.page = 1
self.pages = []
self.enable = False

# 将所有的段子都扣出来，添加到列表中并且返回列表
def GetPage(self,page):
myUrl = "http://m.qiushibaike.com/hot/page/" + page
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
req = urllib2.Request(myUrl, headers = headers)
myResponse = urllib2.urlopen(req)
myPage = myResponse.read()
#encode的作用是将unicode编码转换成其他编码的字符串
#decode的作用是将其他编码的字符串转换成unicode编码
unicodePage = myPage.decode("utf-8")

# 找出所有class="content"的div标记
#re.S是任意匹配模式，也就是.可以匹配换行符
myItems = re.findall('

(.*?)

零基础写python爬虫之抓取糗事百科代码分享

零基础写python爬虫之抓取百度贴吧代码分享

零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版

零基础写python爬虫之使用urllib2组件抓取网页内容