python3中运用urllib抓取贴吧的邮箱以及QQ
程序员文章站
2022-03-26 15:52:59
python3中运用urllib抓取贴吧的邮箱以及QQ: import urllib import urllib.request import re from urllib import parse #抓取贴吧页面数量信息 def gettiebalistnumbers(name): #计算搜索的关 ......
python3中运用urllib抓取贴吧的邮箱以及qq:
import urllib import urllib.request import re from urllib import parse #抓取贴吧页面数量信息 def gettiebalistnumbers(name): #计算搜索的关键词有多少页 输入名字 返回页数 url="https://tieba.baidu.com/f?" headers = {"user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36 qihu 360se"} # header 字典形式 word = {"kw": name} # 接口 贴吧的名字 word = parse.urlencode(word) # 编码成字符串 url = url + word # 拼接url request = urllib.request.request(url, headers=headers) # 发送请求 # 也可以通过调用request.add_header() 添加/修改一个特定的 header request.add_header("connection", "keep-alive") # 一直活着 response = urllib.request.urlopen(request) # 打开请求 data = response.read().decode("utf-8") # 读取数据 print(response.code) # 可以查看相应状态码 restr = "<span class=\"card_infonum\">([\s\s]*?)</span>" # 正则这个贴吧有多少帖子 regex = re.compile(restr, re.ignorecase) mylist = regex.findall(data) #寻找页面所有符合条件的 tienumbers = mylist[0].replace(",","") #替换逗号 tienumbers = eval(tienumbers) #str转化为数字 #print(tienumbers) restr = "<span class=\"card_mennum\">([\s\s]*?)</span>" # 正则关注贴吧的数 regex = re.compile(restr, re.ignorecase) mylist = regex.findall(data) # 寻找页面所有符合条件的 peoplenumbers = mylist[0].replace(",", "") # 替换逗号 peoplenumbers = eval(peoplenumbers) # str转化为数字 #print(peoplenumbers) return tienumbers,peoplenumbers def gettiebalist(name): #抓取所有的符合name的页数 输入搜索关键词,返回所有的页数url numberstuple=gettiebalistnumbers(name) #(元组) tienumbers=numberstuple[1] #帖子的数量 word = {"kw": name} # 接口 贴吧的名字 word = parse.urlencode(word) # 编码成字符串 tiebalist = [] if tienumbers % 53 == 0: # 生成页面列表 for i in range(tienumbers // 53): tiebalist.append("https://tieba.baidu.com/f?" + word + "&pn=" + str(i * 50)) else: for i in range(tienumbers // 53 + 1): tiebalist.append("https://tieba.baidu.com/f?" + word + "&pn=" + str(i * 50)) #print(tiebalist) return tiebalist def geturllistformpage(url): #抓取页面的每个帖子url 输入一页url 返回列表内的的所有url headers = {"user-agent": "mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; trident/5.0);"} request = urllib.request.request(url, headers=headers) # 发起请求, # 也可以通过调⽤request.add_header() 添加/修改⼀个特定的 header response=urllib.request.urlopen(request) data=response.read().decode("utf-8","ignore")#打开请求,抓取数据 #print(response.code) # 可以查看响应状态码 restr = "<ul id=\"thread_list\" class=\"threadlist_bright j_threadlist_bright\">([\s\s]*?)<div class=\"thread_list_bottom clearfix\">" # 正则表达式,()只要括号内的数据 regex = re.compile(restr, re.ignorecase) mylist = regex.findall(data) #print(mylist[0])#抓取整个表格 restr = "href=\"/p/(\d+)\"" # 正则表达式,()只要括号内的数据 regex = re.compile(restr, re.ignorecase) urltitlelist = regex.findall(data) #print(urltitlelist) #抓取的url变化的数字 urllist=[] for title in urltitlelist: urllist.append("http://tieba.baidu.com/p/"+title) #拼接链接 #print(urllist) #得到每个页面的帖子url列表 return urllist def getallurllist(url): #获取每一页里面的分页 输入一个帖子url 输出所有分页url链接 headers = {"user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36 qihu 360se"} # header 字典形式 request = urllib.request.request(url, headers=headers) # 发送请求 # 也可以通过调用request.add_header() 添加/修改一个特定的 header response = urllib.request.urlopen(request) # 打开请求 tiebadata = response.read().decode("utf-8", "ignore") # 读取数据 allurllist1=[] restr = "共<span class=\"red\">(\d+)</span>页</li>" # 正则表达式,()只要括号内的数据 regex = re.compile(restr, re.ignorecase) numalllist = regex.findall(tiebadata) nums=eval(numalllist[0]) for i in range(1,nums+1): allurllist1.append(url+"?pn="+str(i)) return allurllist1 # print(urltitlelist) #抓取的url变化的数字 def getpagedata(url): headers = {"user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36 qihu 360se"} # header 字典形式 request = urllib.request.request(url, headers=headers) # 发送请求 # 也可以通过调用request.add_header() 添加/修改一个特定的 header response = urllib.request.urlopen(request) # 打开请求 pagedata = response.read().decode("utf-8","ignore") #读取数据 return pagedata def getemaillistfrompage(pagedata): #在帖子内页面,把每一个邮箱抓取下来 输入一个帖子url 返回邮箱 emaillist = [] restr = "[a-z0-9._%+-]+[@][a-z0-9.-]+\.[a-z]{2,4}" # 正则表达式,()只要括号内的数据 regex = re.compile(restr, re.ignorecase) emaillist = regex.findall(pagedata) return emaillist #返回提取的邮箱列表 def qqlistfrompage(url): #在帖子内页面,把每一个邮箱抓取下来 输入一个帖子url 返回qq headers = {"user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36 qihu 360se"} # header 字典形式 request = urllib.request.request(url, headers=headers) response = urllib.request.urlopen(request) #data = response.read().decode("utf-8","ignore") #读取数据 qqlist = [] while true: line = response.readline() line = line.decode('utf-8') if not line: break if line.find("qq") != -1 or line.find("qq") != -1 or line.find("qq") != -1: restr = "[1-9]\\d{4,10}" # 正则表达式,()只要括号内的数据 regex = re.compile(restr, re.ignorecase) templist = regex.findall(line) qqlist.extend(templist) return qqlist #print(gettiebalistnumbers("python")) #print(gettiebalist("python3")) #mylist=gettiebalist("python3") #for line in mylist: # print(line) #geturllistformpage("https://tieba.baidu.com/f?kw=python3&ie=utf-8&pn=4000") #print(getemaillistfrompage(getpagedata("http://tieba.baidu.com/p/6490450301"))) #print(qqlistfrompage("http://tieba.baidu.com/p/3950107421")) """ name="qqmail" emailalllist=[] for numberurl in gettiebalist(name): #取出这个关键词 所有页面的url tieziurllist=geturllistformpage(numberurl) #取出每个页面的 帖子url for fentieziurllist in tieziurllist: tieziurllist1=getallurllist(fentieziurllist) for pagetext in tieziurllist1: pagedata=getpagedata(pagetext) #取出每个页面的代码 datas=getemaillistfrompage(pagedata) #正则提取邮箱 if len(datas) !=0: #如果提取的里面一个页面上的一个帖子 邮箱不是空的话 emailalllist.append(datas[0]) print(emailalllist) #测试可以提取一个 贴吧的所有邮箱 """ """ name="qqmail" qqalllist=[] for numberurl in gettiebalist(name): #取出这个关键词 所有页面的url tieziurllist=geturllistformpage(numberurl) #取出每个页面的 帖子url for url in tieziurllist: qqnumberlist=qqlistfrompage(url) #提取的里面一个页面上的一个帖子的qq #print(qqnumberlist) if len(qqnumberlist) != 0: #如果一个页面qq不为空的话 for qqdata in qqnumberlist: #一个页面qq列表遍历 qqalllist.append(qqdata) #添加到列表中 # qq=qqalllist.append(qqnumberlist[0]) #print(qqalllist)# #提取一个贴吧的所有qq 测试成功 """ name="qqmail" savefilepath="qqmail_qq.txt" savefile=open(savefilepath,"wb") for numberurl in gettiebalist(name): #取出这个关键词 所有页面的url tieziurllist=geturllistformpage(numberurl) #取出每个页面的 帖子url for fenurl in tieziurllist: tieziurllist1=getallurllist(fenurl) #一个页面分页的所有链接 for url in tieziurllist1: qqnumberlist=qqlistfrompage(url) #提取的里面一个页面上的一个帖子的qq #print(qqnumberlist) if len(qqnumberlist) != 0: #如果一个页面qq不为空的话 print(qqnumberlist) qqstr=" ".join(qqnumberlist) savefile.write((qqstr+"\r\n").encode("utf-8")) # qq=qqalllist.append(qqnumberlist[0]) #最后写入文件测试, 写入qq.txt 69k # timeouterror: [winerror 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 #可优化为timeout= 或者导入 import time 进行time.sleep(3) 睡眠定时访问操作, #为避免出错,还需再访问url时加入 try except 出错避过
上一篇: JVM系列八——栈
下一篇: Netty的模型演进及快速入门