基于python爬取梨视频实现过程解析

程序员文章站 2022-03-27 20:45:11

目标网址：然后我们找到科技这一页：。其实你要哪一页都行，你喜欢就行。嘿嘿…这是动态网站，所以咱们直奔network 然后去到xhr：找规律，这个应该不难，我就直接贴网址上来咯，想要锻炼的可以找找看哈：...

目标网址：

然后我们找到科技这一页：。其实你要哪一页都行，你喜欢就行。嘿嘿…

这是动态网站，所以咱们直奔network 然后去到xhr：

基于python爬取梨视频实现过程解析

找规律，这个应该不难，我就直接贴网址上来咯，想要锻炼的可以找找看哈：

https://www.pearvideo.com/category_loading.jsp?reqtype=5&categoryid=8&start=0

这个就是我们要找的目标网址啦，后面的0就代表页数,让打开这个网页发现是静态网页，这最好搞啦，直接上：

基于python爬取梨视频实现过程解析

代码如下：

import requests
import parsel,re
import os
target = "https://www.pearvideo.com/videostatus.jsp?contid="

url = "https://www.pearvideo.com/category_loading.jsp?reqtype=5&categoryid=9&start=0"
res = requests.get(url)
res.encoding="utf-8"
html = parsel.selector(res.text)
lists = html.xpath('/html/body/li/div/a/@href').getall()
for each in lists:

  print("https://www.pearvideo.com/"+each)

output;
https://www.pearvideo.com/video_1703486
https://www.pearvideo.com/video_1703189
https://www.pearvideo.com/video_1703161
https://www.pearvideo.com/video_1702880
https://www.pearvideo.com/video_1702773
...

顺利拿到，然后进入播放页面，却发现找不到mp4视频，怎么办？经过我一番努力（扯掉了几十根头发后）发现，它在另外一个网址里面

基于python爬取梨视频实现过程解析

咋办？当然要想办法把这个网址搞到手啦，仔细分析下，发现这个网址非常陌生呀，唯一稍微熟悉点的就是那串数字了，前面我们拿到播放页的网址后面那串数字和这个对比，完全是一模一样的，这样的话那就好搞了，咱们直接用拼接的方式把它接上去就可以了，看代码：

for each in lists:
  url_num = each.replace('video_',"")
  urls = target+url_num
  print(urls)
``

```python
output：
https://www.pearvideo.com/videostatus.jsp?contid=1703486
https://www.pearvideo.com/videostatus.jsp?contid=1703189
https://www.pearvideo.com/videostatus.jsp?contid=1703161
https://www.pearvideo.com/videostatus.jsp?contid=1702880
https://www.pearvideo.com/videostatus.jsp?contid=1702773
https://www.pearvideo.com/videostatus.jsp?contid=1702633
...

出来了，好像稍微有点不一样，后面那啥&mrd=***************** 没有，怎么办？没有就不要呗，看过我发的百度图片那篇的朋友都懂，网址里面有些东西是不需要的，纯粹是搞咱们这些玩爬虫的，恶心咱们。不过没办法，毕竟是咱们要去爬人家的数据的。

网址问题解决了，但是点进去一看，发现这东东:

基于python爬取梨视频实现过程解析

恩，很明显，是遇到反爬机制了，这个好搞，要什么给什么就行，代码如下：

	headers = {
  'user-agent': 'mozilla/5.0 (windows nt 6.1) applewebkit/537.36 (khtml, like gecko) chrome/86.0.4240.111 safari/537.36',
  'referer': 'https://www.pearvideo.com/video_'+ str(url_num)
  }
  html = requests.get(urls,headers=headers).text
  print(html)

基于python爬取梨视频实现过程解析

搞定！！

最后我们看一下mp4能不能播放：

基于python爬取梨视频实现过程解析

西八！404！！恩，这里就稍微有点麻烦了，还得找数据，把里面的时间戳改成 ‘cont-数字‘，感觉写了好多，手都有点累了，我就直接上代码了：

import requests
import parsel,re
import os


 
target = "https://www.pearvideo.com/videostatus.jsp?contid="

url = "https://www.pearvideo.com/category_loading.jsp?reqtype=5&categoryid=9&start=0"
res = requests.get(url)
res.encoding="utf-8"
html = parsel.selector(res.text)
lists = html.xpath('/html/body/li/div/a/@href').getall()
# print(lists[2:])
# 提取视频后面的数字，数字是最重要的，需要传给 referer 和 urls
for each in lists:
  url_num = each.replace('video_',"")
  urls = target+url_num
  # print(urls)
  headers = {
  'user-agent': 'mozilla/5.0 (windows nt 6.1) applewebkit/537.36 (khtml, like gecko) chrome/86.0.4240.111 safari/537.36',
  'referer': 'https://www.pearvideo.com/video_'+ str(url_num)
  }
  html = requests.get(urls,headers=headers).text
  
  cont = 'cont-' + str(url_num)

  # 提取 mp4 视频
  srcurl = re.findall(f'"srcurl":"(.*?)"',html)[0]
  # 替换视频里面的时间戳，改为可以真正播放的数据
  new_url = srcurl.replace(srcurl.split("-")[0].split("/")[-1],cont)
  print(new_url)
  

  # 使用视频后缀当视频名称
  filename = srcurl.split("/")[-1]

  # 保存到本地
  with open("./images/"+filename,"wb") as f:
    f.write(requests.get(new_url).content)

基于python爬取梨视频实现过程解析

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

基于python爬取梨视频实现过程解析

python爬取Ajax动态加载网页过程解析

python爬虫基于Selenium的股票信息爬取工具实现

python3爬取—梨视频的短视频链接

基于Python爬取51cto博客页面信息过程解析

Python爬取数据并实现可视化代码解析

基于python实现MQTT发布订阅过程原理解析

python 爬虫爬取快手短视频无水印视频解析最新版

python 爬虫爬取快手视频批量解析建议收藏

Python爬取梨视频的示例

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

基于python爬取梨视频实现过程解析

python爬取Ajax动态加载网页过程解析

python爬虫基于Selenium的股票信息爬取工具实现

python3爬取—梨视频的短视频链接

基于Python爬取51cto博客页面信息过程解析

Python爬取数据并实现可视化代码解析

基于python实现MQTT发布订阅过程原理解析

python 爬虫 爬取快手短视频无水印视频解析最新版

python 爬虫 爬取快手视频 批量解析 建议收藏

Python爬取梨视频的示例

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

python 爬虫爬取快手短视频无水印视频解析最新版

python 爬虫爬取快手视频批量解析建议收藏