Python爬虫实战之爬取美剧网站全部视频

程序员文章站 2022-04-22 11:48:21

前几天在群里看到一个朋友说想抓取一个影视网站把所有的资源弄下来自己开一个玩玩但是没有抓到关键数据然后把网址发了出来我上去分析了一番然后使用python写了一个多线程的但是因为视频文件太多没有全部都下载下来爬取网址http://www.meijumao.xyz/猫剧网-热门美剧在线观看、最新美剧下载!前面的文章中有介绍这个开发者工具怎么使用这里就不多啰嗦了直接开始正题，如果不清楚这个开发者工具怎么使用的请看第一篇和第二篇都有介绍首先第一步......

前几天在群里看到一个朋友说想抓取一个影视网站把所有的资源弄下来自己开一个玩玩但是没有抓到关键数据然后把网址发了出来我上去分析了一番然后使用python写了一个多线程的但是因为视频文件太多没有全部都下载下来

爬取网址http://www.meijumao.xyz/猫剧网-热门美剧在线观看、最新美剧下载!

前面的文章中有介绍这个开发者工具怎么使用这里就不多啰嗦了直接开始正题，如果不清楚这个开发者工具怎么使用的请看第一篇和第二篇都有介绍

首先第一步获得整站所有的视频连接

Python爬虫实战之爬取美剧网站全部视频

这里我们选择了第一个图片可以看到他的结构组成

在这个article中就是当前第一个电影的一些信息

Python爬虫实战之爬取美剧网站全部视频

展开之后可以看到第一个a 中是href 下面的h2中是标题这样这个电影的两个重要的信息我们就获得到了。接下来就是获取当前页面中所有的href和h2

Python爬虫实战之爬取美剧网站全部视频

这里显示一共是63个但是我们在主页上数了一下一共是9排每排6个也就是只有54个但是为什么会出来63个呢

那我们把第62个打开看一下

Python爬虫实战之爬取美剧网站全部视频

可以看到这个地址然后去主页搜一下这个地址

Python爬虫实战之爬取美剧网站全部视频

发现在右边有个箭头

原来他是把右边的9个都算上了

那这样就搞明白了一共63个是没错的

这里整理一下:

url: //article[@class='u-movie']/a/@href

title : //article[@class='u-movie']/a/h2/text()

第二步是进入选择的电影的页面去获得视频的链接

Python爬虫实战之爬取美剧网站全部视频

这里我们进入了第一个视频可以看到下面有集数那么如果要爬取他所有的集数的话也很容易的

只需要把他的所有的集数连接都获取到就可以全部爬取

Python爬虫实战之爬取美剧网站全部视频

这里可以看到他一共是6级全部都是通过play这个js函数来实现的跳转

那么我们进入play这个函数里看一下他是如何操作的

我们发现这个play函数就在下面而且操作也比较简单就是很简单的网址组装

如果决定不了这个网址或者怕组装错误也没事可以直接点击第一集进去看他的地址就知道了

当我们点击第一集进入后发现他只是在主页的地址后面加上/vplay/ MTM4MC0xLTA=.html

http://www.meijumao.xyz/detail/?9032.html

正好也就是那个函数中组装上的地址

那这样就简单了我们只要获取他所有的id就自己去构造一下这个请求参数就可以了

所有的集数的地址都在这里了

Python爬虫实战之爬取美剧网站全部视频

整理一下:

url: //div[@class='vlink']/a/@id

第三步下载视频

Python爬虫实战之爬取美剧网站全部视频

当我们在左边那个小箭头点击之后会定位到这里

这里的video可以得知是一个播放器标签

这里标签必须有一个src 也就是播放地址

在这张图上可以看到在上方iframe 中有一个src

但是这个src在源码中却看不到可以自己右键查看源文件来搜索这一段就知道了

而且有过网页开发经验的人都知道如果在标签中有src那么浏览器就会去访问src中的地址，所以我们转到network中可以查看到他访问的这个地址看他返回什么再继续操作

Python爬虫实战之爬取美剧网站全部视频

我们可以看到这里就是那个src中访问的地址我们点击这个地址进去点击preview 向下翻可以看到如下图：

Python爬虫实战之爬取美剧网站全部视频

这里我们明确的可以看到这里有一个new Dplayer 这个dplayer是一个视频播放器库

在百度上可以查到相关的使用方法，这个Dplayer中的video中url就是播放的地址。

这里的url可以明确看到其实就是iframe中src的后半截地址

可能有的人说这个地址好像不太一样其实是一样的只是src中的地址进行了url编码所以才感觉不一样只要url解码后就完全一样了

这里给出解码后的地址:

https://api.1suplayer.me/player/?userID=&type=p2p&vkey=https://156zy.suboyouku.com/2019/04/16/eed43YAhIBYID7Bw/playlist.m3u8?42

这里可以看到视频播放的地址就是这个vkey=后面的值

其实这里的操作的目的主要就是为了播放这个视频而已而且我们看这个地址的后缀是m3u8 说明这个视频使用的以ts后缀的播放格式也是现在最流行的播放格式

那么到这里我们就分析完了这个下载地址

第四步下载视频保存到本地

上面我们已经分析完了这个下载地址但是不知道这个里面是啥

我们用浏览器去访问以下看看出来的是啥
当我们输入https://156zy.suboyouku.com/2019/04/16/eed43YAhIBYID7Bw/playlist.m3u8 这个地址后会出来一个下载地址下载了一个文件

Python爬虫实战之爬取美剧网站全部视频

可以看到这文件里好像有很多文件名一样的东西

我为什么这样说呢我们回到network中其实可以看到里面的前几个文件如果没有暂停播放的话应该可以看到更多

Python爬虫实战之爬取美剧网站全部视频

这样就说明了我们的路线没有错误浏览器也是去下载这个文件

那么我们也是去下载这个视频文件

只不过这个网站他做了一件事就是他把这个下载的视频返回到了视频播放器里实现了播放而我们是要下载那我们直接下载那个m3u8的文件然后自己去构造这个下载参数就可以了

下载完成之后自己找个ts合成工具合成一下就可以了

第五步编写代码
用到的第三方模块有没有的朋友请自己下载一下
1 . requests
2. BeautifulSoup
3. lxml

思路：我一般采用多线程下载，但是因为他这个是m3u8格式的电影，所以他的视频非常小但是又非常多，多线程来下载同一级的不同位置的ts 所以前面的思路是先获取当前主页的url然后进入第一个url地址里去下载第一集，第一集开启多线程全部下载完成之后再进入第二集如此循环即可全部下载完成

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re,os
import requests
from threading import *
from lxml import etree
import StringIO
import urllib
nMaxThread = 8
connectlock = BoundedSemaphore(nMaxThread)
gHeads = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
def DownloadVideo(savePath,videoUrl):
try:
html = requests.get(videoUrl,headers=gHeads)
if html.status_code == 200:
videoName = videoUrl[videoUrl.rfind("/") +1:]
print("%s download done!"%videoName)
with open(savePath + videoName,"wb") as f:
f.write(html.content)
finally:
connectlock.release()
def GetSeason(url):
html = requests.get(url,headers=gHeads)
if html.status_code == 200:
xmlcontent = etree.HTML(html.text)
subUrlList = xmlcontent.xpath("//div[@class='vlink']/a/@id")
return subUrlList
return []
def GetM3u8(CurSeasonStr):
url = "https://91mjw.com/vplay/" + CurSeasonStr + ".html"
html = requests.get(url,headers=gHeads)
if html.status_code == 200:
html.encoding = "utf-8"
reContent = re.search('vid="(.*?)"',html.text)
return reContent.group(1)
return ""
def ParseM3u8(url):
url = urllib.unquote(url)
urlPrefix = url[:url.rfind("/") + 1]
html = requests.get(url,headers=gHeads)
if html.status_code == 200:
TempBuf = StringIO.StringIO(html.text)
VideoList = [ urlPrefix + i.strip() for i in TempBuf.readlines() if i[0] != "#"]
return VideoList
return []
def GetMainUrlAndNameList():
try:
html = requests.get("https://91mjw.com",headers=gHeads)
if html.status_code == 200:
html.encoding = "utf-8"
xmlcontent = etree.HTML(html.text)
UrlList = xmlcontent.xpath("//article[@class='u-movie']/a/@href")
NameList = xmlcontent.xpath("//article[@class='u-movie']/a/h2/text()")
return UrlList,NameList
except:
return None,None
def main():
UrlList,NameList = GetMainUrlAndNameList()
for i in range(len(UrlList)):
subUrlList = GetSeason(UrlList[i])
for j in range(len(subUrlList)):
VideoUrl = GetM3u8(subUrlList[j])
if VideoUrl:
savePath = "./movie/%s/%d/"%(NameList[i],j + 1)
if not os.path.exists(savePath):
os.makedirs(savePath)
VideoList = ParseM3u8(VideoUrl)
for k in VideoList:
connectlock.acquire()
t = Thread(target=DownloadVideo,args=(savePath,k))
t.start()
if __name__ == '__main__':
main()