python动态视频下载器

程序员文章站 2022-07-02 13:02:44

这里向大家分享一下python爬虫的一些应用，主要是用爬虫配合简单的GUI界面实现视频，音乐和小说的下载器。今天就先介绍如何实现一个动态视频下载器。爬取电影天堂视频首先介绍的是python爬取电影天堂网站的视频(包括电影，电视剧，综艺等)，主要是用selenium动态网页技术加上简单的爬虫技术。 ......

这里向大家分享一下python爬虫的一些应用，主要是用爬虫配合简单的gui界面实现视频，音乐和小说的下载器。今天就先介绍如何实现一个动态视频下载器。

爬取电影天堂视频

首先介绍的是python爬取电影天堂网站的视频(包括电影，电视剧，综艺等)，主要是用selenium动态网页技术加上简单的爬虫技术。

(1)电影网站首页面地址：

(2)用到的技术：selenium模拟浏览器运行。

(3)首先要安装配置selenium库和不同浏览器和该库配合的插件。这里安装配置的过程略过。

(4)然后我们用下面的代码打开首页，并输出该网页的源码：

def getsource(url):
    browser = webdriver.chrome()
    browser.get(url)
    print(browser.page_source)
    browser.close()

(5)然后我们找到搜索对应的网页元素标签，以及选择类型和立即搜索按钮对应的标签。

python动态视频下载器

分别为：

python动态视频下载器

(6)然后我们用下面的代码把用户输入的信息模拟放到浏览器上

　　由于未加载完毕会进入广告页面，因此有需要改进的地方，这时就需要延长载入时间。这里有显示等待和隐式等待，用简单的隐式等待即可。

有时候会出现错误，因为掩盖的div可能会在进行一些操作后，会消失，比如页面还在loading中。这时候点击元素的话，就直接点击在loading的标签上，所以在这个操作前可以加个等待，让掩盖的div自行消失后，再等待左侧菜单到可点击状态即可；或者进行刷新的操作，此div即可消失，再等待左侧菜单到可点击状态即可。

代码为：

def putusermessger(url,this_name,this_type):
    '''
    :param url: 浏览器网址
    :param this_name: 需要下载的视频名
    :param this_type: 需要下载的视频类型
    '''
    this_browser = webdriver.chrome()
    this_browser.implicitly_wait(10)
    this_browser.get(url)
    # 把下载的视频名和视频类型进行模拟浏览器匹配
    # 搜索输入框的标签属性有name和class,这里用name属性进行获取
    this_browser.find_element_by_name('keyword').send_keys(this_name)
    time.sleep(2)
    # 选择类型下拉框是html自带的下拉框，不是input做的假的下拉框
    select(this_browser.find_element_by_name('field')).select_by_visible_text(this_type)
    time.sleep(2)
    # 点击立即搜索按钮，submit就不是单纯的单击，它会涉及到前后台的交互
    this_browser.find_element_by_name('submit').click()
    this_browser.close()


def main():
    name = input('请输入视频名：')
    type = input('请选择类型：')
    url = 'https://www.dytt8.net/'
    putusermessger(url,name,type)

　　但是还是会出现下面的问题：

selenium.common.exceptions.webdriverexception: message: unknown error: element <input name="submit" type="submit" value="立即搜索"> is not clickable at point (702, 220). other element would receive the click: <div style="width: 1017px; height: 577px;"></div>
  (session info: chrome=73.0.3683.86)
  (driver info: chromedriver=73.0.3683.68 (47787ec04b6e38e22703e856e101e840b65afe72),platform=windows nt 10.0.17134 x86_64)

但是我们发现我们点击后的其实是有规律的，因此用另一个方法。

(6)二层页面配置参数及视频三层地址输出

我们先分析一下url：
python动态视频下载器

分析第二层页面地址为：

http://s.ygdy8.com/plus/so.php?typeid=1&keyword=%c4%e3%b5%c4%c3%fb%d7%d6

是由http://s.ygdy8.com/plus/so.php?+typeid=视频编号&keyword=视频名gdk编码组成。因此需要先转化汉字为网页地址url的编码。

用下面的代码就可以构建一个需要的网址：

def main():
    name = input('请输入视频名：')
    type = input('请选择类型：')
    ret = quote(name, encoding="gbk")
    dict = {'电影':'1','电视剧':'2','综艺':'99','旧综艺':'89','游戏':'19','动漫':'16'}
    url = 'http://s.ygdy8.com/plus/so.php?' + 'typeid=' + dict[type] + '&keyword=' + ret

然后我们分析一下网页：
python动态视频下载器

python动态视频下载器

输出所有的视频信息和三级地址：

def putusermessger(url):
    '''
    :param url: 视频网址
    '''
    this_browser = webdriver.chrome()
    this_browser.get(url)
    # 用css选择器选择
    input1 = this_browser.find_elements_by_css_selector('.co_content8 ul td a')
    for i in input1:
        print(i.text)
        print(i.get_attribute('href'))
    this_browser.close()

python动态视频下载器

(7)三级网页找到下载界面

下载的链接的位置是：

python动态视频下载器

然后用request配合pyquery下载即可。

下载链接如下：

python动态视频下载器

(8)完整代码

这里没有用到数据库，上面的代码再配合界面，这里只暂时没有界面的代码如下：

# encoding: utf-8
from selenium import webdriver
from urllib.request import quote
import requests
from pyquery import pyquery as pq
from tkinter import *


def putusermessger(url):
    '''
    :param url: 视频网址
    '''
    last_url = {}
    this_browser = webdriver.chrome()
    this_browser.get(url)
    # 用css选择器选择
    input1 = this_browser.find_elements_by_css_selector('.co_content8 ul td a')
    for i in input1:
        #用字典保存视频的名字与下载地址
        last_url[i.text] = i.get_attribute('href')
    this_browser.close()
    return last_url


def download(all_url):
    this_download = {}
    for name,url in dict.items(all_url):
        r = requests.get(url)
        r.encoding = r.apparent_encoding
        doc = pq(r.text)
        this_url = doc('#zoom a')
        this_download[name] = this_url.attr('href')
    return this_download



type = 0
name = 0

def myradiobutton():
    global type
    type = v.get()


def my_all():
    name = var.get()
    ret = quote(name, encoding="gbk")
    url = 'http://s.ygdy8.com/plus/so.php?' + 'typeid=' + str(type) + '&keyword=' + ret
    all_url = putusermessger(url)
    result = download(all_url)
    print(result)


# 创建一个主窗口，用于容纳整个gui程序
root = tk()
# 设置主窗口对象的标题栏
root.title("视频下载器")
l1 = label(root, text="请选择类型：")
l1.pack(side = top)
v = intvar()
radiobutton(root, text='电影', variable=v, command=myradiobutton,value=1).pack(anchor=w)
radiobutton(root, text='电视剧', variable=v, command=myradiobutton,value=2).pack(anchor=w)
radiobutton(root, text='综艺', variable=v, command=myradiobutton,value=99).pack(anchor=w)
radiobutton(root, text='旧综艺', variable=v, command=myradiobutton,value=89).pack(anchor=w)
radiobutton(root, text='游戏', variable=v, command=myradiobutton,value=19).pack(anchor=w)
radiobutton(root, text='动漫', variable=v, command=myradiobutton,value=16).pack(anchor=w)

var = stringvar()
l2 = label(root, text="请输入视频名")
l2.pack(side = left)
e1 = entry(root, bd=5,textvariable=var)
e1.pack(side = right)

b = button(root, text="点我",command=my_all).place(x=120, y=80)
# 显示界面，进入主事件循环
root.mainloop()

结果如下：

python动态视频下载器

上一篇： Django之使用内置函数和celery发邮件

下一篇： Struts2 在Action中操作数据

python动态视频下载器

python: 从远程服务器下载日志程序

chrome谷歌浏览器怎么随意下载网页中视频？

如何直接下载优酷视频？不用优酷下载器下载视频方法技巧

音/视频转换器Tipard All Music Converter安装及激活教程(附激活补丁+软件下载)

新浪微博中的视频怎么用浏览器下载(不需要安装第三方软件)？

用UC浏览器怎么看片？UC浏览器看视频及下载视频教程图解

python中将已有链接的视频进行下载

西瓜影音安装使用及西瓜影音播放器查找和下载视频的方法介绍

Python视频爬虫实现下载头条视频功能示例

python基于tkinter制作m3u8视频下载工具