知乎视频下载(爬虫)

程序员文章站 2022-10-05 10:35:59

目前主要功能是完成知乎视频的下载. 在抓包和网页分析发现有blob:https://...格式的视频链接, 但是无法访问, 不过知乎好像是m3u8格式的, 具体的我也不太清楚, 但这并不妨碍我们的下载工作. 其中ts就是被分割后的相对url, 拼接后就可以下载播放了, 不过这里还要做的就是将所有被分 ......

目前主要功能是完成知乎视频的下载.

在抓包和网页分析发现有blob:https://...格式的视频链接, 但是无法访问, 不过知乎好像是m3u8格式的, 具体的我也不太清楚, 但这并不妨碍我们的下载工作.

关键在于 https://lens.zhihu.com/api/videos/1024143280014860288 这个api返回的json数据, 包含了不同分辨率的视频url,但其中url打开后是这样的文本文件

知乎视频下载(爬虫)

其中ts就是被分割后的相对url, 拼接后就可以下载播放了, 不过这里还要做的就是将所有被分割的视频合并成一个完整的视频文件,具体的可参考下面代码.

----------------------分割线----->

有相关基础的同学都会知道一个知乎视频是被分割成了许多片段.这样的话的确带来了诸多好处,但同时给它的下载带来了麻烦(手动滑稽). 这里的话项目给出了完整的下载流程,具体我也不多讲了.

项目内视频的初步链接可通过如图方式获取:

知乎视频下载(爬虫)

f12 元素选择器选中视频框后会找到<iframe>标签,其中的src就是对应的视频初步链接.

下面贴上代码:

httputil.java

 1 import org.json.jsonobject;
 2 
 3 import java.io.*;
 4 import java.net.url;
 5 import java.net.urlconnection;
 6 import java.util.arraylist;
 7 import java.util.list;
 8 import java.util.regex.matcher;
 9 import java.util.regex.pattern;
10 
11 /**
12  * 该类完成视频下载的一些基本操作
13  * @author as_
14  * @date 2018-09-17 20:29:12
15  * @github https://github.com/apknet
16  */
17 public class httputil {
18 
19     /**
20      * 由api提取出最高清晰度的url
21      * @param url
22      * @return play_url
23      */
24     public static string getplayurl(string url) throws ioexception {
25 
26         string json = getcontent(url);
27 
28         jsonobject jsonobject = new jsonobject(json).getjsonobject("playlist");
29 
30         if(jsonobject.has("hd")){
31             return jsonobject.getjsonobject("hd").getstring("play_url");
32         }else if(jsonobject.has("sd")){
33             return jsonobject.getjsonobject("sd").getstring("play_url");
34         }else if(jsonobject.has("ld")){
35             return jsonobject.getjsonobject("ld").getstring("play_url");
36         }
37         return null;
38     }
39 
40     /**
41      * 解析出播放清单文件内分散的多个js格式视频url
42      * @param url
43      * @return
44      */
45     public static list<string> getsrclist(string url) throws ioexception {
46         list<string> list = new arraylist<>();
47         string content = getcontent(url);
48         // 提取出相对路径
49         string relurl = url.replaceall("/\\w+-\\w+-\\w+-\\w+-\\w+\\.m3u8.*", "");
50 
51         // 正则提取出的为相对路径, 需与前面的relurl完成拼接
52         matcher matcher = pattern.compile("extinf:\\d+\\.\\d+,(.+?)#").matcher(content);
53 
54         while (matcher.find()){
55             system.out.println(matcher.group(1));
56             list.add(relurl + "/" + matcher.group(1));
57         }
58 
59         return list;
60     }
61 
62     /**
63      * 读取输入流并写到输出流中,该函数用于合并分散的视频文件
64      * @param in
65      * @param out
66      * @throws ioexception
67      */
68     public static void combinestream(inputstream in, outputstream out) throws ioexception {
69         byte[] bytes = new byte[1024];
70         int n;
71         while ((n = in.read(bytes)) != -1){
72             out.write(bytes, 0, n);
73         }
74         in.close();
75     }
76 
77     public static inputstream getinputstream(string url) throws ioexception {
78         urlconnection connection = new url(url).openconnection();
79         connection.setrequestproperty("user-agent", "mozilla/5.0 (x11; linux x86_64) applewebkit/537.36 (khtml, like gecko) chrome/69.0.3497.81 safari/537.36");
80         return connection.getinputstream();
81     }
82 
83     private static string getcontent(string url) throws ioexception {
84         urlconnection connection = new url(url).openconnection();
85         connection.setrequestproperty("user-agent", "mozilla/5.0 (x11; linux x86_64) applewebkit/537.36 (khtml, like gecko) chrome/69.0.3497.81 safari/537.36");
86 
87         inputstream inputstream = connection.getinputstream();
88         bufferedreader reader = new bufferedreader(new inputstreamreader(inputstream));
89 
90         stringbuilder stringbuilder = new stringbuilder();
91         string line;
92         while((line = reader.readline()) != null){
93             stringbuilder.append(line);
94         }
95         reader.close();
96         inputstream.close();
97         return stringbuilder.tostring();
98     }
99 }

main.java

import java.io.file;
import java.io.fileoutputstream;
import java.io.ioexception;
import java.io.inputstream;
import java.net.url;
import java.net.urlconnection;
import java.util.list;

public class main {
    public static void main(string[] args) {

        // 将下面的替换成对应的知乎视频url即可
        string url_1 = "https://lens.zhihu.com/api/videos/1024143280014860288";

        try {
            fileoutputstream outputstream = new fileoutputstream(new file("/home/as_/ideaprojects/videohelper/video_1.mp4"));

            list<string> urls = httputil.getsrclist(httputil.getplayurl(url_1));

            for(string url: urls){
                httputil.combinestream(httputil.getinputstream(url), outputstream);
            }

        } catch (ioexception e) {
            e.printstacktrace();
        }
    }

}

最后附上

上一篇：网站优化和用户体验的矛与盾的关系

下一篇： OO第三单元总结

知乎视频下载(爬虫)

Python 爬虫模拟登陆知乎

Python使用Srapy框架爬虫模拟登陆并抓取知乎内容

Python使用Srapy框架爬虫模拟登陆并抓取知乎内容

使用Python编写简单网络爬虫抓取视频下载资源

Python实现爬取知乎神回复简单爬虫代码分享

利用node.js写一个爬取知乎妹纸图的小爬虫

php爬虫：百万级别知乎用户数据爬取与分析

PHP爬虫之百万级别知乎用户数据爬取与分析

Python视频爬虫实现下载头条视频功能示例

使用Python编写简单网络爬虫抓取视频下载资源