Nginx实现非套路镜像站的踩坑记录
程序员文章站
2022-04-26 14:29:52
缘起
前几天发现一个电子书非常棒,但是是 github 上的,总是打不开,而正好我的服务器是在香港的,所以我想做一个镜像。下面给大家提供了两种方案,下面话不多说了,来...
缘起
前几天发现一个电子书非常棒,但是是 github 上的,总是打不开,而正好我的服务器是在香港的,所以我想做一个镜像。下面给大家提供了两种方案,下面话不多说了,来一起看看详细的介绍吧。
方案一
做了如下配置:
location ^~ /book-c/ { proxy_pass http://akaedu.github.io/book/; proxy_redirect off; proxy_http_version 1.1; proxy_set_header upgrade $http_upgrade; proxy_set_header connection "upgrade"; }
浏览了下,都 ok,但是有几点不太好
- 如果以后我发现类似的书很好,都要增加一个 nginx 配置。
- 如果原始网站完全无法访问了,我这边也挂了,不能缓存到我本地服务器。
- 我想修改网页内容也不太好操作,比如我想加上原作者的版权和原始访问地址说明等。
完全采集过来,我也懒得写脚本去跑,最终走上了下面这段踩坑路。
尝试改进
所以尝试了如下做法
rewrite ^/book-(.*?)/ /index.php?m=book&a=show&book=$1 last;
class bookaction extends action{ private $uri; public function show(){ $book = $_get['book']; if (!method_exists($this,$book)){ $this->error404(); } try{ $this->$book(); }catch (exception $e){ $this->error404(); } } /** * http://akaedu.github.io/book/ */ private function c(){ $baseurl = "http://akaedu.github.io/book/"; $url = $baseurl.$this->uri; echo file_get_contents($url); } }
又遇到了一个问题,当我访问 https://mengkang.net/book-c/styles.css 则无法 rewrite 匹配到了。
原因是 nginx 优先匹配了
location ~ .*\.(js|css)?$ { expires 12h; }
正则匹配优先级关系:
方案二
添加一条
location ~ /book-.*?/ { rewrite ^/book-(.*?)/ /index.php?m=book&a=show&book=$1 last; }
location ^~ 不支持正则的,所以没法用
采坑小记
如果是使用的 location ~ /book-.*/ ,根据正则就是贪婪模式,那么
https://mengkang.net/book-c/images/sortsearch.theta.png
匹配到的就是 /book-c/images/ ,也就是说rewrite里面的 $1 就是 c/images ,这样和我们的预期相悖的。
故障:无法匹配到 css 文件
$ wget -s https://mengkang.net/book-c/styles.css -o /dev/null --2018-02-01 13:13:36-- https://mengkang.net/book-c/styles.css resolving mengkang.net... 203.195.188.207 connecting to mengkang.net|203.195.188.207|:443... connected. http request sent, awaiting response... http/1.1 200 ok server: nginx date: thu, 01 feb 2018 05:13:38 gmt content-type: text/html; charset=utf-8
所有内容的输出默认都是 text/html ,那么也就是我需要对文件的后缀判断咯。 感觉自己给自己挖坑,不如直接采集得了
<?php class bookaction extends action{ const book_save_dir = "/data/book/"; private $uri; private $baseurl; private $book; private $bookname; public function show(){ $book = $_get['book']; $this->book = $book; $this->uri = str_replace("/book-{$book}/","",$_server['request_uri']); if (!method_exists($this,$book)){ $this->error404(); } try{ $this->$book(); }catch (exception $e){ $this->error404(); } } /** * http://akaedu.github.io/book/ */ private function c(){ $this->baseurl = "http://akaedu.github.io/book/"; $url = $this->baseurl.$this->uri; $this->output($url); } private function output($url){ $ext = pathinfo($url,pathinfo_extension); if (!$ext) { $url = $url."/index.html"; $ext = "html"; } switch ($ext){ case "css": header("content-type: text/css; charset=utf-8"); break; default: header("content-type: text/html; charset=utf-8"); break; } // 如果已经缓存 $filename = self::book_save_dir.$this->book."/".str_replace($this->baseurl,"",$url); if (file_exists($filename)){ $data = file_get_contents($filename); }else{ $data = file_get_contents($url); $dir = dirname($filename); if (!file_exists($dir)){ mkdir($dir,755,true); } file_put_contents($filename,$data); } // 增加原始版权说明 echo $data; } }
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对的支持。