关于web端字体加密

程序员文章站 2022-04-23 15:38:26

...

第一种：SVG映射反爬虫

SVG 是用于描述二维矢量图形的一种图形格式。它基于 XML 描述图形，对图形进行放大或缩小操作都不会影响图形质量。矢量图形的这个特点使得它被广泛应用在 Web 网站中。

接下来我们要了解的反爬虫手段正是利用 SVG 实现的，这种反爬虫手段用矢量图形代替具体的文字，不会影响用户正常阅读，但爬虫程序却无法像读取文字那样获得 SVG 图形中的内容。由于 SVG 中的图形代表的也是一个个文字，所以在使用时必须在后端或前端将真实的文字与对应的 SVG 图形进行映射和替换，这种反爬虫手段被称为 SVG 映射反爬虫。

实例介绍：

网址：http://www.porters.vip/confusion/food.html

任务：爬取美食商家评价网站页面中的商家联系电话、店铺地址和评分数据，页面内容如图 6-15所示

关于web端字体加密

在编写 Python 代码之前，我们需要确定目标数据的元素定位。在定位过程中，发现一个与以往不同的现象：有些数字在 HTML 代码中并不存在。例如口味的评分数据，其元素定位如图 6-16 所示。

关于web端字体加密

根据页面显示内容，HTML代码中应该是8.7才对，但实际上我们看到的却是：

<span class="item">口味:<d class="vhkjj4"></d>.7</span>

HTML 代码中有数字 7 和小数点，但没有 8 这个数字，似乎数字 8 的位置被 d 标签占据。而商家电话号码处的显示就更奇怪了，一个数字都没有。商家电话对应的 HTML 代码如下：


<div class="col more"> 
        电话：
   <d class="vhkbvu"></d> 
   <d class="vhk08k"></d> 
   <d class="vhk08k"></d> 
   <d class="">-</d> 
   <d class="vhk84t"></d> 
   <d class="vhk6zl"></d> 
   <d class="vhkqsc"></d> 
   <d class="vhkqsc"></d> 
   <d class="vhk6zl"></d> 
</div>

包含很多的 d 标签，难道它使用 d 标签进行占位，然后用元素进行覆盖吗？我们可以将 d 标签的数量和数字的数量进行对比，发现它们的数量是相同的，也就是说一对 d 标签代表一个数字。

每一对 d 标签都有 class 属性，有些 class 属性值是相同的，有些则不同。我们再将 class 属性值与数字进行对比，看一看能否找到规律，如图 6-17 所示。

关于web端字体加密

从图 6-17 中可以看出，class 属性值和数字是一一对应的，如属性值 vhk08k 与数字 0 对应。根据这个线索，我们可以猜测每个数字都与一个属性值对应，对应关系如图 6-18 所示。

关于web端字体加密

浏览器在渲染页面的时候就会按照这个对应关系进行映射，所以页面中显示的是数字，而我们在 HTML 代码中看到的则是这些 class 属性值。浏览器在渲染时将 HTML 中的 d 标签与数字按照此关系进行映射，并将映射结果呈现在页面中。映射逻辑如图 6-19 所示。

关于web端字体加密

我们的爬虫代码可以按照同样的逻辑实现映射功能，在解析 HTML 代码时将 d 标签的 class 属性值取出来，然后进行映射即可得到页面中显示的数字。如何在爬虫代码中实现映射关系呢？实际上网页中使用的是“属性名数字”这种结构，Python 中内置的字典正好可以满足我们的需求。我们可以用 Python 代码测试一下，代码如下：

# 定义映射关系
mappings = {'vhk08k': 0, 'vhk6zl': 1, 'vhk9or': 2, 
   'vhkfln': 3, 'vhkbvu': 4, 'vhk84t': 5, 
   'vhkvxd': 6, 'vhkqsc': 7, 'vhkjj4': 8, 
   'vhk0f1': 9} 
# HTML 中得到的属性值
html_d_class = 'vhkvxd' 
# 将映射后的结果打印输出
print(mappings.get(html_d_class))

这是第一种，运行代码检测一下发现是正确的，这种就是一种映射，找到每个号码对应的class的值就可以解决了相对简单一些，而且里面的汉字没有加密。

第二种：

大众点评反爬虫案例：这种映射手段不仅仅出现在本书的示例中，在大型网站中也有应用。大众点评是中国领先的本地生活信息及交易平台，也是全球最早建立的独立第三方消费点评网站。大众点评不仅为用户提供商户信息、消费点评及消费优惠等信息服务，同时提供团购、餐厅预订、外卖和电子会员卡等 O2O（Online To Offline）交易服务。大众点评网站也使用了映射型反爬虫手段，打开浏览器并访问 https://www.dianping.com/shop/14741057，页面如图 6-20 所示。

关于web端字体加密

大众点评的商家信息页主要用于展示消费者对商家的各项评分、商家电话、店铺地址和推荐菜品等。我们可以看一看商家电话或评分的 HTML 代码，如图 6-21 所示。

关于web端字体加密

乍一看，还是很相似的，但是实际上的技术手段是有很大的区别的，我们从下面的图片可以看到里面的汉字也是加了密的。

关于web端字体加密

除了刚才的数字映射之外，大众点评还对中文进行了映射。此时如果按照示例 6 中人为地将 class 值和对应的文字进行映射的话，就非常麻烦了。试想一下，如果网页中所有的文字都使用这种映射反爬虫的手段，那么爬虫工程师要如何应对呢？对所有用到的文字进行映射吗？

这不可能做到，其中要完成映射的包括 10 个数字、26 个英文字母和几千个常用汉字。而且目标网站一旦更改文字的对应关系，那么爬虫工程师就需要重新映射所有文字。面对这样的问题，我们必须找到文字映射规律，并且能够使用 Python 语言实现映射算法。如此一来，无论目标网站文字映射的对应关系如何变化，我们都能够使用这套映射算法得到正确的结果。

这种映射关系在网页中是如何实现的呢？是使用 JavaScript 在页面中定义数组吗？还是异步请求API 拿到 JSON 数据？这都有可能，接下来我们就去寻找答案。

SVG 反爬虫原理升级应用

映射关系不可能凭空出现，一定使用了某种技术特性。HTML 中与标签 class 属性相关的只有 JavaScript 和 CSS。根据这个线索，我们需要继续对示例 6 进行分析。案例中商家电话的 HTML 代码为：

<div class="col more">电话：

</div>

我们可以随意选择一对 d 标签，然后观察它对应的 CSS 样式有没有可以深入分析的线索，如果没有线索再看 JavaScript。 d 标签的 CSS 样式如下：

d[class^="vhk"] { 
   width: 14px; 
   height: 30px; 
   margin-top: -9px; 
   background-image: url(../font/food.svg); 
   background-repeat: no-repeat; 
   display: inline-block; 
   vertical-align: middle; 
   margin-left: -6px; 
} 
.vhkqsc { 
    background: -288.0px -141.0px; 
}

d 标签样式看上去没有什么特别之处，只是设置了 background 属性的坐标值。但是上方 d 标签的公共样式中设置了背景图片，我们可以复制背景图片的地址，在浏览器的新标签页中打开，d 标签背景图如图

关于web端字体加密

图1

d 标签的背景图中全部都是数字，这些无序的数字共有 4 行。但这好像不是一张大图片，我们查看该图片页面的源代码，内容如图

关于web端字体加密

图2

源代码中前两行表明这是一个 SVG 文件，该文件中使用 text 标签定义文本， style 标签用于设置文本样式， text 标签定义的文本正是图片页面显示的数字。难道这些无序的数字就是我们在页面中看到的电话号码和评分数字？

除了 class 属性值为 vhkbvu 的 d 标签，其他标签也使用了这个的 CSS 样式，但每对 d 标签的坐标定位都不同。它们的坐标定位如下：

.vhkbvu { 
    background: -386px -97px; 
} 
.vhk08k { 
    background: -274px -141px; 
} 
.vhk84t {
    background: -176px -141px; 
}

坐标是定位数字的关键，要想知道坐标的计算方法，必须了解一些关于 SVG 的知识。

在本节开始的时候，我们简单地了解了 SVG 的概念，知道 SVG 是基于 XML 的。实际上它是用文本格式的描述性语言来描述图像内容的，因此 SVG 是一种与图像分辨率无关的矢量图形格式。打开文本编辑器，并在新建的文件中写入以下内容：

<?xml version="1.0" encoding="UTF-8" standalone="no"?> 
<!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" "http://www.w3.org/Graphics/SVG/1.1/ 
 DTD/svg11.dtd"> 
<svg xmlns="http://www.w3.org/2000/svg" version="1.1" xmlns:xlink="http://www.w3.org/ 
 1999/xlink" width="250px" height="250.0px"> 
    <text x='10' y='30'>hello,world</text> 
</svg>

将该文件保存为 test.svg，然后使用浏览器打开 test.svg 文件，显示内容如图

关于web端字体加密

代码前 3 行声明文件类型，第 4 行~第 5 行定义了 SVG 内容块和画布宽高，第 6 行使用 text 标签定义了一段文本并指定了文本的坐标。这段文本就是我们在浏览器中看到的内容，而代码中的 x 坐标和 y 坐标则用于确定该文本在画布中的位置，坐标规则如下。

以页面的左上角为零坐标点，即坐标值为 (0, 0)。
坐标以像素为单位。
x 轴的正方向为从左到右，y 轴的正方向是从上到下。
n 个字符可以有 n 个位置参数。

如果字符数量大于位置参数数量，那么没有位置参数的字符将以最后一个位置参数为零坐标点，并按原文顺序排列。

看上去并不是很好理解，我们可以通过修改代码来理解坐标轴的定义。首先是 x 轴， text 标签中的 x 代表列表字符在页面中的 x 轴位置，test.svg 中的 x 值为 10，现在我们将其设为 0 ，保存后刷新网页，页面内容如图

关于web端字体加密

x 的值为 0 时，文本紧贴浏览器左侧。而 x 的值为 10 时，文本距离浏览器左侧有一定的距离，这说明 x 的值能够决定文字所在的位置。现在我们将代码中 x 对应的值改为“10 50 30 40 20 60”（注意这里特意将第 2个数字 20与第 5个数字互换了位置），这样做是为了设定前 6个字符的坐标位置。

此时，第 1 个字符的位置参数为 10，第 2 个字符的位置参数为 50，第 3 个字符的位置参数为 30，以此类推，页面中正常显示的文字顺序应该是：


holle,world

但是由于我们调换了第 2 个字符和第 5 个字符的位置参数，即字母 e 和字母 o 的位置互换，如图

关于web端字体加密

中文字顺序与我们猜测的顺序是一样的，这说明 SVG 中每个字符都可以有自己的 x 轴坐标值。y 与 x 同理，每个字符都可以有自己的 y 轴坐标值。虽然我们只设定了 6 个位置参数， svg 中的字符却有 11 个，但没有设定位置参数的字符依然能够按照原文顺序排序。在了解 SVG 基本知识之后，我们回头看一下案例中所使用的 SVG 文件中坐标参数的设定，图1 中的字符与图 2 图片页源代码中的字符一一对应，且每个字符都设定了 x 轴的位置参数，而 y 轴则只有 1 个值。

在了解位置参数之后，我们还需要弄清楚字符定位的问题。浏览器根据 CSS 样式中设定的坐标和元素宽高来确定 SVG 中对应数字。x 轴的正方向为从左到右，y 轴的正方向是从上到下，如图所示：

关于web端字体加密

x轴和y轴与位置参数的关系

而 CSS 样式中的 x 轴与 y 轴是相反的，也就是说 CSS 样式中 x 轴是负数向右的，y 轴是负数向下的，如图所示：

关于web端字体加密

CSS x轴和y轴与位置参数的关系

所以当我们需要在 CSS 中定位 SVG 中的字符位置时，需要用负数表示。我们可以通过一个例子来理解它们的关系，现在需要在 CSS 中定位下图中第 1 行的第 1 个字符的中心点。

关于web端字体加密

假设字符大小为 14 px，那么 SVG 的计算规则如下。

字符在x轴中心点的计算规则为：字符大小除以2，再加字符的x轴起点位置参数，即14÷2+0 等于 7。
字符在 y 轴中心点的计算规则为：y 轴高度减字符 y 轴起点减字符大小，其值除以 2 后加上字符 y 轴起点位置参数，最后再加上字符大小数值的一半，即(38−0−14)÷2+0+7 等于 19。

最后得到 SVG 的坐标为：x='7' y='19'

CSS 样式的 x 轴和 y 轴与 SVG 是相反的，所以 CSS 样式中对该字符的定位为：


-7px -19px

这样就能够定位到指定字符的中心点了。但是如果要在 HTML 页面中完整显示该字符，那么还需要为 HTML 中对应的标签设置宽高样式，如：


width: 14px; 
height: 30px;

在了解了 SVG 与 CSS 样式的关联关系后，我们就能够根据 CSS 样式映射出 SVG 中对应的字符。

在实际场景中，我们需要让程序能够自动处理 CSS 样式和 SVG 的映射关系，而不是人为地完成这些工作。

假如我们需要用 Python 代码实现自动映射功能，首先我们就需要拿到这两个文件的 URL，如：

	
url_css = 'http://www.porters.vip/confusion/css/food.css' 
url_svg = 'http://www.porters.vip/confusion/font/food.svg'

还需要映射的HTML标签的class属性值，如：

	
css_class_name = 'vhkbvu'

接下来使用Requests库向URL发出请求，拿到文本内容，对应代码如下：

import requests 
css_resp = requests.get(url_css).text 
svg_resp = requests.get(url_svg).text

接下来提取CSS样式文件中标签属性对应的坐标值，这里用正则获取（忽略拙略的正则表达式）

css_class_name = 'vhkbvu'
pile = r'.%s{background:-(.*?)px-(.*?)px;}' % css_class_name
pattern = re.compile(pile)
css = css_resp.replace('\n', '').replace(' ', '')
coord = pattern.findall(css)
if coord:
 x, y = coord[0]
 x, y = int(x), int(y)

这里是举例说明一下class属性值为vhkbvu的值是怎么映射的。

求得的结果是x=386,y= 97

得到 y 值后就可以开始字符定位了。要注意的是，SVG 中 text 标签的 y 值与 CSS 样式中得到的 y 值并不需要完全相等，因为样式可以随意调整，比如 CSS 样式中-90 和-92 对于 SVG 的定位来说并没有什么差别，所以我们只需要知道具体是哪一个 text 即可。

那么如何确定是哪一个 text呢？

我们可以用排除法来确定，假如当前 CSS 样式中的 y 值是-97，那么在 SVG 中 text 的 y 值就不可能小于 97，我们只需要取到比 97 大且最相近的 text 标签 y 值即可。比如当前 SVG 所有 text 标签的 y 值为：

#获取text文件中的所有y值
texts=[int(i) for i in re.findall('y="(.*?)"',svg_resp)]

#所有y值[38, 83, 120, 164]

#取出比我们要映射的y值大且最近的一个
axis_y=[n for n in texts if y<=n][0]
print(axis_y)

可以看出我们选择的y值是120.。

接下来我们就来确认一下文字的大小，同样用正则表达式

font_size=re.search('font-size:(.*?)px', svg_resp).group(1)
print(font_size)
#可以得出是14px

然后我们匹配出y=120的text里所有的字符，如果不理解，可以打印一下所有的text看一下，

mid_str='"'+ str(axis_y) +'"'
word_list=re.findall('y={}>(.*?)</text>'.format(mid_str),svg_resp)[0]

print(word_list)
#所有的字符为：
	
'671260781104096663000892328440489239185923'

我们用要映射的字符的x值除于字符的位置（可能需要取整27），我们在字符列表里取出第27个就是我们映射出来的真实数字

关于web端字体加密

总结一下，先找出class值对应的坐标（x,y）,用y的值确定是哪一个text，取出text里面的字符大小，和所有的真实字符，用x与字符大小的比值确定是所有真实字符里面的哪一个，其实也就是这一点，理解了就会感觉简单了，同理也可以用于汉字的映射，尤其是遇到网站的评论里，对汉字映射是常见的手段。

具体详细的代码不再给出，大家可以按照这个自己敲一下，加深理解。有不好的地方，欢迎大家指正，如果你有更好的解决办法也欢迎讨论！

关于web端字体加密

SVG 反爬虫原理升级应用

关于Web前端密码加密是否有意义的分析讲解

@font-face 客户端使用用服务器端字体样式字体转换工具_html/css_WEB-ITnose

关于移动端的font的大小问题_html/css_WEB-ITnose

关于移动端百分比宽度的几种实现_html/css_WEB-ITnose

求大神解答关于判断是手机客户端还是平板客户端的问题。_html/css_WEB-ITnose

关于HTML加密混淆、源码保护、代码安全，防止解压直接看源码_html/css_WEB-ITnose

关于移动端的font的大小问题_html/css_WEB-ITnose

关于CSS中的字体尺寸设置_html/css_WEB-ITnose

关于移动端百分比宽度的几种实现_html/css_WEB-ITnose

关于CSS中的字体尺寸设置 em rem等_html/css_WEB-ITnose

关于web端字体加密

SVG 反爬虫原理升级应用

关于Web前端密码加密是否有意义的分析讲解

@font-face 客户端使用用服务器端字体样式 字体转换工具_html/css_WEB-ITnose

关于移动端的font的大小问题_html/css_WEB-ITnose

关于移动端百分比宽度的几种实现_html/css_WEB-ITnose

求大神解答 关于判断是手机客户端还是平板客户端的问题。_html/css_WEB-ITnose

关于HTML加密混淆、源码保护、代码安全，防止解压直接看源码_html/css_WEB-ITnose

关于移动端的font的大小问题_html/css_WEB-ITnose

关于CSS中的字体尺寸设置_html/css_WEB-ITnose

关于移动端百分比宽度的几种实现_html/css_WEB-ITnose

关于CSS中的字体尺寸设置 em rem等_html/css_WEB-ITnose

@font-face 客户端使用用服务器端字体样式字体转换工具_html/css_WEB-ITnose

求大神解答关于判断是手机客户端还是平板客户端的问题。_html/css_WEB-ITnose