欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python起点网月票榜字体反爬案例

程序员文章站 2022-03-24 10:03:59
...

大家好,本篇文章主要讲的是python起点网月票榜字体反爬案例,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
目录
前言:
1.解析过程
2.开始敲代码
前言:
字体反爬是什么个意思?就是网站把自己的重要数据不直接的在源代码中呈现出来,而是通过相应字体的编码,与一个字体文件(一般后缀为ttf或woff)把相应的编码转换为自己想要的数据,知道了原理,接下来开始展示才艺

1.解析过程
老规矩哈我们先进入起点月票榜f12调试,找到书名与其对应的月票数据所在,使用xpath尝试提取
python起点网月票榜字体反爬案例
可以看到刚刚好20条数据,接下来找月票数据:
python起点网月票榜字体反爬案例
这是什么鬼xpath检索出来20条数据但是数据为空,element中数据显示为未知符号,这貌似没有数据呀,这时我们观察源代码,搜索关键字font-face可以看到这种看不懂的编码,这就是前言中所说的字体的编码。

我们接下来找字体文件数据包
python起点网月票榜字体反爬案例
woff文件并且请求地址与这上面看到的地址一样,不过这里需要注意的是每次请求地址都不一样,文件名字也不一样,所以我们需要每爬取一次都要单独爬取一次字体加密数据,字体加密数据可以使用第三方库fonttools进行解析

我们现在拥有:

1.书名

2.月票数据的密文

3.月票数据密文对应的字体文件
2.开始敲代码
首先定义获取书名的函数get_book_name并进行测试:

  1. import requests
  2. from lxml import etree
  3. def get_book_name(xml_obj):
  4. name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
  5. return name_list
  6. if __name__ == '__main__':
  7. # 设置我们通用的请求头,避免被反爬拦截
  8. headers_ = {
  9. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
  10. 'referer': 'https://www.qidian.com/rank/',
  11. 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
  12. }
  13. url_ = 'https://www.qidian.com/rank/yuepiao/'
  14. # 请求网页源代码
  15. str_data = requests.get(url_, headers=headers_).text
  16. # 使用xpath解析书名
  17. xml_obj = etree.HTML(str_data)
  18. print(get_book_name(xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '*气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']

2.请求月票数据密文,并进行测试:

  1. import re
  2. import requests
  3. from lxml import etree
  4. # 获取书名
  5. def get_book_name(xml_obj):
  6. name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
  7. return name_list
  8. # 获取月票加密数据
  9. def get_yuepiao(str_data):
  10. # 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据
  11. yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data)
  12. return yuepiao_list
  13. if __name__ == '__main__':
  14. # 设置我们通用的请求头,避免被反爬拦截
  15. headers_ = {
  16. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
  17. 'referer': 'https://www.qidian.com/rank/',
  18. 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
  19. }
  20. url_ = 'https://www.qidian.com/rank/yuepiao/'
  21. # 请求网页源代码
  22. str_data = requests.get(url_, headers=headers_).text
  23. # 使用xpath解析书名
  24. xml_obj = etree.HTML(str_data)
  25. print(get_book_name(xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '*气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
  26. print(get_yuepiao(str_data)) # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']

3.获取字体加密文件里的对应关系:

安装fonttools库
python起点网月票榜字体反爬案例
由于第一次使用fonttools库,在使用时遇到了以下错误 查询百度得知可能是由于字体文件名字有误,把名称换成url上面带的就成功的提取出来键值对了

(也可能是我使用re正则提取font_url时候不规范造成url错误)

只是这个键值对怎么编码对应英文,程序员为何为难程序员呢,不说了我们要定义一个英语与阿拉伯数字对应的字典进行对英文的替换

  1. def get_font(xml_obj, headers_):
  2. # 使用xpathre获取字体加密数据包地址
  3. font_div = xml_obj.xpath("//span/style/text()")[0]
  4. font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
  5. font_name = str(font_url).rsplit('/', 1)[1]
  6. # 获取font文件进行本地保存
  7. font_data = requests.get(font_url, headers_).content
  8. with open(f'{font_name}', 'wb') as f:
  9. f.write(font_data)
  10. # 加载字体文件
  11. font_data = TTFont(f'{font_name}')
  12. # font_data.saveXML('字体.xml')
  13. font_doct01 = font_data.getBestCmap()
  14. font_doct02 = {
  15. 'period': '.',
  16. 'zero': '0',
  17. 'one': '1',
  18. 'two': '2',
  19. 'three': '3',
  20. 'four': '4',
  21. 'five': '5',
  22. 'six': '6',
  23. 'seven': '7',
  24. 'eight': '8',
  25. 'nine': '9'
  26. }
  27. for i in font_doct01:
  28. font_doct01[i]=font_doct02[font_doct01[i]]
  29. return font_doct01

程序完美运行:
python起点网月票榜字体反爬案例
总代码如下:

  1. import re
  2. import requests
  3. from lxml import etree
  4. from fontTools.ttLib import TTFont
  5. # 获取书名
  6. def get_book_name(xml_obj):
  7. name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
  8. return name_list
  9. # 获取月票加密数据
  10. def get_yuepiao(str_data):
  11. # 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据
  12. yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data)
  13. return yuepiao_list
  14. def get_font(xml_obj, headers_):
  15. # 使用xpathre获取字体加密数据包地址
  16. font_div = xml_obj.xpath("//span/style/text()")[0]
  17. font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
  18. font_name = str(font_url).rsplit('/', 1)[1]
  19. # 获取font文件进行本地保存
  20. font_data = requests.get(font_url, headers_).content
  21. with open(f'{font_name}', 'wb') as f:
  22. f.write(font_data)
  23. # 加载字体文件
  24. font_data = TTFont(f'{font_name}')
  25. # font_data.saveXML('字体.xml')
  26. font_doct01 = font_data.getBestCmap()
  27. font_doct02 = {
  28. 'period': '.',
  29. 'zero': '0',
  30. 'one': '1',
  31. 'two': '2',
  32. 'three': '3',
  33. 'four': '4',
  34. 'five': '5',
  35. 'six': '6',
  36. 'seven': '7',
  37. 'eight': '8',
  38. 'nine': '9'
  39. }
  40. for i in font_doct01:
  41. font_doct01[i] = font_doct02[font_doct01[i]]
  42. return font_doct01
  43. def jiemi(miwen_list, font_list):
  44. yuepiao = []
  45. for i in miwen_list:
  46. num = ''
  47. mw_list=re.findall('&#(.*?);', i)
  48. for j in mw_list:
  49. num += font_list[int(j)]
  50. yuepiao.append(int(num))
  51. return yuepiao
  52. if __name__ == '__main__':
  53. # 设置我们通用的请求头,避免被反爬拦截
  54. headers_ = {
  55. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
  56. 'referer': 'https://www.qidian.com/rank/',
  57. 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
  58. }
  59. url_ = 'https://www.qidian.com/rank/yuepiao/'
  60. # 请求网页源代码
  61. str_data = requests.get(url_, headers=headers_).text
  62. # 使用xpath解析书名
  63. xml_obj = etree.HTML(str_data)
  64. # print(get_book_name(
  65. # xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '*气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
  66. # print(get_yuepiao(
  67. # str_data)) # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']
  68. # print(get_font(xml_obj, headers_))
  69. # 书名列表
  70. book_name_list = get_book_name(xml_obj)
  71. # 月票列表
  72. yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_))
  73. for i in range(len(book_name_list)):
  74. print(f'{book_name_list[i]}:{yuepiao_list[i]}')