爬取某些网站政策性文件及数据

程序员文章站 2022-04-28 09:53:23

...

访问一些*网站并获取网页
根据需求解析出其中的政策性文件以需求的数据
保存到本地，如果失败则记录在日志中
github: https://github.com/hailinli/crawGovData/

一、需求介绍（示例南京）

进入*（部门）官网 http://www.nanjing.gov.cn/index.html 找出其中的*文件栏目，一般在信息公开中
进入*文件网站http://www.nanjing.gov.cn/xxgk/szf/?id=47493红色画圈部分为需要采集的文章。

采集范围为：市*文件、市*办公厅文件、部门文件、区文件
进入文章页面

将网页其中的部分内容爬取存储到本地TXT（名称为文件标题）
需采集网页URL、文件信息、文件内容
将网页中的文件下载存储到相应文件夹中，以文章标题命。
具体参考示例
网页中有下载链接或者附件的也需下载到相应的文件夹中

https://github.com/hailinli/crawGovData/blob/master/crawBase.py 爬虫基类，主要用于下载网页（包括启动浏览器下载和程序下载网页），下载图片，获取某html标签的文字内容，下载某大标签的所有文字。
https://github.com/hailinli/crawGovData/blob/master/log.py 日志类，主要用于写日志，用于保存程序运行过程所需日志，运行后日志保存在logs文件中，以日期命名。
craw****.py 主要对应于具体某市网站的网站数据抓取类。

cd crawGovData/
python craw****.py  # craw****.py 指具体的某市网站数据抓取类

如爬取太原市的数据

cd crawGovData/crawTaiyuann/
python crawTaiyuan.py
python crawTaiyuanFgw.py
python crawTaiyuanWjw.py
...
python crawTaiyuanjxw.py

相关标签： python python代码爬虫