欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python爬虫入门(一)——搭建环境

程序员文章站 2022-05-28 22:25:11
...

比特币大跌,心情系度差。搜到一个小说网站http://byqbook.com/,想把他的内容扒下来。


我一直都觉得爬虫是个有意思的事,因此说干就干。通过两个小时的了解,我大体规划出来一个爬网页的步骤和技术。大体如下:


搭建Python环境
找一个好用的IDE(开发工具)
爬目录,要找到文章标题和对应的Url
尝试着用requests把网页爬下来。
用BeautifulSoup把爬下来的网页分解,找到需要的信息。
把这些信息便利,并保存到Json文件中。
再根据Url来把对应的详情页面爬下来并保存成Json文件。


好了,这个工程基本上就是这样的步骤了。第一篇我们先搭建Python环境。


搭建Python环境的文章有很多,我就不多介绍了,我只说一下我的观感


首先要确定Python版本


这句话看着像废话,当然是版本越新越好了。其实不是,你可以打开Python的官网看一下。https://www.python.org/downloads/ 这里我想说,因为一些网络条件的限制,我们访问官方页面会速度较慢,下载官方地址的软件也会很慢。但还是建议使用官方版本,因为去年已经出现了,国内下载的版本中有恶意代码,所以确保安全还是建议您忍受下载速度,去官方下载。

Python爬虫入门(一)——搭建环境


从官网上可以看出Python的版本分两个3.6和2.7。这两个版本不互相兼容,甚至使用的语法都有所不同。举个简单的栗子:


Python 2.7下的打印命令可以这样写

Print footb


Python 3.6就必须写成

Print (footb)


所以这就是为什么很多你在网上找到的Python源代码不能直接使用的原因。

但是你还是要选一个,我选择的是3.6,为什么?呵呵,主要是我找的爬虫的例子是用3.6做的  *…*b


安装过程我就不多说啦!傻瓜式向导,一键安装。只有一个地方想提醒各位一下,在想到中勾上这个


Python爬虫入门(一)——搭建环境


这样就不用自己去设置环境变量啦~~~~~~~


安装成功后,打开CMD。在任何目录里输入python。

Python爬虫入门(一)——搭建环境


恭喜你,Python安装成功,明天再继续~~~~