欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

爬虫基本结构浅习(适合对python了解不深想学习的人群)

程序员文章站 2022-05-28 23:25:46
...


终于开始研究爬虫(略略看过语法,就来上手

一.环境搭建

先扔出python环境安装,附上链接
菜鸟教程Python 环境搭建
更详细版的安装教程
安装好了之后,你可以使用命令行(cmd)打开python,或者使用IDLE打开编译(直接搜索IDLE)
如果想实时看到效果并保存代码,嫌弃IDLE两个框麻烦,以及命令行无法将写得代码存成文件的缺点,可以下载Visual Studio Code
https://code.visualstudio.com/
效果如下
爬虫基本结构浅习(适合对python了解不深想学习的人群)

出现的一些问题:

如果cmd无法打开python怎么办?

看上面菜鸟教程安装链接里的环境变量设置

如何查找python3的安装位置?

1.自主记忆
2.在命令行能打开python的前提下,输入

import sys
print(sys.path)

二.参考练习

教程链接

Python爬虫|Python爬虫入门(一):爬虫基本结构&简单实例
这篇教程简单易懂
爬虫的核心模块有三个:请求、解析、储存。

出现的一些问题

形如ModuleNotFoundError: No module named ‘requests’

新下载的python,没有一些需要的模块,运行代码时常常会出现
爬虫基本结构浅习(适合对python了解不深想学习的人群)
如果你安装python时如下图,你的pip工具已经安装了
爬虫基本结构浅习(适合对python了解不深想学习的人群)
此时,只需在命令行里输入pip install requests,可以将此处的requests换成报错的其他东西。
爬虫基本结构浅习(适合对python了解不深想学习的人群)
如果没有安装pip等,请参考
Windows下 Python 模块的安装方法
python模块安装的几种方法

个人实战(可略过)

以下是根据教程摘出来的注释与代码

#请求
#导入requests:
import requests
#调用requests的get函数,把网页请求下来
r = requests.get('http://www.wise.xmu.edu.cn/people/faculty')
#把我们需要的网页提取出来
html = r.content
#解析
#导入bs4里的BeautifulSoup
from bs4 import BeautifulSoup
#创建一个BeautifulSoup对象:
soup = BeautifulSoup(html,'html.parser')    #html.parser是解析器
'''
这里使用了BeautifulSoup对象的find方法。意思是找到带有‘div’这个标签
并且参数包含" class = 'people_list' "的HTML代码。如果有多个的话,find方法就取第一个。
'''
div_people_list = soup.find('div', attrs={'class': 'people_list'})
#取出所有的“a”标签里面的内容:
#使用find_all方法取出所有标签为“a”且参数包含“ target = ‘_blank‘ ”的代码,返回一个列表。
a_s = div_people_list.find_all('a', attrs={'target': '_blank'})
'''
“a”标签里面的“href”参数是我们需要的老师个人主页的信息,而标签里面的文字是老师的姓
名。使用BeautifulSoup支持的方法,使用类似于Python字典索引的方式把“a”标签里面“href”
参数的值提取出来,赋值给url(Python实际上是对对象的引用),用get_text()方法把标签里面
的文字提起出来。
'''
for a in a_s:
    url = a['href']
    name = a.get_text()
    print (name,url)

运行结果,开心
爬虫基本结构浅习(适合对python了解不深想学习的人群)
打算爬北邮官网的这部分爬虫基本结构浅习(适合对python了解不深想学习的人群)
mainnav clearfix
然而,错误这么长爬虫基本结构浅习(适合对python了解不深想学习的人群)
我,一会再来改吧(这个一会不知道是多久
最后发现,网址粘错了。
ok,风平浪静

相关标签: python3爬虫