欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python 爬虫系列(一) 网站获取

程序员文章站 2022-04-08 23:18:51
...

爬虫是python的一个强大的功能,它的核心在于获取页面数据和反馈给该网站相应的数据以获取一定的权限。

其中以抓取页面信息为核心功能。

将页面html信息提取出来的功能主要如下:

   一、获取header,url

   二、根据header和url获取html

   三、对html内容进行编译,就可以看到网址的源码和数据了

import requests
from bs4 import BeautifulSoup

url = 'https://item.jd.com/12235139.html'
header = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"}
html = requests.get(url,headers = header)
soup_first = BeautifulSoup(html.text,'lxml')

print(soup_first)