Python爬虫实战--使用python爬取网站数据

程序员文章站 2022-05-02 17:05:27

...

1、获取url：输入想要爬取的网站url。
2、发送请求：使用python的requests库获取url并发送请求。
3、提取数据：使用正则表达式提取想要获取的数据。
4、保存数据：得到想要的数据后，可存放到文件中或数据库。
上代码实例：

import requests
import re
url=”网站Url”
Headers={“user-Agent”:””}
html=Requests.get(url,headers=headers)
print(html)
video_id=re.findall(‘<a href=”(.*?)” class=”vervideo-lilink actplay”>’,html.text)
print(video_id)
video_url=[]
starturl=””  
for vid in video_id:
    newurl=starturl+vid
    #print(newurl)
    video_url.append(newurl)
    #print(video_url)
for purl in video_url:
     html_data=requests.get(purl,headers=headers)
     print(html_data.text)
     playurl=re.findall(‘srcUrl=”(.*?)”,’,html_data.text)[0]
     content=requests.get(playurl,headers=headers).content
     video_name=re.findall(‘<h1 class=”video-tt”>(.*?)</h1>’,html_data.text)[0]
     path=”video/”  #爬取的视频存放地址
     filepath=path+video_name+”.mp4”
     with open(filepath,”wb”) as f:
        f.write(content)
      print(“下载%s视频”%video_name)在这里插入代码片

Python爬虫实战--使用python爬取网站数据

Python使用Selenium爬取淘宝异步加载的数据方法

网易云歌单信息爬取及数据分析（python爬虫）

Python实现爬取知乎神回复简单爬虫代码分享

手把手教你用Node.js爬虫爬取网站数据的方法

Python3爬虫使用Fidder实现APP爬取示例

python使用webdriver爬取微信公众号

Python爬取租房数据实例，据说可以入门爬虫的小案例！

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

Python爬虫实战：批量下载网站图片

使用python的request库爬取某小说书网站