欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python爬虫实战--使用python爬取网站数据

程序员文章站 2022-05-02 17:05:27
...

1、获取url​:输入想要爬取的网站​url。
2、发送请求:使用python的requests库获取url​并发送请求。
3、提取数据:使用正则表达式提取想要获取的数据​。
4、保存数据:得到想要的数据后,可存放到文件中或数据库。
上代码实例:

import requests
import re
url=”网站Url”
Headers={“user-Agent”:””}
html=Requests.get(url,headers=headers)
print(html)
video_id=re.findall(‘<a href=”(.*?)” class=”vervideo-lilink actplay”>’,html.text)
print(video_id)
video_url=[]
starturl=””  
for vid in video_id:
    newurl=starturl+vid
    #print(newurl)
    video_url.append(newurl)
    #print(video_url)
for purl in video_url:
     html_data=requests.get(purl,headers=headers)
     print(html_data.text)
     playurl=re.findall(‘srcUrl=”(.*?)”,’,html_data.text)[0]
     content=requests.get(playurl,headers=headers).content
     video_name=re.findall(‘<h1 class=”video-tt”>(.*?)</h1>’,html_data.text)[0]
     path=”video/”  #爬取的视频存放地址
     filepath=path+video_name+”.mp4”
     with open(filepath,”wb”) as f:
        f.write(content)
      print(“下载%s视频”%video_name)在这里插入代码片
相关标签: python