欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python爬虫第一天——入门

程序员文章站 2022-04-08 23:20:33
...

python爬虫第一天——入门

看过python基础知识,想学点好玩的知识,于是就想起来了爬虫.

下面是照着书上敲的第一个爬虫程序

利用requests.get()模拟get请求获取response对象
再利用BeatifulSoup进行解析
最后保存文件

import requests
from bs4 import BeautifulSoup
def main():
    #定义目标网页地址
    link = "http://www.santostang.com/"
    #定义请求头信息
    headers={'User-Agent' : 'Mozilla/5.0 (Window; U; Windows NT 6.1; en-Us; rv:1.9.1.6) Gecko/200912.1 Firefox/3.5.6'}
    r =requests.get(link,headers=headers) #请求网页

    soup=BeautifulSoup(r.text,"html.parser")#使用beautifulSoup解析
    title=soup.find("h1",class_="post-title").a.text.strip()
    print(title)

    filename = "CrawlerDemo.txt"
    outfile = open(filename,"w")
    outfile.write(title)
    outfile.close()
main()