学习记录：爬取X男语录

程序员文章站 2024-01-23 12:59:58

...

网站：https://lov删除我live.tools/

写个简单准备版

import requests
import csv

url = 'https://api.lovelive.tools/api/SweetNothings/WebSite/1'

for i in range(4):

    res = requests.get(url)

    json = res.json()

    list = json[0]['content']

    file = open('demo.csv','a+',newline='',encoding='utf-8')

    file.write(list+'\n')

    file.close()

列表获取方法
学习记录：爬取X男语录

分析列表的结构

[{'id': '0770d78d-bbad-4fa2-812b-9ba6edb293e5', 'content': '思念如白马，自别离，未停蹄', 'likeCount': 4, 'dislikeCount': 5, 'type': '默认分类'}]
思念如白马，自别离，未停蹄

获取系统时间代码
学习记录：爬取X男语录

0.2版本增加头文件，获取系统时间，延时获取，显示循环爬取的次数，显示当前爬取的文本内容

#请求头文件
import requests
#csv文件操作头
import csv
#获取系统时间的库
import datetime as dt
#延时大法
import time
#获取渣男语录的网址
url = 'https://api.lovelive.tools/api/SweetNothings/WebSite/1'
#设置头文件，伪装浏览器访问
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36',
}
#获取当前系统时间
now_time = dt.datetime.now().strftime('%F %T')
#先写入本次爬取的系统时间
file = open('渣男语录.csv','a+',newline='',encoding='gbk')
#写入时间
file.write(now_time+'\n')#加\n换行好看一点

#for循环i从range随机数获取次数，进行循环，，后期可以利用input控制爬取的次数！
for i in range(100):
	#设置延迟时间，爬取速度太快容易返回错误值，减少对爬取网站服务器的压力吧。。。
    time.sleep(7)
    #requests.get获取网页，伪装头headers=headers
    res = requests.get(url,headers=headers)
	#json解析列表
    json = res.json()
	#list获取列表content的元素
    list = json[0]['content']
	#文件写入csv，a+文件存在，追加写入。newline=''分隔符,encoding写入格式
    file = open('渣男语录.csv','a+',newline='',encoding='gbk')
    #通过file.write方法把list获取列表content的元素写入csv文件，
    file.write(str(i)+':'+list+'\n'+'\n')
	#关闭文件
    file.close()
    #输出第i次记录爬取
    print('第'+str(i)+'次爬取')
	#显示爬取的conntent文本内容
    print(list)

运行效果图：

学习记录：爬取X男语录

学习记录：爬取X男语录

学习记录：爬取X男语录

Python爬虫学习记录——8.使用自动化神器Selenium爬取动态网页

【Python3.6爬虫学习记录】（七）使用Selenium+ChromeDriver爬取知乎某问题的回答

爬虫学习记录-多线程爬取图片

Python爬虫学习记录（1）——BeautifulSoup爬取天气信息

关于爬虫学习的一些小小记录（四）——爬取数据存入数据库

Python学习记录-爬取猫眼电影top100榜单

爬虫学习记录————利用pyquery，re爬取静态网站信息存储到mongodb中

爬虫学习记录————ajax动态爬取