爬取小说时--去空行和有序化
程序员文章站
2023-08-30 11:13:20
有序化 以小说章节目录的数字为文件名,一章一个文件(但上千章就得有上千个文件) 在每次获取小说章节里的内容时,给item添加新的标识,添加对应的章节的数字,全部存入数据库,然后根据这个数字标识排序取出数据即可 去空行 利用splitlines()和strip() str.splitlines([ke ......
有序化
- 以小说章节目录的数字为文件名,一章一个文件(但上千章就得有上千个文件)
- 在每次获取小说章节里的内容时,给item添加新的标识,添加对应的章节的数字,全部存入数据库,然后根据这个数字标识排序取出数据即可
去空行
- 利用splitlines()和strip()
- str.splitlines([keepends])
- 参数keepends---在输出结果里是否保留换行符('\r', '\r\n', \n'),默认为 false,不包含换行符,如果为 true,则保留换行符。
- text = ''.join([s for s in text.splitlines(true) if s.strip()])