网络爬虫

程序员文章站 2022-07-05 12:58:16

...

1.取出h1标签的文本

import requests
newsurl='http://localhost:63342/bd/cgc.html?_ijt=r6216qes962k0f6q6ufku7ajkc'
res = requests.get(newsurl) #返回response对象
res.encoding='utf-8'




from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,'html.parser')
print(soup.h1.text)

2.取出a标签的链接

print(soup.select('a')[0].attrs['href'])

3.取出所有li标签的所有内容

print(soup.li.contents)

4.取出第2个li标签的a标签的第3个div标签的属性

print(soup.find_all('li')[1].a.find_all('div')[2].attrs)

5.取出一条新闻的标题、链接、发布时间、来源

print(soup.select('div .news-list-title')[0].text)
print(soup.select('div .news-list-thumb')[0].parent.attrs.get('href'))
print(soup.select('div .news-list-info > span')[0].text)
print(soup.select('div .news-list-info > span')[1].text)

上一篇： Windows API（二）进程

下一篇： Edraw Max怎么画约克蛋酥? 亿图图示蛋黄酥画法

网络爬虫

将网络歌曲下载到手机或u盘、内存卡、MP3的多种方法

IOS 开发之网络图片轮播图的实现

swift3.0网络图片缓存原理简析

老生常谈Java网络编程TCP通信(必看篇)

详解Swift 利用Opration和OprationQueue来下载网络图片

Android编程实现网络图片查看器和网页源码查看器实例

基于NIO的Netty网络框架(详解)

Python 制作糗事百科爬虫实例

Python 爬虫模拟登陆知乎

Android平台下轻量级http网络传输库