python 怎么获取网页内容

程序员文章站 2022-04-16 12:49:23

...

Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能。

python 怎么获取网页内容

1 Pyhton获取网页的内容(也就是源代码)（推荐学习：Python视频教程）

page = urllib2.urlopen(url)   
contents = page.read()   
#获得了整个网页的内容也就是源代码  
print(contents)

url代表网址，contents代表网址所对应的源代码，urllib2是需要用到的包，以上三句代码就能获得网页的整个源代码

2 获取网页中想要的内容(先要获得网页源代码，再分析网页源代码，找所对应的标签，然后提取出标签中的内容)

以豆瓣电影排名为例子

现在我需要获得当前页面的所有电影的名字，评分，评价人数，链接

#coding:utf-8  
''''' 
@author: jsjxy 
'''  
import urllib2   
import re   
from bs4 import BeautifulSoup  
from distutils.filelist import findall  

page = urllib2.urlopen('http://movie.douban.com/top250?format=text')   
contents = page.read()   
 #print(contents)  
soup = BeautifulSoup(contents,"html.parser")  
print("豆瓣电影TOP250" + "\n" +" 影片名              评分       评价人数     链接 ")    
for tag in soup.find_all('div', class_='info'):    
   # print tag  
    m_name = tag.find('span', class_='title').get_text()        
    m_rating_score = float(tag.find('span',class_='rating_num').get_text())          
    m_people = tag.find('div',class_="star")  
    m_span = m_people.findAll('span')  
    m_peoplecount = m_span[3].contents[0]  
    m_url=tag.find('a').get('href')  
    print( m_name+"        "  +  str(m_rating_score)   + "           " + m_peoplecount + "    " + m_url )

控制台输出,你也可以写入文件中

更多Python相关技术文章，请访问Python教程栏目进行学习！

以上就是python 怎么获取网页内容的详细内容，更多请关注其它相关文章！

python 怎么获取网页内容

哪位高手能用curl或file_get_contents获取这个网页的内容

Python 如何爬取获取需要登录页面的网页信息-简易版

请教怎么抓取用JS分页的网页内容

php 获取远程网页内容的函数_PHP教程

PHP 获取远程网页内容的代码(fopen,curl已测)

Python笔记-使用requests获取网页数据及re中用正则表达式获取指定数据

python获取网页状态码示例

php curl登陆和获取内容类，请各位高手看怎么使用呢

CKeditor里面写内容怎么获取

python使用htmllib分析网页内容的方法