python 自动提交和抓取网页

程序员文章站 2023-04-07 18:26:48

下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。复制代码代码如下: import urllib...

下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。

 
import urllib 
import urllib2 
import urlparse 
import lxml.html 
def url_with_query(url, values): 
parts = urlparse.urlparse(url) 
rest, (query, frag) = parts[:-2], parts[-2:] 
return urlparse.urlunparse(rest + (urllib.urlencode(values), none)) 
def make_open_http(): 
opener = urllib2.build_opener(urllib2.httpcookieprocessor()) 
opener.addheaders = [] # pretend we're a human -- don't do this 
def open_http(method, url, values={}): 
if method == "post": 
return opener.open(url, urllib.urlencode(values)) 
else: 
return opener.open(url_with_query(url, values)) 
return open_http 
open_http = make_open_http() 
tree = lxml.html.fromstring(open_http("get", "//www.jb51.net").read()) 
form = tree.forms[0] 
form.fields["q"] = "eplussoft" 
form.action="//www.jb51.net/search" 
response = lxml.html.submit_form(form,open_http=open_http) 
html = response.read() 
doc = lxml.html.fromstring(html) 
lxml.html.open_in_browser(doc) 

恩，验证码是个大问题。还有今天看了一些百度贴吧上的东西，更是坏了心情，它的验证码是用ajax取的图片，这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了，更不要说分析验证码图片了。要解决的问题还是很多的。。。

上一篇： vue（6）—— vue中向后端异步请求

下一篇：基于PHP服务端图片生成缩略图的方法详解

python 自动提交和抓取网页

Python使用lxml模块和Requests模块抓取HTML页面的教程

python3抓取中文网页的方法

使用Python3编写抓取网页和只抓网页图片的脚本

python打开网页和暂停实例

python3抓取中文网页的方法

Python实现周期性抓取网页内容的方法

selenium+python自动化测试之鼠标和键盘事件

Appium+python自动化怎么查看程序所占端口号和IP

python实现网页自动签到功能

python采用requests库模拟登录和抓取数据的简单示例