使用爬虫对植物定种
程序员文章站
2024-03-18 21:11:52
...
代码
# -*- coding: UTF-8 -*-
import urllib
import urllib2
import re
name = str(raw_input('请输入物种名:'))
values={}
values['id'] = name
data = urllib.urlencode(values)
url = "http://frps.iplant.cn/frps"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
content = response.read()
if "响应时间" in content:
pattern = re.compile('24px.*?b>.*?\. (.*?)<', re.S)
species = re.findall(pattern, content)
species = species[0].replace(' ', ',').replace(',', ',')
pattern = re.compile('16px.*?Arial.*?b>(.*?)<.*?<b>(.*?)</b>', re.S)
name = re.findall(pattern, content)
name = " ".join(name[0])
pattern = re.compile('<div.*?rightcon">(.*?)</div>', re.S)
content = re.findall(pattern, content)
# ?:的意思是不会作为子模式被查找
pattern = re.compile('<span.*?>(.*?(?:门|纲).*?)<', re.S)
# pattern = re.compile('<span.*?>([^<]*)<', re.S)
items = re.findall(pattern, content[0])
pattern = re.compile('<span.*?<a.*?>(.*?)</a', re.S)
items += re.findall(pattern, content[0])
items.append(species+" "+name)
for item in items:
print item
else:
url = "https://zh.wikipedia.org/wiki/"
geturl = url+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
content = response.read()
print content
原始页面
查询效果
上一篇: Golang下mongoDB的自生_id和string的关系
下一篇: 贪吃蛇小游戏~
推荐阅读
-
使用爬虫对植物定种
-
在java中对LIst集合的两种排序方法(即sort的使用方法)
-
对Python使用mfcc的两种方式详解
-
清火的茶叶有哪些,这6种清火茶一定对你有帮助
-
对Python使用mfcc的两种方式详解
-
使用Jmeter对Tomcat进行压测(从jmeter安装到tomcat内存调优、参数调优、tomcat三种运行模式)
-
关于打不开 xxx.github.io的一种解决办法(不一定对所有人有效)
-
python爬虫:使用xpath和find两种方式分别实现使用requests_html库爬取网页中的内容
-
清火的茶叶有哪些,这6种清火茶一定对你有帮助
-
使用Jmeter对Tomcat进行压测(从jmeter安装到tomcat内存调优、参数调优、tomcat三种运行模式)