html解析页面中的A标签

程序员文章站 2022-06-08 09:01:09

...

在heritrix中的自定义继承Extractor的类中，参考那本《开发自己的搜索引擎里》书里的代码，不能很好的解析出页面中的A标签中的url，就用htmlparser来解析出A标签里的url，果然好用。代码如下

private  void filterURL(String source,CrawlURI curi)
	{
		try {
			Parser parser = new Parser(source);
			NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
			NodeList linkList = parser.extractAllNodesThatMatch(linkFilter);
			String url = null;
			for( int i=0; i<linkList.size(); i++)
			{
				LinkTag node = (LinkTag) linkList.elementAt(i);
				url = node.extractLink();
				if(url.matches(PATTERN_STOCK_NEW)) //匹配规则
				{
					//System.out.println(url);
					//若是，则将链接添加到队列中，以备后续处理
					addLinkFromString(curi,url,"",Link.NAVLINK_HOP);
				}
				//System.out.println(url);
			}
		} catch (ParserException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
	}

上一篇： php调用自各儿的java(转)

下一篇： HTML5声音录制/播放功能的实现代码

html解析页面中的A标签

PHP中redis的用法深入解析

详解.vue文件中style标签的几个标识符

微信小程序使用wxParse解析html的方法教程

vue.js在标签属性中插入变量参数的方法

详解Django项目中模板标签及模板的继承与引用(网站中快速布置广告)

在vue中,v-for的索引index在html中的使用方法

python中enumerate的用法实例解析

jquery删除指定的html标签并保留标签内文本内容的方法

php在页面中调用fckeditor编辑器的方法

解析PHP中DIRECTORY_SEPARATOR,PATH_SEPARATOR两个常量的作用