欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

网页抓取时,页面包含的url的处理 javaurl 

程序员文章站 2023-12-29 23:41:52
...
页面上的url形式多样,建议采用java.net.URL 进行处理:
for (Element link : links) {
				//System.out.println();

				String sLink = link.attr("href").trim();
				//logger.info("sLink: "+sLink);
				if(sLink==null || sLink.trim().equals("")) continue;
				
				try {
					URL linkUrl = new URL(urlEntry,sLink);
					// 链接的主机头和 Entry 的主机头互相不包含,说明不是在同一个网站里面,丢弃。
					if(urlEntry.getHost().indexOf(linkUrl.getHost())==-1
							&& linkUrl.getHost().indexOf(urlEntry.getHost())==-1) continue;
					sLink = linkUrl + "";

                                        // do something here
				} catch (MalformedURLException e) {
					continue;
				}
}

相关标签: java url

上一篇:

下一篇: