网页抓取时,页面包含的url的处理 javaurl
程序员文章站
2023-12-29 23:41:52
...
页面上的url形式多样,建议采用java.net.URL 进行处理:
for (Element link : links) { //System.out.println(); String sLink = link.attr("href").trim(); //logger.info("sLink: "+sLink); if(sLink==null || sLink.trim().equals("")) continue; try { URL linkUrl = new URL(urlEntry,sLink); // 链接的主机头和 Entry 的主机头互相不包含,说明不是在同一个网站里面,丢弃。 if(urlEntry.getHost().indexOf(linkUrl.getHost())==-1 && linkUrl.getHost().indexOf(urlEntry.getHost())==-1) continue; sLink = linkUrl + ""; // do something here } catch (MalformedURLException e) { continue; } }