【转】几个open source的html parser的比较 htmlnekohtmlhtmlparser

程序员文章站 2022-05-01 18:10:36

...

转自：http://javashow.blog.163.com/blog/static/12109964200491452690/

几个open source的html parser的比较

最先是看见SourceForge上下载的包，真是有点大的吓人，一个小小的html parser, 居然有5M。下载回来，展开刨去文档等等杂乱的部分，source也还是不小的。用ant build过后，生成两个jar，htmlparser.jar(200k)和htmllexer.jar(56k)。我关心的是对html文件的剖析，所以只关心parser。试了一下，似乎独立的htmlparser.jar就可以了，不需要lib目录里面那些依赖的库。类的结构是比较清晰，划分的比较细致。source目录中有几个sample，都比较简单，很容易看懂。和使用xml parser感觉差不多，也有Event driver的接口，扩充一下也很容易生成DOM Tree，容易上手。

Jericho
一个简单小型的html parser，程序包比较小，500K左右，build出来的jar包40k, 相对于上面的html parser来说是小巧了很多。使用方面，Jericho没有提供类似SAX的接口，也不关注细部结构。对于Jericho核心概念是Segment，一个标记，一段内容，都是Segment，在这个概念层次之上是startTag, endTag等等。看了Jericho自己带的Sample，也都很简单，不过平时用惯了XML一套处理方法的人，会比较不习惯的，我想。源代码的质量一般，没有HTML Parser的好看。

NekoHTML
这是一个基于apache Xerces-j，依赖于Xerces-j的XNI接口。想到Xerces-j那么大的一个东西，就发毛，放弃。

Java HTML Parser
主页除了下载的连接，没有啥更多信息了，看着也比较让人发毛，没有试

TagSoup
主页上的download source链接断了，给作者发了信，很快有了答复，说修好了。编译出来的jar包30K，也算短小精悍。因为核心代码需要用模板生成，所以必须在有perl的环境中才能正常编译。没有文档，没有简单的Sample，看source，有些头晕，感觉更合适做编译原理语法分析和状态机这个部分的演示教材。
BTW: 主页上说，TagSoup的handler接口和SAX的handler非常相近，不过也没有明确的说，就是完全兼容的。

上一篇：在php中运用CKEDITOR在线编辑器

下一篇： Java日期计算之Joda-Time