欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

java分词工具hanlp介绍

程序员文章站 2022-05-31 21:02:11
...

 

前几天(6月28日),在第23届中国国际软件博览会上,hanlp这款自然语言处理工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”。


java分词工具hanlp介绍
            
    
    博客分类: 人工智能,机器学习  
 

HanLP是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、句法分析、文本分析和情感分析等功能,是GitHub最受欢迎、用户量最大(超过13000个star)、社区活跃度最高的自然语言处理技术。

HanLP完全开源,包括词典。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础件都是开源的。官方模型训练自2014人民日报语料库,您也可以使用内置的工具训练自己的模型。

通过工具类HanLP您可以一句话调用所有功能,文档详细,开箱即用。底层算法经过精心优化,极速分词模式下可达2,000万字/秒,内存仅需120MB。在IO方面,词典加载速度极快,只需500 ms即可快速启动。HanLP经过多次重构,目前已经更新到了1.7版本,新增并完善了中文分词、命名实体识别、信息抽取、文本分类、文本聚类、画法分析等功能,使用效率和适用性得到了大幅提升。


java分词工具hanlp介绍
            
    
    博客分类: 人工智能,机器学习  
 

 
java分词工具hanlp介绍
            
    
    博客分类: 人工智能,机器学习  
 

 
java分词工具hanlp介绍
            
    
    博客分类: 人工智能,机器学习  
 

  • java分词工具hanlp介绍
            
    
    博客分类: 人工智能,机器学习  
  • 大小: 473.7 KB
  • java分词工具hanlp介绍
            
    
    博客分类: 人工智能,机器学习  
  • 大小: 92.1 KB
  • java分词工具hanlp介绍
            
    
    博客分类: 人工智能,机器学习  
  • 大小: 74.8 KB
  • java分词工具hanlp介绍
            
    
    博客分类: 人工智能,机器学习  
  • 大小: 59.1 KB