访问分块语料库

程序员文章站 2022-05-18 17:14:32

...

我们可以使用NLTK的corpus模块访问较大量的已分块文本。CoNLL2000分块语料库包含27万词的《华尔街日报文本》，分为“训练”和“测试”两部分，标注有词性标记和IOB格式分块标记。我们可以使用nltk.corpus.conll2000访问这些数据。下面是一个读取语料库的“训练”部分的100个句子的例子：

from nltk.corpus import conll2000
conll2000.chunked_sents('train.txt')[99]

访问分块语料库
CoNLL2000分块语料库包含三种块类型：NP块，VP块，PP块。
因为现在我们唯一感兴趣的是NP块，我们可以使用chunk_types参数选择它们：

conll2000.chunked_sents('train.txt',chunk_types=['NP'])[99]

访问分块语料库

上一篇： Python3：numpy模块中的argsort()函数

下一篇：安装nltk语料库

访问分块语料库

Python的Tornado框架实现异步非阻塞访问数据库的示例

Python3访问并下载网页内容的方法

在ASP.NET 2.0中操作数据之一：创建一个数据访问层

C#如何访问共享文件夹或者磁盘

C#引用访问权限分析

深入同步访问共享的可变数据分析

加快JDBC设计中JSP访问数据库

php后台经常提示无法连接mysql 刷新后又可以访问的解决方法

建立JSP操作以提高数据库访问的效率

MySQL 不允许从远程访问的解决方法