访问分块语料库
程序员文章站
2022-05-18 17:14:32
...
我们可以使用NLTK的corpus模块访问较大量的已分块文本。CoNLL2000分块语料库包含27万词的《华尔街日报文本》,分为“训练”和“测试”两部分,标注有词性标记和IOB格式分块标记。我们可以使用nltk.corpus.conll2000访问这些数据。下面是一个读取语料库的“训练”部分的100个句子的例子:
from nltk.corpus import conll2000
conll2000.chunked_sents('train.txt')[99]
CoNLL2000分块语料库包含三种块类型:NP块,VP块,PP块。
因为现在我们唯一感兴趣的是NP块,我们可以使用chunk_types参数选择它们:
conll2000.chunked_sents('train.txt',chunk_types=['NP'])[99]
上一篇: Python3:numpy模块中的argsort()函数
下一篇: 安装nltk语料库