欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

访问内置语料库NLTK

程序员文章站 2022-05-18 17:19:16
...

访问内置语料库NLTK

一、先安装NLTK

NLTK需要Python版本3.5、3.6、3.7或3.8

使用Anaconda配置环境,新建环境NLP,下载安装NLTK

二、安装NLTK数据

运行Python解释器并输入以下命令:

>>> import nltk
>>> nltk.download()

应该会打开一个新窗口,显示NLTK下载器。单击文件菜单,然后选择更改下载目录。对于集中安装,请将其设置为C:\nltk_data(Windows),/usr/local/share/nltk_data(Mac)或/usr/share/nltk_data(Unix)。接下来,选择要下载的包或集合。

如果您没有将数据安装到上述中心位置之一,则需要设置NLTK_DATA环境变量以指定数据的位置。

点击Corpora选择reuters点击Download等下载完成即可。
成功如下图:
访问内置语料库NLTK

三、改错

访问内置语料库NLTK

如果出现下图情况点击红色区域显示远程连接断开NLTK远程主机强迫关闭了一个现有的连接。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-elPPHx6w-1593174580129)(E:\科创中心\自然语言处理\截图\QQ截图20200624180841.jpg)]

进入C:\Users\Daidenghui\AppData\Roaming\nltk_data目录把里面的文件全部删除。然后重新执行步骤二。

四、访问

输入一下代码:

from nltk.corpus import reuters  ## 访问路透社语料库

## 查看语料库中的内容
files = reuters.fileids()
print(files)

## 访问文件里的具体内容
word16097 = reuters.words(['test/16097'])
print(word16097)

## 截取文件内定量单词
word20 = reuters.words(['test/16097'])[:20]
print(word20)

## 输出主题列表
reutersGenres = reuters.categories()
print(reutersGenres)

## 将单词以一行一个句子的方式打印
for w in reuters.words(categories=['bop','cacoa']):
    print(w+' ',end='')
    if(w is '.'):
        print()

输出结果有点多这里就不展示了。