访问内置语料库NLTK

程序员文章站 2022-05-18 17:19:16

...

访问内置语料库NLTK

一、先安装NLTK

NLTK需要Python版本3.5、3.6、3.7或3.8

使用Anaconda配置环境，新建环境NLP，下载安装NLTK

二、安装NLTK数据

运行Python解释器并输入以下命令：

>>> import nltk
>>> nltk.download()

应该会打开一个新窗口，显示NLTK下载器。单击文件菜单，然后选择更改下载目录。对于集中安装，请将其设置为C:\nltk_data（Windows），/usr/local/share/nltk_data（Mac）或/usr/share/nltk_data（Unix）。接下来，选择要下载的包或集合。

如果您没有将数据安装到上述中心位置之一，则需要设置NLTK_DATA环境变量以指定数据的位置。

点击Corpora选择reuters点击Download等下载完成即可。
成功如下图：
访问内置语料库NLTK

三、改错

如果出现下图情况点击红色区域显示远程连接断开NLTK远程主机强迫关闭了一个现有的连接。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-elPPHx6w-1593174580129)(E:\科创中心\自然语言处理\截图\QQ截图20200624180841.jpg)]

进入C:\Users\Daidenghui\AppData\Roaming\nltk_data目录把里面的文件全部删除。然后重新执行步骤二。

四、访问

输入一下代码：

from nltk.corpus import reuters  ## 访问路透社语料库

## 查看语料库中的内容
files = reuters.fileids()
print(files)

## 访问文件里的具体内容
word16097 = reuters.words(['test/16097'])
print(word16097)

## 截取文件内定量单词
word20 = reuters.words(['test/16097'])[:20]
print(word20)

## 输出主题列表
reutersGenres = reuters.categories()
print(reutersGenres)

## 将单词以一行一个句子的方式打印
for w in reuters.words(categories=['bop','cacoa']):
    print(w+' ',end='')
    if(w is '.'):
        print()

输出结果有点多这里就不展示了。

相关标签：自然语言处理自然语言处理 python

上一篇： GNSS基准站日志样例

下一篇：干货来了！研究了 538套HTML5模板，我悟到了这种套路！

访问内置语料库NLTK

访问内置语料库NLTK

一、先安装NLTK

二、安装NLTK数据

三、改错

四、访问

详解PHP内置访问资源的超时时间 time_out file_get_contents read_file

Mac如何使用内置的钥匙串访问设置强密码

Android 客户端通过内置API（HttpClient) 访问服务器(用Spring MVC 架构) 返回的json数据全过程

iOS强大内置功能—引导式访问轻松应对熊孩子来袭

详解PHP内置访问资源的超时时间 time_out file_get_contents read_file

详解PHP内置访问资源的超时时间 time_out file_get_contents read_file