访问内置语料库NLTK
程序员文章站
2022-05-18 17:19:16
...
访问内置语料库NLTK
一、先安装NLTK
NLTK需要Python版本3.5、3.6、3.7或3.8
使用Anaconda配置环境,新建环境NLP,下载安装NLTK
二、安装NLTK数据
运行Python解释器并输入以下命令:
>>> import nltk
>>> nltk.download()
应该会打开一个新窗口,显示NLTK下载器。单击文件菜单,然后选择更改下载目录。对于集中安装,请将其设置为C:\nltk_data
(Windows),/usr/local/share/nltk_data
(Mac)或/usr/share/nltk_data
(Unix)。接下来,选择要下载的包或集合。
如果您没有将数据安装到上述中心位置之一,则需要设置NLTK_DATA
环境变量以指定数据的位置。
点击Corpora选择reuters点击Download等下载完成即可。
成功如下图:
三、改错
如果出现下图情况点击红色区域显示远程连接断开NLTK远程主机强迫关闭了一个现有的连接。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-elPPHx6w-1593174580129)(E:\科创中心\自然语言处理\截图\QQ截图20200624180841.jpg)]
进入C:\Users\Daidenghui\AppData\Roaming\nltk_data
目录把里面的文件全部删除。然后重新执行步骤二。
四、访问
输入一下代码:
from nltk.corpus import reuters ## 访问路透社语料库
## 查看语料库中的内容
files = reuters.fileids()
print(files)
## 访问文件里的具体内容
word16097 = reuters.words(['test/16097'])
print(word16097)
## 截取文件内定量单词
word20 = reuters.words(['test/16097'])[:20]
print(word20)
## 输出主题列表
reutersGenres = reuters.categories()
print(reutersGenres)
## 将单词以一行一个句子的方式打印
for w in reuters.words(categories=['bop','cacoa']):
print(w+' ',end='')
if(w is '.'):
print()
输出结果有点多这里就不展示了。
上一篇: GNSS基准站日志样例
推荐阅读
-
详解PHP内置访问资源的超时时间 time_out file_get_contents read_file
-
Mac如何使用内置的钥匙串访问设置强密码
-
Android 客户端通过内置API(HttpClient) 访问 服务器(用Spring MVC 架构) 返回的json数据全过程
-
iOS强大内置功能—引导式访问轻松应对熊孩子来袭
-
详解PHP内置访问资源的超时时间 time_out file_get_contents read_file
-
详解PHP内置访问资源的超时时间 time_out file_get_contents read_file
-
访问内置语料库NLTK
-
NLTK及语料库的安装
-
NLTK(语料库)
-
访问分块语料库