欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

【tensorflow:实战Google深度学习框架】-Chapter9 对于TED(en-zh)数据集切词

程序员文章站 2022-07-14 20:56:27
...

我把GitHub的源文件放在了我的码云中,使用码云下载速度特别快
GitHub:https://github.com/ChaoflyLi/TensorflowGoogle
码云(Gitee):https://gitee.com/fraternalkevin/TensorflowGoogle/tree/master
Gitee和GitHub的代码都是同步的
参考博客:
https://blog.csdn.net/qq_33431368/article/details/85782869
https://blog.csdn.net/lzbmc/article/details/88862843

一、下载数据集

下载地址:https://wit3.fbk.eu/mt.php?release=2015-01
点击红色的框框,即可开始下载
下载en-zh.tgz文件,并解压。
【tensorflow:实战Google深度学习框架】-Chapter9 对于TED(en-zh)数据集切词
数据集中这里面的两个文件 train.tags.en-zh.en, train.tags.en-zh.zh
需要自行将里面的没有用的部分删掉因为带有一些tags,把文件里面的类似于url,keywords,speaker, talkid, title,description的这种结构的全部删掉。
【tensorflow:实战Google深度学习框架】-Chapter9 对于TED(en-zh)数据集切词
类似于这种情况的全部删掉,有些在前面,有些在后面,有些在文章中间。
这些东西应该是类似于每个talk的简介那种性质,我查了一下一个差不多有3000多个,难受了,大家还是不要在这个上面浪费时间了,直接用我的弄好的得了,在下面的github的repo里。

英文切词

使用perl和mosesdecoder进行切词。
mosesdecoder的GitHub下载链接:
https://github.com/moses-smt/mosesdecoder
mosesdecoder的码云下载链接:https://gitee.com/fraternalkevin/mosesdecoder.git

  • 把需要分词的文件放到“mosesdecoder\scripts\tokenizer”文件夹中
  • 执行:perl ./tokenizer.perl -no-escape -1 en < ./train.raw.en > train.txt.en就可以在当前文件夹下生成已经分词之后的文件‘train.txt.en’

中文切词

在Linux下直接输入这条命令:
我的当前目录中由train.raw.zh的文件
注意:(我在这个坑里呆了好久)
命令中有的地方时2个空格,有的是1个空格

sed 's/  //g; s/\B/  /g' train.raw.zh > train.txt.zh

处理好以及没有处理的文件:
链接:https://pan.baidu.com/s/1wwwz9pPSo3YyT96DALVDzw
提取码:scfd
复制这段内容后打开百度网盘手机App,操作更方便哦