欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

机器学习之第4部分:比较深度学习方式方法 博客分类: 机器学习

程序员文章站 2024-03-22 10:46:34
...

 

4部分:比较深度学习方式方法
 
你可能会问:为什么词袋模型更好?
最大的原因是,在我们的教程中,平均向量,利用重心失去词语的顺序,使其非常相似的概念袋的话。性能是相似的(标准误差范围内)使所有三种方法几乎等价
 
一些尝试:
首先,训练Word2Vec更多的文本应该极大地提高性能。谷歌的搜索结果都是基于词向量是学习的一个多billion-word语料库;我们的标记和未标记的训练集在一起只有区区1800万字左右。方便,Word2Vec提供函数加载任何pre-trained模型由谷歌的原始输出C工具,所以它也可以训练在C模型,然后将其导入Python
 
第二,出版文献中,分布式词向量技术已被证明比袋字模型。本文的算法叫做段落向量在IMDB上使用数据集产生的一些最先进的成果。在某种程度上,它确实比我们尝试的方法因为向量平均和集群失去词序,而段落向量保存订单信息。