欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  php教程

PHP中TF-IDF与余弦相似性计算文章相似性

程序员文章站 2022-05-19 23:14:18
...
首先使用TF-IDF算法提取两篇文章的关键词,并合并成一个集合,如关键词较多可使用堆取TOPK关键词。然后计算每篇文章对于这个集合中的词的词频,即单词数/总词数,然后生成各自词频向量。