Skip to content

gospel303/TF-IDF-word2vec-Text-similarity-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TF-IDF-word2vec-Text-similarity-

TF-IDF+Word2vec做文本相似度计算,最好是长文本

使用说明:

操作环境:ubuntu系统,pycharm,Python2.7(用3的话可能会有一些编码问题)

代码的作用:使用者给出目标文本的txt文件,与众多被对比文本(也是txt文件,自己提供,代码里没有)计算相似度,获得相似度最高的前五个文档并给出相似度

使用步骤:

1.先创建两个文件夹 tmp 和 tmp2 (后续过程中用来分别存储中间文件和word2vec训练的model)

2.预处理:

用preparetxt中的代码处理原始文件(我的原始文件为:每个被对比文档是一个txt文件,utf-8编码),最后获得要求的两个文件。

preparetxt文件夹中有处理文件的工具,因为每个人的原始文件样式不一,提供了每个小步骤的代码:totext.py--将所有txt文件一个转换为一行存在一个大txt文件的文件;qufuhao.py--去空格和符号;fenci.py--分词,代码内也有详细说明。

根据你的原始文件进行按需处理。

最后要得到两个文件:

存放了所有去空格、去符号、已分词的被对比文档的大txt文件--用来训练w2v模型(其实就是把下面那个文件分词了)

存放了所有去空格、去符号的被对比文档的大txt文件--用来获得每个文档的最终向量

获得这两个文件后先后运行

trainw2v.py --用来训练w2v模型

trainembedding.py --用来获得被对比文档的词向量

tfidf.py --用来计算相似度

要修改的输入文件均在最下方,给出文件路径即可运行

About

TF-IDF+Word2vec做文本相似度计算,最好是长文本

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages