TF-IDF-word2vec-Text-similarity-

TF-IDF+Word2vec做文本相似度计算，最好是长文本

使用说明：

操作环境：ubuntu系统，pycharm，Python2.7（用3的话可能会有一些编码问题）

代码的作用：使用者给出目标文本的txt文件，与众多被对比文本（也是txt文件，自己提供，代码里没有）计算相似度，获得相似度最高的前五个文档并给出相似度

使用步骤：

1.先创建两个文件夹 tmp 和 tmp2 （后续过程中用来分别存储中间文件和word2vec训练的model）

2.预处理：

用preparetxt中的代码处理原始文件（我的原始文件为：每个被对比文档是一个txt文件，utf-8编码），最后获得要求的两个文件。

preparetxt文件夹中有处理文件的工具，因为每个人的原始文件样式不一，提供了每个小步骤的代码：totext.py--将所有txt文件一个转换为一行存在一个大txt文件的文件；qufuhao.py--去空格和符号；fenci.py--分词，代码内也有详细说明。

根据你的原始文件进行按需处理。

最后要得到两个文件：

存放了所有去空格、去符号、已分词的被对比文档的大txt文件--用来训练w2v模型（其实就是把下面那个文件分词了）

存放了所有去空格、去符号的被对比文档的大txt文件--用来获得每个文档的最终向量

获得这两个文件后先后运行

trainw2v.py --用来训练w2v模型

trainembedding.py --用来获得被对比文档的词向量

tfidf.py --用来计算相似度

要修改的输入文件均在最下方，给出文件路径即可运行

Provide feedback

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
preparetxt		preparetxt
README.md		README.md
tfidf.py		tfidf.py
trainembedding.py		trainembedding.py
trainw2v.py		trainw2v.py