Skip to content

zhjphp/simhash

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

simhash

c++ simhash 排重算法库

我仅在linux下测试

参考

http:https://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html

大牛的文章,由于其仓库的simhash使用的库不更新了,所有自己按照作者思想写了一个,使用submodule随时更新最新版本

不同的hash算法和关键词提取密度会对结果产生很大的影响

项目里集成了smhasher,可以随时切换hash算法

请使用者自行选择合适的hash算法和设置关键词密度

我测试的最适中的hash算法是cityhash

使用方法:

git clone xxx

git submodule init

git submodule update

cd xxx

mkdir build

cd build

cmake ..

make -j4

cd bin

./simhash

About

c++ simhash 排重算法库

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages