GitHub - ZiyaoGeng/RecLearn at master

Name	Name	Last commit message	Last commit date
Latest commit History 306 Commits
AFM	AFM
AttRec	AttRec
BPR	BPR
Caser	Caser
DCN	DCN
DIN	DIN
DNN	DNN
DeepFM	DeepFM
Deep_Crossing	Deep_Crossing
FFM	FFM
FM	FM
MF	MF
NCF	NCF
NFM	NFM
PNN	PNN
SASRec	SASRec
STAMP	STAMP
WDL	WDL
data_process	data_process
xDeepFM	xDeepFM
LICENSE	LICENSE
README.md	README.md

Recommender System with TF2.0---v0.0.3

开源项目Recommender System with TF2.0主要是对经典的推荐算法论文进行复现，包括Matching（召回）（MF、BPR、SASRec等）、Ranking（排序）（DeepFM、DCN等）。

建立原因：

理论和实践似乎有很大的间隔，学术界与工业界的差距更是如此；
更好的理解论文的核心内容，增强自己的工程能力；
很多论文给出的开源代码都是TF1.x，因此想要用更简单的TF2.x进行复现；

项目特点：

使用Tensorflow2.x进行复现；
每个模型都是相互独立的，不存在依赖关系；
模型基本按照论文进行构建，实验尽量使用论文给出的的公共数据集；
模型都附有README.md，对于模型的训练使用有详细的介绍；
代码源文件参数、函数命名规范，并且带有标准的注释；

重要更新

【2021.11.17】该项目建立了新的分支reclearn，主要是对master内容进行了整理，构建了一个用于推荐算法学习的包，可以通过pip install reclearn进行安装，具体可以查看reclearn；
【2021.11.17】该项目建立了新的分支reclearn，主要是对master内容进行了整理，构建了一个用于推荐算法学习的包，可以通过pip install reclearn进行安装，具体可以查看reclearn；
【2021.05.19】Wide&Deep模型，之前Wide部分采用连续型数据，更改为采用稀疏离散型数据作为输入；
【2021.05.18】更新内容较多，分为以下：
- 创建data_process文件，将CTR模型中的utils.py移动到该文件夹下，并改名为criteo.py，以后所有模型训练时统一调用该文件夹下处理后的数据；
- Criteo数据处理方式改变，对于密集型数据（I1-I13）采用离散化分桶，与离散型数据合并；
- 逐步修正每个模型采用离散型输入；
- DeepFM模型之前构建模型有误，Wide部分与Deep部分应该共享Embedding；
- FM、DeepFM模型构建一阶特征时取消占内存的tf.ont_hot，改用tf.nn.embedding_lookup，通过映射方式实现；
- 逐步为CTR模型增加使用全量Criteo数据集的结果；
【2020.12.20】在Top-K模型中，评估方式为正负样本1:100的模型（MF-BPR、SASRec等），之前评估代码效率太低，因此进行了调整（目前评估时间大幅度缩短），同时也更新了utils.py文件；
【2020.11.18】在Top-K模型中，不再考虑dense_inputs、sparse_inputs，并且user_inputs和seq_inputs不考虑多个类别，只将id特征作为输入（降低了模型的可扩展性，但是提高了模型的可读性）；
【2020.11.18】BPR、SASRec模型进行了更新，加入了实验结果；

复现论文列表

1. 召回模型（Top-K推荐）

Paper\|Model	Published	Author
Matrix Factorization Techniques for Recommender Systems\|MF	IEEE Computer Society,2009	Koren\|Yahoo Research
BPR: Bayesian Personalized Ranking from Implicit Feedback\|MF-BPR	UAI, 2009	Steﬀen Rendle
Neural network-based Collaborative Filtering\|NCF	WWW, 2017	Xiangnan He
Self-Attentive Sequential Recommendation｜SASRec	ICDM, 2018	UCSD
STAMP: Short-Term Attention/Memory Priority Model for Session-based Recommendation\| STAMP	KDD, 2018	Qiao Liu
Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding｜Caser	WSDM, 2018	Jiaxi Tang
Next Item Recommendation with Self-Attentive Metric Learning\|AttRec	AAAAI, 2019	Shuai Zhang

2. 排序模型（CTR预估）

Paper｜Model	Published	Author
Factorization Machines\|FM	ICDM, 2010	Steffen Rendle
Field-aware Factorization Machines for CTR Prediction｜FFM	RecSys, 2016	Criteo Research
Wide & Deep Learning for Recommender Systems｜WDL	DLRS, 2016	Google Inc.
Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features\|Deep Crossing	KDD, 2016	Microsoft Research
Product-based Neural Networks for User Response Prediction\|PNN	ICDM, 2016	Shanghai Jiao Tong University
Deep & Cross Network for Ad Click Predictions｜DCN	ADKDD, 2017	Stanford University｜Google Inc.
Neural Factorization Machines for Sparse Predictive Analytics\|NFM	SIGIR, 2017	Xiangnan He
Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks\|AFM	IJCAI, 2017	Zhejiang University\|National University of Singapore
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction\|DeepFM	IJCAI, 2017	Harbin Institute of Technology\|Noah’s Ark Research Lab, Huawei
xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems\|xDeepFM	KDD, 2018	University of Science and Technology of China
Deep Interest Network for Click-Through Rate Prediction\|DIN	KDD, 2018	Alibaba Group

数据集

一些公开数据集链接失效，总是有同学找我要，但是由于数据集过大，无法上传。因此我提供以下链接方便下载：

Criteo：vufh；
Amazon_Electronic：96f2；
Diginetica：p2hn；

致谢

项目中难免会存在一些代码Bug，感谢以下朋友指出问题：

wangzhe258369：指出在DIN模型中tf.keras.layers.BatchNormalization默认行为是training=False，此时不会去更新BN中的moving_mean和moving_variance变量。但是重新修改了DIN模型代码内容时，再仔细查找了资料，发现：

如果使用模型调用fit()的话，是可以不给的（官方推荐是不给），因为在fit()的时候，模型会自己根据相应的阶段（是train阶段还是inference阶段）决定training值，这是由learning——phase机制实现的。
boluochuile：发现SASRec模型训练出错，原因是验证集必须使用tuple的方式，已更正；
dominic-z：指出DIN中Attention的mask问题，更改为从seq_inputs中得到mask，因为采用的是0填充（这里与重写之前的代码不同，之前是在每个mini-batch中选择最大的长度作为序列长度，不会存在序列过长被切割的问题，而现在为了方便，采用最普遍padding的方法）
dominic-z：指出DIN训练中seq_inputsshape与model不匹配的问题，已更正，应该是(batch_size, maxlen, behavior_num)，model相关内容进行更改，另外对于行为数量，之前的名称seq_len有歧义，改为behavior_num；添加了重写之前的代码，在DIN/old目录下

zhangfangkai、R7788380：指出在使用movielens的utils.py文件中，trans_score并不能指定正负样本，应将

data_df.loc[data_df.label < trans_score, 'label'] = 0
data_df.loc[data_df.label >= trans_score, 'label'] = 1

更改为：

data_df = data_df[data_df.label >= trans_score]

联系方式

1、对于项目有任何建议或问题，可以在Issue留言，或者发邮件至[email protected]。

2、作者有一个自己的公众号：潜心学习的潜心，如果喜欢里面的内容，不妨点个关注。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Recommender System with TF2.0---v0.0.3

重要更新

复现论文列表

1. 召回模型（Top-K推荐）

2. 排序模型（CTR预估）

数据集

致谢

联系方式

About

Releases

Packages

Languages

License

ZiyaoGeng/RecLearn

Folders and files

Latest commit

History

Repository files navigation

Recommender System with TF2.0---v0.0.3

重要更新

复现论文列表

1. 召回模型（Top-K推荐）

2. 排序模型（CTR预估）

数据集

致谢

联系方式

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages