NLP模型、算法实现
* 涉及概率统计模型和deep learning模型
* 包含分词、embedding、RNN、Transfomer等(扩充中)
* 基于python 和 pytroch(autodiff)框架
* 常用数据整理
./apps 使用样例notebook
./docs 相关文档
./python/sgd_nlp 库文件
./data 语料加载
./embedding emb算法
./rnn
./tokenizer 中文分词
./transformer
- 3.1基于词典的中文分词(概率统计模型)
- max_match_tokenizer-最大匹配分词
- bi_max_match_tokenizer-双向最大匹配分词
- max_porbability_path_tokenizer-基于语言模型的概率最大化分词
- 3.2 query自动补全
- 3.3 热词检索(todo 参考blog)
- word2vec
- glove
- transR、transE (原理类似w2v)
- gate control model
- LSTM
- GRU
- transformer
- bert(待补充完整训练框架)
- blank
- Ptb
- wiki text-2
- 语义分析数据集合 acl IMDB: 简单的二分类
- SNLI数据集 :standford natural language inference
在./app相关文件下演示操作流程,不使用本库实现
- Part of speech tagging
- Bert Fine Tune 流程
- 传统任务 Tagging、POS、实体识别、语法语义分析问题
- 利用DL模型改写上述任务
- 概率统计模型 HMM、CRF、LDA主题模型
- 主要目的:概率图模型的应用,实践MCMC、Gibs采样算法
- LLM相关FT