sgd_NLP

简介

NLP模型、算法实现
  * 涉及概率统计模型和deep learning模型
  * 包含分词、embedding、RNN、Transfomer等（扩充中）
  * 基于python 和 pytroch（autodiff）框架
  * 常用数据整理

实现

1) Segmentation (分词相关)

3.1基于词典的中文分词（概率统计模型）
- max_match_tokenizer-最大匹配分词
- bi_max_match_tokenizer-双向最大匹配分词
- max_porbability_path_tokenizer-基于语言模型的概率最大化分词
3.2 query自动补全
3.3 热词检索（todo 参考blog）

2) Embedding

word2vec
glove
transR、transE (原理类似w2v)

3) RNN

gate control model
- LSTM
- GRU

4) Transformer (attention机制)

transformer
bert（待补充完整训练框架）

5) LLM相关实践（fine tune相关）

blank

6) Data (数据整理)

Ptb
wiki text-2
语义分析数据集合 acl IMDB：简单的二分类
SNLI数据集：standford natural language inference

NLP其他常见应用

在./app相关文件下演示操作流程，不使用本库实现

Part of speech tagging
Bert Fine Tune 流程

TODO

传统任务 Tagging、POS、实体识别、语法语义分析问题
- 利用DL模型改写上述任务
概率统计模型 HMM、CRF、LDA主题模型
- 主要目的：概率图模型的应用，实践MCMC、Gibs采样算法
LLM相关FT

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
apps		apps
docs		docs
python/sgd_nlp		python/sgd_nlp
.gitignore		.gitignore
README.md		README.md
clean.sh		clean.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

sgd_NLP

简介

目录

实现

1) Segmentation (分词相关)

2) Embedding

3) RNN

4) Transformer (attention机制)

5) LLM相关实践（fine tune相关）

6) Data (数据整理)

NLP其他常见应用

TODO

About

Releases

Packages

Languages

ssd227/sgd_nlp

Folders and files

Latest commit

History

Repository files navigation

sgd_NLP

简介

目录

实现

1) Segmentation (分词相关)

2) Embedding

3) RNN

4) Transformer (attention机制)

5) LLM相关实践（fine tune相关）

6) Data (数据整理)

NLP其他常见应用

TODO

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages