Skip to content

中英文语料数据清洗及分布式分句分词预处理工作

Notifications You must be signed in to change notification settings

BarryZM/dataProcessor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

dataProcessor对大数据集(5G以上)进行分句操作

代码包括如下:

如何文件夹及子文件夹下的数据

中英文里可能出现的所有特殊字符

匹配各类网址及网页标签

匹配希腊字母汉语拼音及繁体字等

利用PyLTP模块进行分句

去掉文本空行函数

计时装饰器以及代码进度条

欢迎star和fork

About

中英文语料数据清洗及分布式分句分词预处理工作

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published