dataProcessor对大数据集(5G以上)进行分句操作 代码包括如下: 如何文件夹及子文件夹下的数据 中英文里可能出现的所有特殊字符 匹配各类网址及网页标签 匹配希腊字母汉语拼音及繁体字等 利用PyLTP模块进行分句 去掉文本空行函数 计时装饰器以及代码进度条 欢迎star和fork