Skip to content

dgk_lost_conv 中文对白语料 chinese conversation corpus

Notifications You must be signed in to change notification settings

TTlaozu/dgk_lost_conv

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

========dgk_lost_conv========

chinese conversation corpus

可以用作聊天机器人的训练语料

结果:

dgk_shooter_z.conv 110MB 已分词

dgk_shooter_min.conv 按字分词

lost.conv 1.7MB

fanzxl.conv 2.3MB

fk24.conv 4.5MB

haosys.conv 1.3MB

juemds.conv 793KB

laoyj.conv 1.5MB

prisonb.conv 543KB

内部方法:

asstosrt -s utf-8

ass ----asstosrt---->srt

srt ----cvgen.py---->.conv

特别的shooter73g:

进入shooterwp,

解压缩mirror.x到rawbase下面

执行sel.sh

在跟目录下

fixcodec修正编码

fixtranc繁简处理

genall

.conv 格式:

//M 表示话语,E 表示分割。

E

M 话语 a

M 话语 b

M 话语 c

M 话语 d

E

M 话语 a

M 话语 b

M 话语 c

M 话语 d

License:

MIT

QQ-1

QQ-2

About

dgk_lost_conv 中文对白语料 chinese conversation corpus

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages

  • SRecode Template 99.4%
  • Other 0.6%