Skip to content

这个项目是数据预处理。第一步是对获取到的音频做处理,结合Funasr的时间戳去掉空背景音。也包含了喂给BERT前的label

Notifications You must be signed in to change notification settings

MrXnneHang/auto_labeling_for_BERT_VITS2

Repository files navigation

ADLV2更新介绍:

跟随funasr的更新,我们引入了新的模型,因为新的模型是分开训练的,原本一个模型既有标点恢复,也有活动检测,现在分开后可以自主组合。比如决定只使用活动检测,直接得到句子的起始点和终止点,没有以前那么复杂的response。

你可以在config.yml中添加自己想要使用的模型,在./utils/generate_models中自定义模型组合。

顺便简化了以前的实现逻辑,以前的代码,wtf。

相对旧版python环境的改变:

pip install -U funasr

2024/6/23:

1.对单人音频的使用环境进行了迭代迁移:

使用模型为支持自定义热词的中文语音识别模型,英文不行。(后续会考虑加入多语可选项,但因为目前热词自定义只支持中文。)

热词的自定义可以减少很多全局替换和手动精修的时间。

2.对手动精修清洗数据集webui进行了迁移.

3.合并了多个一键运行到rundesk.bat.


使用介绍:

ADL使用介绍

如果进不去,可能是我家断网了,或者我在折腾SSL证书。

后续:

1.添加对日语和英语的模型兼容选项

2.采用funasr提供的spk模型进行多人语音识别:

之前一直懒得更新,因为3D_speaker的实用性受限,仅仅改代码是不能提高识别准确度的,同性别之间的语音说话人检测准确率堪忧。而在24年上半年funasr的模型迎来了一次迭代,也单独提供了训练好的可以自由调用的spk模型,等我测试一下准确度。如果达到可用,则会考虑持续更新。

About

这个项目是数据预处理。第一步是对获取到的音频做处理,结合Funasr的时间戳去掉空背景音。也包含了喂给BERT前的label

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published