#本地语音识别模型# 无需联网，直接在本地... 来自量子位

//img.t.sinajs.cn/t6/skin/skin048/skin.css?version=d038b8dc

+关注

量子位

24-10-28 12:28 来自微博网页版已编辑

#本地语音识别模型#

无需联网，直接在本地运行的开源语音识别模型：Moonshine，上线不到一周就在 GitHub 上揽获 1.4k Star！

受到用户如此的追捧，得益于其三个特点——更小、更快、更准。

更小：Moonshine 可以部署在本地设备，甚至是可穿戴设备上，实现断网运行。

更快：在处理小于10秒的音频时，Moonshine的速度是 Whisper 的5倍。

更准：在 OpenASR 数据集上，Moonshine 的平均词错误率比 Whisper 更低。【图1】

以上优势源于其计算需求与输入音频的长度成比例，因此更适合处理对话、会议、演讲等现场场景。

具体来说，Moonshine 基于以下技术：

- 编码器-解码器架构：采用基于 Transformer 的模型结构，编码器负责处理输入语音信号，解码器生成相应文本输出。
- 旋转位置嵌入（RoPE）：相比传统的绝对位置嵌入，RoPE 可以更好地捕捉序列元素的相对位置，有助于增强模型对时间序列的理解。
- 可变长度处理：Moonshine 的编码器支持处理不同长度的语音片段，无需零填充，显著降低不必要的计算，提高了处理效率。
- 大规模训练：模型在大量公开 ASR 数据集以及内部数据上训练，并使用先进的数据增强和预处理技术，使模型具备更强的泛化能力。

感兴趣的小伙伴可以点击：O网页链接
论文：O网页链接