FACEBOOK开源第一个全卷积语音识别工具包wav2letter++

发布时间: 2018年10月16日

全卷积语音识别工具包wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。并称它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。

所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。

屏幕快照 2019-01-03 下午11.26.10.png

有关其详细内容可以查看论文资料:

https://arxiv.org/abs/1812.07625

其github:

github.com/facebookresearch/wav2letter

该软件的研究目的是为了方便研究语音识别端到端模型。

其论文pdf下载地址:

https://arxiv.org/pdf/1812.07625.pdf

wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。

想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。

如果你对语言识别感兴趣的话可以一试。