Kaldi是一个开源的kaldi语音识别别工具整合了HTK的基本功能,同时也加入了深度神经网络的分类器(DNN)可实现与文本无关的LVCSR系统,基于FST的训练与解码支持多种标准的机器学习训练模型。
Kaldi相关文档可参考官网:
Kaldi内核采用c++语言编写易于修改和扩展。有如下重要特点:
? 广泛的线性代数支持矩阵函数库中包含标准BLAS和LAPACK運算;
? 可扩展性设计,算法采用最通用形式;
kaldi下载好进去查看文件内容。其中./tools,./src和./egs三个目录是比较重要的
./tools目录下全部是Kaldi的依赖库。待安装编译
./src目录下是Kaldi的源代码。待安装编译
./egs存放的是Kaldi提供的一些例程。
(1)安装Kaldi依赖库
Kaldi软件包在编译源码之前需要先在tools文件夹下咹装如下一些依赖库。
4.6不管采用哪种方法安装OpenFst,gcc版本4.6肯定符合要求所以前面环境配置时选择gcc-4.6。
:LDC开发的处理sph格式音频的一款软件将sph格式文件变换为其他格式,如wav等一些例程中会用到。
? sclite:计算识别率非必须,因为Kaldi自带有较简单的代码()
make #等待,漫长的编译过程 注1:電脑有不只一个CPU时假设4个,可以用make–j 4代替make以节省时间注2:重点检查OpenFST和ATLAS两个外部库是否安装成功。
当所有外部依赖库都安装完成开始編译Kaldi源码。
make #等待漫长的编译过程注:如果中途没有退出的话就基本没问题了。安装编译过程中需要全程保持网络畅通编译完成的src文件夾大小约为8G。