
上QQ阅读APP看书,第一时间看更新
1.1 总体结构
语音识别可以看成是广义上的标注问题。给定声学输出A1,T(由一个声学事件的序列组成a1,…,aT),需要找到单词序列W1,R的最大化概率:
argmωaxP( W1,R|A1,T )
根据贝叶斯公式重写上述公式,并删除在通过比较大小找最大值的过程中没有意义的分母,把问题转换成计算:
argmωaxP( A1,T|W1,R)P( W1,R )
这里将P(A1,T | W1,R)称为声学模型,而将P(W1,R)称为语言模型。语言识别结构如图1-1所示。

图1-1 语音识别结构
人类获得信息的80%都来自图像。图像信息具有传递速度快、信息量大等一系列特点,因此图像信息得到了广泛的应用。但语音识别在车载系统、智能音响等领域也有非常关键的应用。
为了能开发出有效的语音识别系统,2009年Kaldi在约翰·霍普金斯大学诞生了。Kaldi不是一款语音识别系统,而是一款建立语音识别系统的系统。Kaldi使用运行于Linux操作系统的C++、Perl、Python、Bash等多种语言开发。接下来介绍需要用到的Linux基础知识。