1.1 总体结构_深度学习：语音识别技术实践-QQ阅读女频仙侠网

上QQ阅读APP看书，第一时间看更新

1.1 总体结构

语音识别可以看成是广义上的标注问题。给定声学输出A1,T（由一个声学事件的序列组成a1,…,aT），需要找到单词序列W1,R的最大化概率：

argmωaxP( W1,R|A1,T )

根据贝叶斯公式重写上述公式，并删除在通过比较大小找最大值的过程中没有意义的分母，把问题转换成计算：

argmωaxP( A1,T|W1,R)P( W1,R )

这里将P(A1,T | W1,R)称为声学模型，而将P(W1,R)称为语言模型。语言识别结构如图1-1所示。

图1-1 语音识别结构

人类获得信息的80%都来自图像。图像信息具有传递速度快、信息量大等一系列特点，因此图像信息得到了广泛的应用。但语音识别在车载系统、智能音响等领域也有非常关键的应用。

为了能开发出有效的语音识别系统，2009年Kaldi在约翰·霍普金斯大学诞生了。Kaldi不是一款语音识别系统，而是一款建立语音识别系统的系统。Kaldi使用运行于Linux操作系统的C++、Perl、Python、Bash等多种语言开发。接下来介绍需要用到的Linux基础知识。