一种音频识别方法和装置、以及声学模型训练方法和装置制造方法及图纸

技术编号：24891300 阅读：33 留言：0更新日期：2020-07-14 18:17

本申请提供了一种音频识别方法和装置、以及声学模型训练方法和装置，涉及音频处理技术领域；其中，上述音频识别方法包括：获取用户输入的待识别音频数据；提取所述待识别音频数据中的音频特征；将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。本申请中，在音频识别过程中使用的声学模型是以音节信息作为建模单元训练得到的，该声学模型的资源空间占用量小，能够节省移动终端的资源空间，加速移动终端的音频识别速度，实现了在移动终端上的快速语音识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频识别方法和装置、以及声学模型训练方法和装置
本申请涉及音频处理
，具体而言，涉及一种音频识别方法和装置、以及声学模型训练方法和装置。
技术介绍
随着互联网的发展，语音识别技术的应用也越来越广泛。语音识别技术，也被称为自动语音识别(AutomaticSpeechRecognition，ASR)，其目标是将语音中的词汇内容转换为计算机可读的输入。例如，在共享出行领域，可以对行程中的录音进行识别，确认打车过程中是否出现了安全事故。目前，语音识别过程多数是在云端上实现的，将语音识别过程转移至移动终端进行，可以大幅度减少云端中服务器的数量。其中，在云端上进行语音识别所使用的声学模型都是基于cd-phone的三音素的建模方式得到的，而该建模方式中节点数量庞大，整个模型被压缩后占用的资源空间也很大。由于移动终端的资源空间有限，基于上述方式得到的声学模型在移动终端上进行语音识别时会严重影响移动终端的计算速度。因此，亟需一种资源空间占用量较小的语音识别方法，实现在移动终端进行语音识别。
技术实现思路
...

【技术保护点】
1.一种音频识别方法，其特征在于，应用于移动终端，包括：/n获取用户输入的待识别音频数据；/n提取所述待识别音频数据中的音频特征；/n将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。/n

【技术特征摘要】
1.一种音频识别方法，其特征在于，应用于移动终端，包括：
获取用户输入的待识别音频数据；
提取所述待识别音频数据中的音频特征；
将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。

2.根据权利要求1所述的音频识别方法，其特征在于，所述将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果之后，所述方法还包括：
确定所述音频识别结果对应的至少一个文本信息以及每个所述文本信息的命中概率；
从所述至少一个文本信息中，选取命中概率最高的目标文本信息作为匹配所述待识别音频数据的文本信息。

3.根据权利要求2所述的音频识别方法，其特征在于，所述选取命中概率最高的目标文本信息作为匹配所述待识别音频数据的文本信息之后，所述方法还包括：
检测选取的所述目标文本信息中是否存在预设分词；
若所述目标文本信息中存在所述预设分词，则将所述预设分词以及所述预设分词对应的目标文本信息和待识别音频数据均发送给服务器，以使所述服务器基于所述预设分词、所述目标文本信息和所述待识别音频数据进行异常检测。

4.一种声学模型训练方法，其特征在于，包括：
获取样本音频数据；其中，所述样本音频数据对应有标注的音节信息，所述音节信息包括单个文字的声母和韵母；
提取所述样本音频数据中每一个所述音节信息对应的音频特征；
以所述音节信息作为建模单元，以所述建模单元对应的音频特征作为初始声学模型的输入特征，以所述音节信息的跳转概率作为所述初始声学模型的输出特征，构建声学模型。

5.根据权利要求4所述的声学模型训练方法，其特征在于，所述提取所述样本音频数据中每一个所述音节信息对应的音频特征，包括：
提取每一帧样本音频数据中的音频特征；
基于所述样本音频数据标注的音节信息，确定每一个所述音节信息对应的至少一帧样本音频数据；
针对每一个音节信息，确定该音节信息对应的至少一帧样本音频数据的音频特征，为该音节信息对应的音频特征。

6.根据权利要求5所述的声学模型训练方法，其特征在于，所述音频特征至少包括以下特征中的一种或多种：振幅特征、频率特征、相位特征、梅尔频率倒谱系数特征。

7.根据权利要求4所述的声学模型训练方法，其特征在于，通过以下方法确定所述初始声学模型的模型层数：
基于所述样本音频数据中音节信息的个数，确定所述建模单元的个数；
基于所述建模单元的个数，确定所述初始声学模型的模型层数。

8.根据权利要求7所述的声学模型训练方法，其特征在于，所述初始声学模型包括以下网络模型：长短期记忆网络LSTM、深度神经网络DNN和基于神经网络的时序类分类CTC。

9.根据权利要求4～8任一项所述的声学模型训练方法，其特征在于，所述获取样本音频数据，包括：
从预设的语料库中选取包括预设分词的目标文本信息；其中，所述语料库中包括标注有文本信息的多个音频文件；
选取所述目标文本信息对应的目标音频文件，作为所述样本音频数据。

10.一种音频识别装置，其特征在于，所述装置包括：第一获取模块、第一提取模块和第一处理模块；
所述第一获取模块，用于获取用户输入的待识别音频数据；
所述第一提取模块，用于提取所述待识别音频数据中的音频特征；
所述第一处理模块，用于将所述音频特征输入到预先训练好的声学模型中，得到与所述待识别音频数据对应的音频识别结果；其中，所述声学模型以音节信息作为建模单元训练得到的，所述音节信息包括单个文字的声母和韵母。

11.根据权利要求10所述的音频识别装置，其特征在于，所述装置还包括第一确定模块和选...

【专利技术属性】
技术研发人员：邓耀，王飞，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人