一种语音识别方法及装置、设备、介质制造方法及图纸

技术编号：20548110 阅读：27 留言：0更新日期：2019-03-09 20:43

本申请公开了一种语音识别方法及装置、设备、介质。该方法至少包括：对待识别音频数据进行傅里叶变换，得到语谱图；利用根据预设的语音识别字典构建并训练的卷积神经网络，对语谱图进行处理，输出相应的张量，语音识别字典中指定了字词与音素之间的映射关系；在相应的张量中进行搜索，得到相应的文本，作为语音识别结果。本申请利用卷积神经网络对待识别音频数据对应的语谱图进行识别，无需预先提取特征，能够复用图像识别算法来实现语音识别，有助于降低计算量，减少处理时间，也有助于减少信息损失，提高识别率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法及装置、设备、介质
本申请涉及语音识别
，尤其涉及一种语音识别方法及装置、设备、介质。
技术介绍
语音识别技术，也被称为自动语音识别(AutomaticSpeechRecognition，ASR)，其目标是将人类的语音中的字词内容转换为计算机可读的输入，比如，按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，比如，语音到语音的翻译等。在现有技术中，所采用的语音识别方案通常是使用梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)特征和动态时间规整(DynamicTimeWarping，DTW)算法进行孤立词识别。但是，这种语音识别方案需要预先提取MFCC特征，计算量较大，增加了处理时间，也会损失信息导致识别率下降。
技术实现思路
本申请实施例提供一种语音识别方法及装置、设备、介质，用以解决现有技术中的如下技术问题：现有的语音识别方案通常需要预先提...

【技术保护点】
1.一种语音识别方法，其特征在于，包括：对待识别音频数据进行傅里叶变换，得到语谱图；利用根据预设的语音识别字典构建并训练的卷积神经网络，对所述语谱图进行处理，输出相应的张量，所述语音识别字典中指定了字词与音素之间的映射关系；在所述相应的张量中进行搜索，得到相应的文本，作为语音识别结果。

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：对待识别音频数据进行傅里叶变换，得到语谱图；利用根据预设的语音识别字典构建并训练的卷积神经网络，对所述语谱图进行处理，输出相应的张量，所述语音识别字典中指定了字词与音素之间的映射关系；在所述相应的张量中进行搜索，得到相应的文本，作为语音识别结果。2.如权利要求1所述的方法，其特征在于，所述对待识别音频数据进行傅里叶变换，得到语谱图，包括：对待识别音频数据进行傅里叶变换；通过利用对数坐标系，对所述傅里叶变换的结果进行对数坐标转换，生成所述待识别音频数据对应的语谱图。3.如权利要求1所述的方法，其特征在于，根据预设的语音识别字典构建所述卷积神经网络，包括：确定预设的语音识别字典包含的音素数量；根据所述音素数量，设定所述卷积神经网络中至少一层的卷积核数量，并据此构建所述卷积神经网络，所述至少一层包括最后一层。4.如权利要求1所述的方法，其特征在于，所述在所述相应的张量中进行搜索，包括：在所述相应的张量中进行贪心搜索和/或集束搜索。5.如权利要求1所述的方法，其特征在于，所述对待识别音频数据进行傅里叶变换，包括：对待识别音频数据进行快速傅里叶变换。6.如权利要求1～5任一项所述的方法，其特征在于，所述卷积神经网络为一维卷积神经网络。7.一种语音识别装置，其特征在于，包括：转换模块，对待识别音频数据进行傅里叶变换，得到语谱图；卷积模块，利用根据预设的语音识别字典构建并训练的卷积神经网络，对所述语谱图进行处理，输出相应的张量，所述语音识别字典中指定了字词与音素之间的映射关系；搜索模块，在所述相应的张量中进行搜索，得到相应的文本，作为语音识别结果。8.如权利要求7所述的装置，其特征在于，所述转换模块对待识别音频数据进行傅里叶变换，得到语谱图，包括：所述转换模块对待识别音频数据进行傅里叶变换；通过利用对数坐标系，...

【专利技术属性】
技术研发人员：郭晖，张楠赓，
申请(专利权)人：北京嘉楠捷思信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人