【技术实现步骤摘要】
音频识别方法、声学模型训练方法、装置和存储介质
[0001]本专利技术涉及音频处理
,尤其涉及一种音频识别方法、声学模型训练方法、装置和存储介质。
技术介绍
[0002]语音识别是人机交互的重要内容,而声学模型是语音识别的重要组成部分,声学模型性能的优劣直接影响到语音识别的效果。
[0003]现有技术大多采用深度学习的方法构建声学模型,深度网络能提取音频信号中高层次的抽象特征进行声学模型建模,而随着网络层数的加深,会更专注于更高层次的抽象特征,使得模型无法有效利用音频数据中的很多信息,例如低层特征,从而导致对语音识别的准确率不高。
技术实现思路
[0004]有鉴于此,本专利技术的主要目的在于提供一种声学模型训练方法、语音识别方法、装置和存储介质。
[0005]本专利技术的技术方案是这样实现的:
[0006]第一方面,提供了一种音频识别方法,所述方法包括:
[0007]获取待识别的音频数据;
[0008]对所述音频数据进行频域特征提取,生成所述音频数据的频谱图;r/>[0009]将本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种音频识别方法,其特征在于,所述方法包括:获取待识别的音频数据;对所述音频数据进行频域特征提取,生成所述音频数据的频谱图;将所述频谱图输入到训练好的声学模型中,通过所述声学模型中的特征提取网络提取所述频谱图对应的声学特征序列,其中,所述声学特征序列包括采用不同尺度的卷积核得到的浅层特征和深层特征;通过所述声学模型中的识别网络,基于所述声学特征序列进行所述音频数据的识别。2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括多通道卷积网络和密集残差卷积网络,所述通过所述声学模型中的特征提取网络提取所述频谱图对应的声学特征序列,包括:通过所述多通道卷积网络提取所述频谱图的浅层特征;通过所述密集残差卷积网络提取所述频谱图的深层特征。3.根据权利要求1或2所述的方法,其特征在于,所述识别网络包括第一识别网络和第二识别网络,通过所述声学模型中的识别网络,基于所述声学特征序列进行所述音频数据的识别,包括:通过所述声学模型中的第一识别网络,基于所述声学特征序列进行所述音频数据的识别,得到第一输出序列;通过所述声学模型中的第二识别网络,基于所述声学特征序列进行所述音频数据的识别,得到第二输出序列;根据所述第一输出序列和所述第二输出序列,获取所述音频数据的识别结果。4.根据权利要求3所述的方法,其特征在于,所述第一识别网络包括含有注意力机制的长短期记忆神经网络,所述通过所述声学模型中的第一识别网络,基于所述声学特征序列进行所述音频数据的识别,得到第一输出序列,包括:针对所述声学特征序列中的当前声学特征,通过所述长短期记忆神经网络的所述注意力机制根据所述当前声学特征以及所述当前声学特征的相邻空间上的声学特征,获取所述当前声学特征对应的注意力特征;根据预设迭代轮数,对所述当前声学特征、所述注意力特征以及所述长短期记忆神经网络输出的前一个声学特征对应的隐状态进行交替迭代,得到声学特征迭代结果、注意力特征迭代结果以及隐状态迭代结果;通过所述长短期记忆神经网络根据所述声学特征迭代结果、所述注意力特征迭代结果以及所述隐状态迭代结果,输出当前声学特征对应的隐状态;根据所述声学特征序列中各个声学特征对应的隐状态,获取所述第一输出序列。5.根据权利要求4所述的方法,其特征在于,所述交替迭代的过程包括:在第2N+1轮迭代中,对第2N
‑
1轮迭代的声学特征迭代结果、第2N轮迭代的注意力特征迭代结果以及第2N轮迭代的隐状态迭代结果进行融合,生成本轮迭代的声学特征迭代结果,其中,第一轮迭代的声学特征迭代结果是对所述当前声学特征、所述注意力特征以及所述前一个声学特征对应的隐状态进行融合生成的,N为不小于1的正整数;在第2N+2轮迭代中,对第2N轮的注意力特征迭代结果进行迭代,得到本轮迭代的注意力特征迭代结果,并对第2N+1轮迭代的声学特征迭代结果与第2N轮迭代的隐状态迭代结果
进行融合,生成本轮迭代的隐状态迭代结果;其中,第二轮迭代的注意力特征迭代结果是对所述注意力特征进行迭代生成的,第二轮迭代的隐状态迭代结果是对所述前一个声学特征对应的隐状态以及第一轮迭代的声学特征迭代结果进行融合生成的。6.根据权利要求3所述的方法,其特征在于,所述第二识别网络包括基于图卷积的消息传递网络,所述通过所述声学模型中的第二识别网络,基于所述声学特征序列进行所述音频数据的识别,得到第二输出序列,包括:获取所述声学特征序列的多个特征子序列,将所述声学特征序列的多个特征子序列依次输入到所述第二识别网络中;针对输入到所述第二识别网络中的当前特征子序列,构建所述当前特征子序列对应的特征拓扑图,其中,所述特征拓扑图包括所述当前特征子序列中的每个声学特征对应的特征节点以及特征节点之间的连接权重,两个所述特征节点之间的连接权重用于表征两个所述特征节点对应的声学特征之间的相似度;通过图卷积以及注意力机制对所述特征拓扑图进行迭代更新,并获取迭代更新得到的特征节点对应的嵌入特征;根据所述嵌入特征,获取所述当前特征子序列对应的字符预测结果;根据所有所述特征子序列对应的字符预测结果,生成所述第二输出序列。7.根据权利要求6所述的方法,其特征在于,所述从所述所述第二识别网络的输入中获取多个特征子序列,包括:基于预设的滑动窗口以及滑动步长对所述声学特征序列进行滑动扫描,得到所述声学特征序列的多个特征子序列,其中,所述滑动步长小于所述滑动窗口的窗口长度。8.根据权利要求6所述的方法,其特征在于,所述方法还包括:获取所述音频数据的说话者身份特征;通过所述声学模型中的特征融合网络,对所述说话者身份特征与所述声学特征序列进行融合,得到所述融合特征序列;通过所述第二识别网络,基于所述融合特征序列进行所述音频数据的识别,得到所述第二输出序列。9.一种声学模型训练方法,其特征在于,所述方法包括:获取训练样本,所述训练样本包括样本音频和所述样本音频的标签;对所述样本音频进行频域特征提取,生成所述样本音频的样本频谱图;将所述样本频谱图输入到训练好的声学模型中,通过声学模型中的特征提取网络提取所述样本频谱图对应的声学特征序列,其中,所述声学特征序列包括采用不同尺度的卷积核得到的浅层特征和深层特征;通过所述声学模型中的识别网络,基于所述声学特征序列进行所述样本音频的识别,得到所述样本音频的识别结果;根据所述样本音频的识别结果与所述样本音频的标签,对所述声学模型的参数进行更新。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:采用掩膜的方式对所述样本音频的样本频谱图进行增强处理。11.根据权利要求9所述的方法,其特征在于,所述特征提取网络包括多通道卷积网络
和密集残差卷积网络,所述通过所述声学模型中的特征提取网络提取所述频谱图对应的声学特征序列,包括:通过所述多通道卷积网络提取所述频谱图的浅层特征;通过所述密集残差卷积网络提取所述频谱图的深层特征。12.根据权利要求9所述的方法,其特征在于,所述识别网络包括第一识别网络和第二识别网络,通过所述声学模型中的识别网络,基于所述声学特征序列进行所述音频数据的识别,包括:通过所述声学模型中的第一识别网络,基于所述声学特征序列进行所述样本音频的识别,得到第一输出序列;通过所述声学模型中的第二识别网络,基于所述声学特征序列进行所述样本音频的识别,得到第二输出序列;根据所述第一输出序列和所述第二输出序列,获取所述样本音频的识别结果。13.根据权利要求12所述的方法,其特征在于,所述第一识别网络包括含有注意力机制的长短期记忆神经网络,所述通过所述声学模型中的第一识别网络,基于所述声学特征序列进行所述样本音频的识别,得到第一输出序列,包括:针对所述声学特征序列中的当前声学特征,通过所述长短期记忆神经网络的所述注意力机制根据所述当前声学特征以及所述当前声学特征的相邻空间上的声学特征,获取所述当前声学特征对应的注意力特征;根据预设迭代轮数,对所述当前声学特征、所述注意力特征以及所述长短期记忆神经网络输出的前一个...
【专利技术属性】
技术研发人员:荣玉军,陈铭,单彦会,刘辉,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。