一种语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37260586 阅读:13 留言:0更新日期:2023-04-20 23:35
本申请提供一种语音识别方法、装置、电子设备及存储介质,所述语音识别方法,包括:对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;对所述第二语音进行语音识别,得到所述第二语音的文本信息。该方法摒弃了现有技术中对分割后的语音分别进行语音识别的处理方法,保证了第一语音的完整性,使得对语音信息的识别过程能够有效的结合不同语音之间的上下文联系,提高了语音识别的识别质量。音识别的识别质量。音识别的识别质量。

【技术实现步骤摘要】
一种语音识别方法、装置、电子设备及存储介质


[0001]本申请涉及信息处理领域,具体涉及一种语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能的迅猛发展和语音识别技术的广泛应用,语音识别技术已经参与到了人工生活的方方面面。
[0003]现有技术中对语音的识别通常需要将语音切分成短的语音片段,并分别对各个短的语音片段进行语音识别处理,最终得到各个短语音片段的识别结果。但对于会议、访谈、直播等语境较长的复杂场景,通过现有技术对语音的识别难以把握考虑语音本身的连贯性以及语音上下文之间的关联关系。由此可见,现有技术中的语音识别方法得到的语音识别结果质量有待提升。

技术实现思路

[0004]本申请提供一种语音识别方法、装置、电子设备及存储介质,以提高语音识别结果的质量。
[0005]根据本申请实施例的第一方面,提供了一种语音识别方法,包括:
[0006]对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;
[0007]根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;
[0008]对所述第二语音进行语音识别,得到所述第二语音的文本信息。
[0009]在本申请的一种可选实施方式中,所述根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,包括:
[0010]将所述第一语音的音频特征输入预先训练的语音评分模型,以使所述语音评分模型对所述第一语音进行语音帧级别的有效性评估,确定所述第一语音的各语音帧的有效性;
[0011]根据所述各语音帧的有效性,确定所述第一语音中的有效语音片段。
[0012]在本申请的一种可选实施方式中,所述语音评分模型通过以下方式训练得到:
[0013]获得第三语音的语音帧级别的音频特征,以及各音频特征的有效性分类结果;其中,各音频特征的有效性分类结果包括:音频特征对应的音频有效,或音频特征对应的音频无效;
[0014]将所述第三语音的各音频特征以及各音频特征对应的有效性分类结果作为训练样本,对语音评分模型进行音频有效性分类训练。
[0015]在本申请的一种可选实施方式中,所述对所述第二语音进行语音识别处理,得到所述第二语音的文本信息,包括:
[0016]通过对所述第二语音进行声学特征提取或编码,得到所述第二语音的音频特征;
[0017]对所述音频特征进行解码,得到对应所述第二语音的文本信息。
[0018]在本申请的一种可选实施方式中,通过对所述第二语音进行声学特征提取得到所述第二语音的音频特征,以及对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:
[0019]将所述第二语音输入预先训练的第一语音识别模型,得到对应所述第二语音的文本信息;
[0020]其中,所述第一语音识别模型包括声学信息提取模型,以及文本信息提取模型,所述声学信息提取模型用于对所述第二语音进行音素特征提取,得到所述第二语音的音素特征;
[0021]所述文本信息提取模型用于对所述第二语音的音素特征进行解码识别处理,得到对应所述第二语音的文本信息。
[0022]在本申请的一种可选实施方式中,通过对第二语音进行编码,得到对应所述第二语音的音频特征,包括:
[0023]对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征。
[0024]在本申请的一种可选实施方式中,所述对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,包括:
[0025]对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征;
[0026]其中,所述多头注意力机制包含注意力约束项,所述注意力约束项使得所述多头注意力机制在对当前语音帧进行特征编码时,将注意力范围限定在当前语音帧之前和/或当前语音帧之后的设定语音帧范围内。
[0027]在本申请的一种可选实施方式中,所述对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,包括:
[0028]将所述第二语音输入预先训练的语音编码器,得到所述第二语音的语音帧级别的音频特征;
[0029]其中,所述语音编码器包括多头注意力神经网络层,在所述多头注意力神经网络层中包括掩膜矩阵,所述掩膜矩阵用于在所述多头注意力神经网络层对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,控制注意力范围。
[0030]在本申请的一种可选实施方式中,对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,以及对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:
[0031]将所述第二语音输入预先训练的第二语音识别模型,得到对应所述第二语音的文本信息;
[0032]其中,所述第二语音识别模型包括语音编码器和语音解码器,所述语音编码器用于对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征;
[0033]所述语音解码器用于对所述音频特征进行解码,得到对应所述第二语音的文本信息。
[0034]在本申请的一种可选实施方式中,所述对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:
[0035]按照所述第二语音的各语音帧的生成顺序,依次对各语音帧的音频特征进行解码;
[0036]在依次对各语音帧的音频特征进行解码的过程中,如果解码出结束符号,则判断对所述第二语音的各语音帧的解码过程是否结束;
[0037]在对所述第二语音的各语音帧的解码过程没有结束的情况下,从所述第二语音中未解码的语音帧开始对所述第二语音再次解码,直至得到对应所述第二语音的文本信息。
[0038]根据本申请实施例的第二方面,提供了一种语音识别装置,包括:
[0039]第一单元,用于对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;
[0040]第二单元,用于根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;
[0041]第三单元,用于对所述第二语音进行语音识别,得到所述第二语音的文本信息。
[0042]根据本申请实施例的第三方面,一种电子设备,包括:
[0043]处理器;
[0044]用于存储所述处理器可执行指令的存储器;
[0045]所述处理器,用于通过运行所述存储器中的指令,执行上述语音识别方法。
[0046]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时,执行上述语音识别方法。
[0047]本申请提供一种语音识别方法、装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;对所述第二语音进行语音识别,得到所述第二语音的文本信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,包括:将所述第一语音的音频特征输入预先训练的语音评分模型,以使所述语音评分模型对所述第一语音进行语音帧级别的有效性评估,确定所述第一语音的各语音帧的有效性;根据所述各语音帧的有效性,确定所述第一语音中的有效语音片段。3.根据权利要求2所述的方法,其特征在于,所述语音评分模型通过以下方式训练得到:获得第三语音的语音帧级别的音频特征,以及各音频特征的有效性分类结果;其中,各音频特征的有效性分类结果包括:音频特征对应的音频有效,或音频特征对应的音频无效;将所述第三语音的各音频特征以及各音频特征对应的有效性分类结果作为训练样本,对语音评分模型进行音频有效性分类训练。4.根据权利要求1所述的方法,其特征在于,所述对所述第二语音进行语音识别处理,得到所述第二语音的文本信息,包括:通过对所述第二语音进行声学特征提取或编码,得到所述第二语音的音频特征;对所述音频特征进行解码,得到对应所述第二语音的文本信息。5.根据权利要求4所述的方法,其特征在于,通过对所述第二语音进行声学特征提取得到所述第二语音的音频特征,以及对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:将所述第二语音输入预先训练的第一语音识别模型,得到对应所述第二语音的文本信息;其中,所述第一语音识别模型包括声学信息提取模型,以及文本信息提取模型,所述声学信息提取模型用于对所述第二语音进行音素特征提取,得到所述第二语音的音素特征;所述文本信息提取模型用于对所述第二语音的音素特征进行解码识别处理,得到对应所述第二语音的文本信息。6.根据权利要求4所述的方法,其特征在于,通过对第二语音进行编码,得到对应所述第二语音的音频特征,包括:对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征。7.根据权利要求6所述的方法,其特征在于,所述对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,包括:对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征;其中,所述多头注意力机制包含注意力约束项,所述注意力约束项使得所述多头注意力机制在对当前语音...

【专利技术属性】
技术研发人员:张钟泽吴重亮李永超
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1