语音识别方法及相关装置、电子设备、存储介质制造方法及图纸

技术编号:36891710 阅读:39 留言:0更新日期:2023-03-15 21:59
本申请公开了一种语音识别方法及相关装置、电子设备、存储介质,其中,语音识别方法包括:提取待识别语音各个音频帧的声学特征;再基于声学特征进行预测,得到状态序列,并基于有限状态转换器对状态序列进行解码,得到第一候选识别文本及其第一识别分值;其中,状态序列包含音频帧对应的发音状态;并基于声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值;基于第一候选识别文本及其第一识别分值和第二候选识别文本及其第二识别分值,确定待识别语音的目标识别文本。上述方案,能够提高语音识别的准确性。够提高语音识别的准确性。够提高语音识别的准确性。

【技术实现步骤摘要】
语音识别方法及相关装置、电子设备、存储介质


[0001]本申请涉及语音识别
,特别是涉及一种语音识别方法及相关装置、电子设备、存储介质。

技术介绍

[0002]近年来,随着人工智能技术的发展落地,人机交互变得越来越频繁,以语音为媒介的交互方式逐渐成为人机交互领域的主流形式,语音识别技术在其中的重要性也变得越来越凸显。
[0003]目前,语音识别方法虽然在安静、内容简单的场景下能够准确识别出人声。但是,随着语音识别方法的广泛应用,在嘈杂、内容复杂甚至一些极端场景下,语音识别的文本仍会容易出现不可接受的错误。有鉴于此,如何提高语音识别的准确性成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种语音识别方法及相关装置、电子设备、存储介质,能够提高语音识别的准确性。
[0005]为了解决上述技术问题,本申请第一方面提供了一种语音识别方法,包括:提取待识别语音各个音频帧的声学特征;基于声学特征进行预测,得到状态序列,并基于有限状态转换器对状态序列进行解码,得到第一候选识别文本及其第一识别分值;其中,状态序列包含音频帧对应的发音状态;基于声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值;基于第一候选识别文本及其第一识别分值和第二候选识别文本及其第二识别分值,确定待识别语音的目标识别文本。
[0006]为了解决上述技术问题,本申请第二方面提供了一种语音识别装置,包括:特征提取模块、状态预测模块、第一解码模块、第二解码模块和文本确定模块。其中,特征提取模块用于提取待识别语音各个音频帧的声学特征;状态预测模块用于基于声学特征进行预测,得到状态序列;其中,状态序列包含音频帧对应的发音状态;第一解码模块用于基于有限状态转换器对状态序列进行解码,得到第一候选识别文本及其第一识别分值;第二解码模块用于基于声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值;文本确定模块用于基于第一候选识别文本及其第一识别分值和第二候选识别文本及其第二识别分值,确定待识别语音的目标识别文本。
[0007]为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的语音识别方法。
[0008]为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音识别方法。
[0009]上述方案,通过提取待识别语音各个音频帧的声学特征;再基于声学特征进行预测,得到状态序列,并基于有限状态转换器对状态序列进行解码,得到第一候选识别文本及
其第一识别分值;其中,状态序列包含音频帧对应的发音状态;并基于声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值;基于第一候选识别文本及其第一识别分值和第二候选识别文本及其第二识别分值,确定待识别语音的目标识别文本,一方面基于有限状态转换器对状态序列进行解码,得到第一候选识别文本及其第一识别分值,有助于提高第一候选识别文本及其第一识别分值的准确性,另一方面基于声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值,有助于提高声学特征解码过程中的稳定性,同时提高第二候选识别文本及其第二识别分值的获取效率;在此基础上,再基于第一候选识别文本及其第一识别分值和第二候选识别文本及其第二识别分值,确定待识别语音的目标识别文本,相较于基于单一候选识别文本确定目标识别文本,有助于提高目标识别文本的准确性。故此,能够提高语音识别的准确性。
附图说明
[0010]图1是本申请语音识别方法一实施例的流程示意图;
[0011]图2是第一候选识别文本一实施例的示意图;
[0012]图3是第二候选识别文本一实施例的示意图;
[0013]图4是获取音频片段一实施例的流程示意图;
[0014]图5是本申请语音识别方法一实施例的框架示意图;
[0015]图6是本申请语音识别装置一实施例的框架示意图;
[0016]图7是本申请电子设备一实施例的框架示意图;
[0017]图8是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0018]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0019]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0020]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
[0021]请参阅图1,图1是本申请语音识别方法一实施例的流程示意图。
[0022]具体而言,可以包括如下步骤:
[0023]步骤S11:提取待识别语音各个音频帧的声学特征。
[0024]在一个实施场景中,提取待识别语音各个音频帧的声学特征,可以采用MFCC(Mel Frequency Cepstral Coefficents,梅尔倒频谱系数)特征提取得到声学特征,也可以通过深度学习特征提取得到声学特征,声学特征的提取方法可以根据实际情况进行确定,在此不做具体限定。
[0025]步骤S12:基于声学特征进行预测,得到状态序列,并基于有限状态转换器对状态
序列进行解码,得到第一候选识别文本及其第一识别分值。
[0026]本公开实施场景中,状态序列包含音频帧对应的发音状态。具体地,音频帧对应的发音状态可以包括与各个音频帧对齐的音素,每个音频帧对齐的音素可以是单音素,即仅含有该音频帧自身对应的音素;每个音频帧对齐的也可以是三音素,即不仅包含自身对应的音素,还包含前一帧和后一帧音频帧对应的音素。进一步地,发音状态用于表征发音过程中的起始、延续、中止、停止等状态,具体可以包括但不限于音素起始状态、音素中间状态、音素结束状态、空白静音状态等等。
[0027]在一个实施场景中,可以直接对声学特征进行预测,得到状态序列。
[0028]在另一个实施场景中,区别于前述实施方式,可以先通过编码器对声学特征进行编码,得到编码特征,再通过编码特征进行预测,得到状态序列。获取状态序列的方式可以根据实际情况进行确定,在此不做具体限定。
[0029]在一个实施场景中,可以将状态序列转换为音素序列,并基于音素序列合成第一候选识别文本及其第一识别分值。
[0030]请参阅图2,图2是第一候选识别文本一实施例的示意图,先将状态序列转换为音素序列;并基于词典打包的有限状态转换器对音素序列进行转换,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:提取待识别语音各个音频帧的声学特征;基于所述声学特征进行预测,得到状态序列,并基于有限状态转换器对所述状态序列进行解码,得到第一候选识别文本及其第一识别分值;其中,所述状态序列包含所述音频帧对应的发音状态;基于所述声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值;基于所述第一候选识别文本及其第一识别分值和所述第二候选识别文本及其第二识别分值,确定所述待识别语音的目标识别文本。2.根据权利要求1所述的方法,其特征在于,所述基于所述声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值,包括:基于所述状态序列中的静音状态,对所述待识别语音中所述音频帧进行切分,得到若干音频片段;对于各个所述音频片段,基于所述音频片段中所述音频帧的声学特征进行编码,得到所述音频片段的编码特征;基于所述若干音频片段的编码特征进行束搜索解码,得到所述第二候选识别文本及其第二识别分值。3.根据权利要求2所述的方法,其特征在于,所述音频片段的持续时长不短于时长阈值,所述基于所述状态序列中的静音状态,对所述各个音频帧进行切分,得到若干音频片段,包括:按照所述状态序列中的静音状态所对应的音频帧,对所述待识别语音中所述音频帧进行切分,得到若干候选片段;响应于所述候选片段的持续时长短于所述时长阈值,将持续时长短于所述时长阈值的候选片段与其相邻所述候选片段拼接,直至拼接后所述持续时长不短于所述时长阈值为止。4.根据权利要求1所述的方法,其特征在于,所述基于有限状态转换器对所述状态序列进行解码,得到第一候选识别文本及其第一识别分值,包括:将所述状态序列转换为音素序列;基于词典打包的有限状态转换器对所述音素序列进行转换,得到所述音素序列中各个音素分别对应的候选字词;基于语言模型打包的有限状态转换器,对由所述音素序列中各个音素分别对应的任一候选字词组成的候选语句进行处理,得到所述第一候选识别文本及其第一识别分值。5.根据权利要求1所述的方法,其特征在于,在执行所述束搜索解码过程中,对于各条解码路径,解码结束的判断步骤包括:响应于截至当前解码时刻的解码总分值低于预设门限值,基于截至所述当前解码时刻所述解码路径的路径长度,得到第一加权系数,并基于所述第一加权系数对所述当前解码时刻预测到结束字符的预测概率值进行加权,以提升所述结束字符的预测概率值;基于所述当前解码时刻预设词典中各个预设字符的预测概率和加权后所述结束字符的预测概率,确定所述解码路径是否在所述当前解码时刻结束解码。6.根据权利要求1所述的方法,其特征在于,所述第二识别分值包括覆盖惩罚分值,所
述第二候选识别文本的第二识别分值中所述覆盖惩罚分值的获取步骤包括:对于所述第二候选识别文本中各个解码字符,获取在所述解码字符对应的解码时刻所述解码字符分别与所述各个音频帧的注意力权重;对于所述各个音频帧,统计所述音频帧分别与所述各个解码字符的注意力权重的权重和值,并基于所述权重和值与预设数值之间的较小值,得到所述音频帧的子惩罚分值;基于所述各个音频帧各自的子惩罚分值进行融合,得到所述第二候选识别文本的第二识别分值中所述覆盖惩罚分值。7.根据权利要求1所述的方法,其特征在于,所述第二识别分值包括所述第二候选识别文本中各个解码字符的解码分值,所述解码分值的获取步骤包括:响应于当前解码时刻的解码字符与历史解码时刻...

【专利技术属性】
技术研发人员:张逸杰万根顺熊世富高建清潘嘉刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1