【技术实现步骤摘要】
语音识别方法及相关装置、电子设备、存储介质
[0001]本申请涉及语音识别
,特别是涉及一种语音识别方法及相关装置、电子设备、存储介质。
技术介绍
[0002]近年来,随着人工智能技术的发展落地,人机交互变得越来越频繁,以语音为媒介的交互方式逐渐成为人机交互领域的主流形式,语音识别技术在其中的重要性也变得越来越凸显。
[0003]目前,语音识别方法虽然在安静、内容简单的场景下能够准确识别出人声。但是,随着语音识别方法的广泛应用,在嘈杂、内容复杂甚至一些极端场景下,语音识别的文本仍会容易出现不可接受的错误。有鉴于此,如何提高语音识别的准确性成为亟待解决的问题。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种语音识别方法及相关装置、电子设备、存储介质,能够提高语音识别的准确性。
[0005]为了解决上述技术问题,本申请第一方面提供了一种语音识别方法,包括:提取待识别语音各个音频帧的声学特征;基于声学特征进行预测,得到状态序列,并基于有限状态转换器对状态序列进行解码,得到第一候选识别文本及其第一识别分值;其中,状态序列包含音频帧对应的发音状态;基于声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值;基于第一候选识别文本及其第一识别分值和第二候选识别文本及其第二识别分值,确定待识别语音的目标识别文本。
[0006]为了解决上述技术问题,本申请第二方面提供了一种语音识别装置,包括:特征提取模块、状态预测模块、第一解码模块、第二解码模块和文本确定模块。其中,特 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:提取待识别语音各个音频帧的声学特征;基于所述声学特征进行预测,得到状态序列,并基于有限状态转换器对所述状态序列进行解码,得到第一候选识别文本及其第一识别分值;其中,所述状态序列包含所述音频帧对应的发音状态;基于所述声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值;基于所述第一候选识别文本及其第一识别分值和所述第二候选识别文本及其第二识别分值,确定所述待识别语音的目标识别文本。2.根据权利要求1所述的方法,其特征在于,所述基于所述声学特征进行束搜索解码,得到第二候选识别文本及其第二识别分值,包括:基于所述状态序列中的静音状态,对所述待识别语音中所述音频帧进行切分,得到若干音频片段;对于各个所述音频片段,基于所述音频片段中所述音频帧的声学特征进行编码,得到所述音频片段的编码特征;基于所述若干音频片段的编码特征进行束搜索解码,得到所述第二候选识别文本及其第二识别分值。3.根据权利要求2所述的方法,其特征在于,所述音频片段的持续时长不短于时长阈值,所述基于所述状态序列中的静音状态,对所述各个音频帧进行切分,得到若干音频片段,包括:按照所述状态序列中的静音状态所对应的音频帧,对所述待识别语音中所述音频帧进行切分,得到若干候选片段;响应于所述候选片段的持续时长短于所述时长阈值,将持续时长短于所述时长阈值的候选片段与其相邻所述候选片段拼接,直至拼接后所述持续时长不短于所述时长阈值为止。4.根据权利要求1所述的方法,其特征在于,所述基于有限状态转换器对所述状态序列进行解码,得到第一候选识别文本及其第一识别分值,包括:将所述状态序列转换为音素序列;基于词典打包的有限状态转换器对所述音素序列进行转换,得到所述音素序列中各个音素分别对应的候选字词;基于语言模型打包的有限状态转换器,对由所述音素序列中各个音素分别对应的任一候选字词组成的候选语句进行处理,得到所述第一候选识别文本及其第一识别分值。5.根据权利要求1所述的方法,其特征在于,在执行所述束搜索解码过程中,对于各条解码路径,解码结束的判断步骤包括:响应于截至当前解码时刻的解码总分值低于预设门限值,基于截至所述当前解码时刻所述解码路径的路径长度,得到第一加权系数,并基于所述第一加权系数对所述当前解码时刻预测到结束字符的预测概率值进行加权,以提升所述结束字符的预测概率值;基于所述当前解码时刻预设词典中各个预设字符的预测概率和加权后所述结束字符的预测概率,确定所述解码路径是否在所述当前解码时刻结束解码。6.根据权利要求1所述的方法,其特征在于,所述第二识别分值包括覆盖惩罚分值,所
述第二候选识别文本的第二识别分值中所述覆盖惩罚分值的获取步骤包括:对于所述第二候选识别文本中各个解码字符,获取在所述解码字符对应的解码时刻所述解码字符分别与所述各个音频帧的注意力权重;对于所述各个音频帧,统计所述音频帧分别与所述各个解码字符的注意力权重的权重和值,并基于所述权重和值与预设数值之间的较小值,得到所述音频帧的子惩罚分值;基于所述各个音频帧各自的子惩罚分值进行融合,得到所述第二候选识别文本的第二识别分值中所述覆盖惩罚分值。7.根据权利要求1所述的方法,其特征在于,所述第二识别分值包括所述第二候选识别文本中各个解码字符的解码分值,所述解码分值的获取步骤包括:响应于当前解码时刻的解码字符与历史解码时刻...
【专利技术属性】
技术研发人员:张逸杰,万根顺,熊世富,高建清,潘嘉,刘聪,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。