中英文混合语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28054540 阅读:30 留言:0更新日期:2021-04-14 13:22
本申请公开了一种中英文混合语音识别方法、装置、电子设备和存储介质,涉及语音技术领域、自然语言处理领域、深度学习领域等人工智能领域。具体实现方案为:响应于接收到语音信息,确定语音信息的发音信息和语言模型得分;根据发音信息确定语音信息的内容中是否存在英文词;响应于语音信息的内容中存在英文词,基于预设的中英文映射表确定与英文词对应的中文词;确定与英文词对应的中文词的得分,将语言模型得分之中的英文词的得分替换成中文词的得分;根据替换后的语言模型得分,获取针对语音信息的语音识别结果。本申请实施例可以提高语言模型得分之中英文词所在路径的得分,从而可以提高中英文混合语音的整体识别效果。从而可以提高中英文混合语音的整体识别效果。从而可以提高中英文混合语音的整体识别效果。

【技术实现步骤摘要】
中英文混合语音识别方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,尤其涉及语音
、自然语言处理领域、深度学习领域等人工智能领域,具体涉及一种中英文混合语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]在众多语音识别的应用中均可能存在中英文混说的情形。例如,说话内容为“很高兴我们拿下了这个deal;这个事件的behavior对我们影响很大;”,这种因为一些中文发音的谐音其实也是根据英文词“deal”很像,比如迪欧、第二等等。相关技术中,通常是基于语音识别模型直接对这种中英文混合的语音进行识别和查分。但是,由于有中文谐音的词语的关系,同时语言模型区分度在这种谐音和英文词上差异不大,导致最终语音识别结果实际上出来的不一定如预期那样的英文词,存在识别效果差等问题。

技术实现思路

[0003]本申请提供了一种中英文混合语音识别方法、装置、电子设备以及存储介质。
[0004]根据本申请的第一方面,提供了一种中英文混合语音识别方法,包括:
[0005]响应于接收到语音信息,确定所述语音信息的发音信息和语言模型得分;
[0006]根据所述发音信息确定所述语音信息的内容中是否存在英文词;
[0007]响应于所述语音信息的内容中存在英文词,基于预设的中英文映射表确定与所述英文词对应的中文词;其中,所述中英文映射表中包含至少一对英文词与中文词的映射关系;
[0008]确定与所述英文词对应的中文词的得分,将所述语言模型得分之中的所述英文词的得分替换成所述中文词的得分;
[0009]根据替换后的语言模型得分,获取针对所述语音信息的语音识别结果。
[0010]根据本申请的第二方面,提供了一种中英文混合语音识别装置,包括:
[0011]第一确定模块,用于响应于接收到语音信息,确定所述语音信息的发音信息和语言模型得分;
[0012]第二确定模块,用于根据所述发音信息确定所述语音信息的内容中是否存在英文词;
[0013]第三确定模块,用于响应于所述语音信息的内容中存在英文词,基于预设的中英文映射表确定与所述英文词对应的中文词;其中,所述中英文映射表中包含至少一对英文词与中文词的映射关系;
[0014]第四确定模块,用于确定与所述英文词对应的中文词的得分;
[0015]替换模块,用于将所述语言模型得分之中的所述英文词的得分替换成所述中文词的得分;
[0016]第一获取模块,用于根据替换后的语言模型得分,获取针对所述语音信息的语音
识别结果。
[0017]根据本申请的第三方面,提供了一种电子设备,包括:
[0018]至少一个处理器;以及
[0019]与所述至少一个处理器通信连接的存储器;其中,
[0020]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面实施例所述的中英文混合语音识别方法。
[0021]根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面实施例所述的中英文混合语音识别方法。
[0022]根据本申请的技术方案,基于中英文映射表之中英文词和中文词的映射关系,通过在声学模型识别到语音信息的发音信息,并基于发音信息输出对应词时,使用与语音内容之中英文词对应的中文词得分来查找语言模型得分,将查找到的中文词得分替换到该语言模型得分之中英文词的得分上,以提高该英文词所在路径的得分,进而可以保证该英文词文本能够被模型输出以作为语音信息之中的英文内容对应的语音识别结果,提高了中英文混合语音的整体识别效果。
[0023]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0024]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0025]图1示出了根据本申请实施例的语音识别的处理过程100的示意图;
[0026]图2是根据本申请实施例提供的一种中英文混合语音识别方法的流程图;
[0027]图3是根据本申请实施例提供的另一种中英文混合语音识别方法的流程图;
[0028]图4是根据本申请实施例提供的又一种中英文混合语音识别方法的流程图;
[0029]图5是根据本申请实施例的构建语言模型的构图空间的流程图;
[0030]图6是根据本申请实施例提供的一种中英文混合语音识别装置的结构框图;
[0031]图7是根据本申请实施例提供的另一种中英文混合语音识别装置的结构框图;
[0032]图8是根据本申请实施例的用以实现中英文混合语音识别方法的电子设备的框图。
具体实施方式
[0033]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0034]下面参考附图描述本申请实施例的中英文混合语音识别方法、装置、电子设备和存储介质。
[0035]图1示出了根据本申请实施例的语音识别的处理过程100的示意图。通常,语音识
别系统可以包括声学模型、语言模型以及解码器等组件。如图1所示,在获得采集到的语音信号110之后,首先在框120处对语音信号110进行信号处理和特征提取,包括从输入的语音信号110中提取特征,以供后续的声学模型等来处理。备选地,特征提取过程还包括一些其他信号处理技术,以便降低环境噪声或者其他因素对特征造成的影响。
[0036]参考图1,在完成特征提取120之后,将提取的特征输入到解码器130,并由解码器130经过处理输出文本识别结果140。具体地,解码器130根据声学模型132和语言模型134寻找最大概率输出的语音信号的文本序列,其中声学模型132可以实现语音到发音片段的转换,而语言模型134可以实现发音片段到文本的转换。
[0037]声学模型132用于对发音片段进行声学和语言的联合建模,其建模单元例如可以为音节,在本申请的一些实施例中,声学模型132可以为流式多级的截断注意力模型(StreamingMulti

LayerTruncatedAttention,简称为SMLTA)模型,其中SMLTA模型可以利用CTC(Connectionist Temporal Classification,连接时序分类)模型的尖峰信息,把语音切割成多个小片段,使得注意力模型建模和解码可以在各个小片段上展开。这样的SMLTA模型能够支持实时的流式语音识别,并且实现较高的识别准确率。
[0038]语言模型134用于对语言进行建模。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中英文混合语音识别方法,包括:响应于接收到语音信息,确定所述语音信息的发音信息和语言模型得分;根据所述发音信息确定所述语音信息的内容中是否存在英文词;响应于所述语音信息的内容中存在英文词,基于预设的中英文映射表确定与所述英文词对应的中文词;其中,所述中英文映射表中包含至少一对英文词与中文词的映射关系;确定与所述英文词对应的中文词的得分,将所述语言模型得分之中的所述英文词的得分替换成所述中文词的得分;根据替换后的语言模型得分,获取针对所述语音信息的语音识别结果。2.根据权利要求1所述的中英文混合语音识别方法,还包括:响应于所述语音信息的内容中未存在英文词,根据所述语言模型得分获取针对所述语音信息的语音识别结果。3.根据权利要求1或2所述的中英文混合语音识别方法,在所述确定所述语音信息的发音信息和语言模型得分之前,所述方法还包括:获取语言模型资源;根据所述语言模型资源和所述中英文映射表构建语言模型的构图空间;所述构图空间包括多条解码路径。4.根据权利要求3所述的中英文混合语音识别方法,其中,所述根据所述语言模型资源和所述中英文映射表构建语言模型的构图空间,包括:根据所述语言模型资源构建语言模型的初始构图空间;确定所述中英文映射表之中与各英文词对应的中文词;从预先建立的语言模型得分语料库中,获取与所述各英文词对应的各中文词的得分;依据与所述各英文词对应的各中文词的得分,将所述初始构图空间之中英文词节点的得分,替换成与所述英文词节点对应的中文词的得分;将替换后的初始构图空间,作为所述语言模型的构图空间。5.根据权利要求3所述的中英文混合语音识别方法,其中,所述根据替换后的语言模型得分,获取针对所述语音信息的语音识别结果,包括:根据替换后的语言模型得分,从所述构图空间的多条解码路径中选择所有节点的得分总和最大的一条解码路径;将所述所有节点的得分总和最大的一条解码路径对应的词序列,确定为针对所述语音信息的语音识别结果。6.一种中英文混合语音识别装置,包括:第一确定模块,用于响应于接收到语音信息,确定所述语音信息的发音信息和语言模型得分;第二确定模块,用于根据所述发音信息确定所述语音信息的内容中是否存在英文词;第三确定模块,用于响应于所述语音信息的内容中存...

【专利技术属性】
技术研发人员:王知践钱胜张奇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1