【技术实现步骤摘要】
中英文混合语音识别方法、装置、电子设备和存储介质
[0001]本申请涉及计算机
,尤其涉及语音
、自然语言处理领域、深度学习领域等人工智能领域,具体涉及一种中英文混合语音识别方法、装置、电子设备和存储介质。
技术介绍
[0002]在众多语音识别的应用中均可能存在中英文混说的情形。例如,说话内容为“很高兴我们拿下了这个deal;这个事件的behavior对我们影响很大;”,这种因为一些中文发音的谐音其实也是根据英文词“deal”很像,比如迪欧、第二等等。相关技术中,通常是基于语音识别模型直接对这种中英文混合的语音进行识别和查分。但是,由于有中文谐音的词语的关系,同时语言模型区分度在这种谐音和英文词上差异不大,导致最终语音识别结果实际上出来的不一定如预期那样的英文词,存在识别效果差等问题。
技术实现思路
[0003]本申请提供了一种中英文混合语音识别方法、装置、电子设备以及存储介质。
[0004]根据本申请的第一方面,提供了一种中英文混合语音识别方法,包括:
[0005]响应于接收到语 ...
【技术保护点】
【技术特征摘要】
1.一种中英文混合语音识别方法,包括:响应于接收到语音信息,确定所述语音信息的发音信息和语言模型得分;根据所述发音信息确定所述语音信息的内容中是否存在英文词;响应于所述语音信息的内容中存在英文词,基于预设的中英文映射表确定与所述英文词对应的中文词;其中,所述中英文映射表中包含至少一对英文词与中文词的映射关系;确定与所述英文词对应的中文词的得分,将所述语言模型得分之中的所述英文词的得分替换成所述中文词的得分;根据替换后的语言模型得分,获取针对所述语音信息的语音识别结果。2.根据权利要求1所述的中英文混合语音识别方法,还包括:响应于所述语音信息的内容中未存在英文词,根据所述语言模型得分获取针对所述语音信息的语音识别结果。3.根据权利要求1或2所述的中英文混合语音识别方法,在所述确定所述语音信息的发音信息和语言模型得分之前,所述方法还包括:获取语言模型资源;根据所述语言模型资源和所述中英文映射表构建语言模型的构图空间;所述构图空间包括多条解码路径。4.根据权利要求3所述的中英文混合语音识别方法,其中,所述根据所述语言模型资源和所述中英文映射表构建语言模型的构图空间,包括:根据所述语言模型资源构建语言模型的初始构图空间;确定所述中英文映射表之中与各英文词对应的中文词;从预先建立的语言模型得分语料库中,获取与所述各英文词对应的各中文词的得分;依据与所述各英文词对应的各中文词的得分,将所述初始构图空间之中英文词节点的得分,替换成与所述英文词节点对应的中文词的得分;将替换后的初始构图空间,作为所述语言模型的构图空间。5.根据权利要求3所述的中英文混合语音识别方法,其中,所述根据替换后的语言模型得分,获取针对所述语音信息的语音识别结果,包括:根据替换后的语言模型得分,从所述构图空间的多条解码路径中选择所有节点的得分总和最大的一条解码路径;将所述所有节点的得分总和最大的一条解码路径对应的词序列,确定为针对所述语音信息的语音识别结果。6.一种中英文混合语音识别装置,包括:第一确定模块,用于响应于接收到语音信息,确定所述语音信息的发音信息和语言模型得分;第二确定模块,用于根据所述发音信息确定所述语音信息的内容中是否存在英文词;第三确定模块,用于响应于所述语音信息的内容中存...
【专利技术属性】
技术研发人员:王知践,钱胜,张奇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。