语音识别方法、训练语音识别模型的方法及对应装置制造方法及图纸

技术编号:29590368 阅读:16 留言:0更新日期:2021-08-06 19:50
本公开公开了一种语音识别方法、训练语音识别模型的方法及对应装置,涉及语音和深度学习技术领域。具体实现方案为:获取语音识别模型针对待识别语音输出的识别得分排在前N个的候选识别结果,所述N为大于1的正整数;利用实体打分模型分别对所述N个候选识别结果进行打分,得到各候选识别结果的实体得分;综合所述候选识别结果的识别得分和实体得分,从所述N个候选识别结果中确定所述待识别语音对应的识别结果;其中,所述实体打分模型是基于用户对特定类型的实体的识别结果满意度状况预先训练得到的。本公开能够提高识别准确性。

【技术实现步骤摘要】
语音识别方法、训练语音识别模型的方法及对应装置
本公开涉及计算机应用
,尤其涉及语音和深度学习

技术介绍
近几十年来,语音识别技术取得显著进步,逐步进入了工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。在现有的语音识别架构中,使用音频训练数据进行语音识别模型中声学模型的训练,使用文本训练数据进行语音识别模型中语言模型的训练,如图1中所示。解码器利用声学模型进行语音到音节的概率计算,利用语言模型进行从音节到文本的概率计算,最终输出概率得分最高的文本作为语音识别结果。然而,在一些垂直领域或专业领域的语音识别场景下,对于一些特定实体的识别准确性较低。例如,在地图类应用领域,由于POI(PointOfInterest,兴趣点)或地点文本不同于普通语言的语义逻辑,因此对于POI或地点文本的识别准确率较低。再例如,在医学应用领域,由于疾病、药物等专业名词的文本也不同于普通语言的语义逻辑,因此对于疾病、药物等专业名词的文本的识别准确率也较低。
技术实现思路
有鉴于此,本公开提供了一种语音识别方法和装置,以便于提高识别准确性。根据本公开的第一方面,提供了一种语音识别方法,包括:获取语音识别模型针对待识别语音输出的识别得分排在前N个的候选识别结果,所述N为大于1的正整数;利用实体打分模型分别对所述N个候选识别结果进行打分,得到各候选识别结果的实体得分;综合所述候选识别结果的识别得分和实体得分,从所述N个候选识别结果中确定所述待识别语音对应的识别结果;其中,所述实体打分模型是基于用户对特定类型的实体的识别结果满意度状况预先训练得到的。根据本公开的第二方面,提供了一种训练语音识别模型的方法,包括:在训练语音识别模型的过程中,利用实体打分模型对所述语音识别模型的输出文本进行打分,得到该输出文本的实体得分;利用所述实体得分,调整所述语音识别模型对该输出文本所包含特定类型的实体的学习率;其中所述实体打分模型是基于用户对特定类型的实体的识别结果满意度状况预先训练得到的。根据本公开的第三方面,提供了一种语音识别装置,包括:候选获取单元,用于获取语音识别模型针对待识别语音输出的识别得分排在前N个的候选识别结果,所述N为大于1的正整数;实体打分单元,用于利用实体打分模型分别对所述N个候选识别结果进行打分,得到各候选识别结果的实体得分;结果确定单元,用于综合所述候选识别结果的识别得分和实体得分,从所述N个候选识别结果中确定所述待识别语音对应的识别结果;其中,所述实体打分模型是基于用户对特定类型的实体的识别结果满意度状况预先训练得到的。根据本公开的第四方面,提供了一种训练语音识别模型的装置,包括:实体打分单元,用于在训练语音识别模型的过程中,利用实体打分模型对所述语音识别模型的输出文本进行打分,得到该输出文本的实体得分;训练调整单元,用于利用所述实体得分,调整所述语音识别模型对该输出文本所包含特定类型的实体的学习率;其中所述实体打分模型是基于用户对特定类型的实体的识别结果满意度状况预先训练得到的。根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。根据本公开的第七方面,一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。由以上技术方案可以看出,在获取到语音识别模型对候选识别结果的识别得分基础上,将用户对特定类型的实体的识别结果满意度状况融入对各候选结果的打分,并综合打分和识别得分确定最终的识别结果,以使得最终的识别结果能够尽可能体现大量用户满意的特定类型的实体的识别结果,从而提高识别准确率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1示出了现有技术中语音识别方法的示意图;图2示出了可以应用本专利技术实施例的语音识别方法或装置的示例性系统架构;图3为本公开实施例提供的一种语音识别方法的流程图;图4为本公开实施例提供的语音识别方法的示意图;图5为本公开实施例提供的训练语音识别模型的示意图;图6为本公开实施例提供的语音识别装置的结构图;图7为本公开实施例提供的训练语音识别模型的装置结构图;图8是用来实现本公开实施例的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图2示出了可以应用本专利技术实施例的语音识别方法或装置的示例性系统架构。如图2所示,该系统架构可以包括终端设备101和102,网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用,例如语音交互应用、网页浏览器应用、地图类应用、通信类应用等。终端设备101和102可以是支持语音交互的各种电子设备,可以是有屏设备,也可以是无屏设备。包括但不限于智能手机、平板电脑、智能音箱、智能电视等等。本专利技术所提供的语音识别装置可以设置并运行于上述终端设备101或102侧,也可以设置并运行于上述服务器104侧。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。例如,语音识别装置设置并运行于上述服务器104侧,那么用户通过终端设备101输入语音请求,由终端设备101将语音请求发送至服务器104。由服务器104采用本公开实施例提供的方式进行语音识别后得到语音识别结果,并基于该语音识别结果进行响应。例如将语音识别结果返回给终端设备101并显示给用户。再例如依据语音识别结果执行其中包含的指令,等等。另外,服务器104侧还可以设置有本公开实施例提供的训练语音识别模型的装置,预先对语音识别模型进行训练用以进行上述语音识别。服务器104可以是单一服务器,也可以是多个服务器构成的服务器群组。本文档来自技高网...

【技术保护点】
1.一种语音识别方法,包括:/n获取语音识别模型针对待识别语音输出的识别得分排在前N个的候选识别结果,所述N为大于1的正整数;/n利用实体打分模型分别对所述N个候选识别结果进行打分,得到各候选识别结果的实体得分;/n综合所述候选识别结果的识别得分和实体得分,从所述N个候选识别结果中确定所述待识别语音对应的识别结果;/n其中,所述实体打分模型是基于用户对特定类型的实体的识别结果满意度状况预先训练得到的。/n

【技术特征摘要】
1.一种语音识别方法,包括:
获取语音识别模型针对待识别语音输出的识别得分排在前N个的候选识别结果,所述N为大于1的正整数;
利用实体打分模型分别对所述N个候选识别结果进行打分,得到各候选识别结果的实体得分;
综合所述候选识别结果的识别得分和实体得分,从所述N个候选识别结果中确定所述待识别语音对应的识别结果;
其中,所述实体打分模型是基于用户对特定类型的实体的识别结果满意度状况预先训练得到的。


2.根据权利要求1所述的方法,其中,所述用户对特定类型实体的识别结果满意度状况采用如下方式预先确定:
在用户下发语音请求后,收集用户针对包含所述特定类型的实体的识别结果的行为数据;
基于所述特定类型的各实体分别统计所述行为数据;
依据统计的所述行为数据确定所述特定类型的各实体的识别结果满意度。


3.根据权利要求2所述的方法,其中,所述依据统计的所述行为数据确定所述特定类型的各实体的识别结果满意度包括:
依据对包含所述特定类型的实体的识别结果的直接搜索行为,确定第一满意度;
依据对包含所述特定类型的实体的识别结果进行修改后搜索的行为,确定第二满意度;
依据对包含所述特定类型的实体的识别结果重新发起语音请求且重新发起请求的识别结果与上一次识别结果相似的行为,确定第三满意度;
依据对包含所述特定类型的实体的识别结果重新发起两次以上的语音请求且重新发起请求的识别结果与上一次识别结果不相似的行为,确定第四满意度;
所述第一满意度大于第二满意度,所述第二满意度大于第三满意度,所述第三满意度大于第四满意度。


4.根据权利要求1所述的方法,其中,所述实体打分模型采用如下方式预先训练得到:
获取训练样本,训练样本包含所述特定类型的实体的识别结果,以及依据所述识别结果对应的满意度状况标注的评分标签;
将训练样本中的识别结果作为机器学习模型的输入,将该识别结果对应的评分标签作为机器学习模型的目标输出,训练所述机器学习模型得到所述实体打分模型。


5.根据权利要求1所述的方法,其中,所述综合所述候选识别结果的识别得分和实体得分,从所述N个候选识别结果中确定所述待识别语音对应的识别结果包括:
将所述候选识别结果的识别得分和实体得分进行加权求和,得到所述N个候选识别结果的最终得分;
利用所述最终得分确定所述待识别语音对应的识别结果。


6.根据权利要求1至5中任一项所述的方法,其中,所述特定类型的实体包括:兴趣点POI或地点。


7.一种训练语音识别模型的方法,包括:
在训练语音识别模型的过程中,利用实体打分模型对所述语音识别模型的输出文本进行打分,得到该输出文本的实体得分;
利用所述实体得分,调整所述语音识别模型对该输出文本所包含特定类型的实体的学习率;
其中所述实体打分模型是基于用户对特定类型的实体的识别结果满意度状况预先训练得到的。


8.根据权利要求7所述的方法,其中,所述利用所述实体得分,调整所述语音识别模型对该输出文本所包含特定类型的实体的学习率包括:
依据所述实体得分,调整声学模型对所述输出文本所包含特定类型的实体对应的语音样本的学习率;和/或,
依据所述实体得分,调整语言模型对所述输出文本所包含特定类型的实体所对应音素序列的学习率。


9.根据权利要求8所述的方法,其中,所述实体得分与调整的声学模型的学习率负相关;
所述实体得分与调整的语言模型的学习率正相关。


10.根据权利要求7所述的方法,所述用户对特定类型实体的识别结果满意度状况采用如下方式预先确定:
在用户下发语音请求后,收集用户针对包含所述特定类型的实体的识别结果的行为数据;
基于所述特定类型的各实体分别统计所述行为数据;
依据所述行为数据确定所述特定类型的各实体的识别结果满意度。


11.根据权利要求7所述的方法,所述实体打分模型采用如下方式预先训练得到:
获取训练样本,训练样本包含所述特定类型的实体的识别结果,以及依据所述识别结果对应的满意度状况标注的评分标签;
将训练样本中的识别结果作为机器学习模型的输入,将该识别结果对应的评分标签作为机器学习模型的目标输出,训练所述机器学习模型得到所述实体打分模型。


12.一种语音识别装置,包括:
候选获取单元,用于获取语音识别模型针对待识别语音输出的识别得分排在前N个的候选识别结果,所述N为大于1的正整数;
实体打分单元,用于利用实体打分模...

【专利技术属性】
技术研发人员:张辽
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1