语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:20162401 阅读:24 留言:0更新日期:2019-01-19 00:15
本申请实施例提供一种语音识别方法、装置、设备及存储介质,通过获取终端设备上搭载的音频采集设备采集获得的语音信号,以及在采集获得该语音信号时终端设备所在的第一区域,采用预先存储的与第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型对语音信号进行语音识别处理,从而基于第一语音识别模型的第一识别结果和第二语音识别模型的第二识别结果,确定并输出目标输出的识别结果。本申请实施例提供的技术方案能够提高语音识别的准确性,提高用户体验。

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质
本申请实施例涉及语音识别
,尤其涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
在目前的语音识别场景中通常采用一个通用的语言模型来对不同地域不同发音习惯用户的语音请求进行识别。以地图场景为例,在地图场景中通常使用一个训练自所有地名的语言模型对不同地域来源的语音请求进行解码识别。但是实际情况是,不同城市的地名/建筑名称/道路名称往往存在同音不同字的情况,同一个发音经常对应不同城市的街道(如海桐路(上海)和海铜路(重庆))、酒店(如爱俪轩(上海)和爱丽轩(廊坊))、建筑等,使得语音识别系统不确定哪个识别结果是用户目标输入的结果,只能呈现给用户在统计量上输出频率较高的识别结果,然而输出频率较高的识别结果不一定就是用户目标输入的结果,从而容易出现识别错误的情况,用户体验较差。
技术实现思路
本申请实施例提供一种语音识别方法、装置、设备及存储介质,用以提高语音识别的准确性,尤其是提高地图场景下语音识别的准确性。本申请实施例第一方面提供一种语音识别方法,包括:获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。本申请实施例第二方面提供一种语音识别装置,包括:获取模块,用于获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;识别模块,用于采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;第一确定模块,用于基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;一个或多个音频采集设备,所述音频采集设备与所述处理器连接,用于采集语音信号;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面所述的方法。本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的方法。基于以上各方面,本申请实施例通过获取终端设备上搭载的音频采集设备采集获得的语音信号,以及在采集获得该语音信号时终端设备所在的第一区域,采用预先存储的与第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型对语音信号进行语音识别处理,从而基于第一语音识别模型的第一识别结果和第二语音识别模型的第二识别结果,确定并输出目标输出的识别结果。本申请实施例中第一语音识别模型是基于第一区域中的语音样本训练获得的,针对第一区域中获取到的语音信号采用第一语音模型相比于采用通用的语音识别模型一般能够得到更加符合地域特征的识别结果,使得识别结果更加准确,同时采用第一语音识别模型的同时也采用通用的第二语音识别模型,结合第一语音识别模型和第二语音识别模型的识别结果来共同确定最终目标输出的识别结果也能够进一步确保最终识别结果的准确性,避免在第二语音识别模型的识别结果不准确时对最终输出结果造成影响。应当理解,上述
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。附图说明图1是现有技术提供的一种适用于电子地图的语音识别场景示意图;图2是本申请实施例提供的一种语音识别方法的应用场景示意图;图3是本申请实施例提供的一种语音识别方法的流程图;图4是本申请实施例提供的一种步骤S13的执行方法流程图;图5是本申请实施例提供的一种语音识别装置的结构图;图6是本申请实施例提供的第一确定模块53的结构示意图。具体实施方式下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。图1是现有技术提供的一种适用于电子地图的语音识别场景示意图,图1中的语音信号可以是位于任意区域(比如,上海、北京、重庆等)的用户输出的语音信号,语音识别装置可以理解为具备语音识别功能的终端设备,也可以理解为设置在终端设备中的具有语音识别功能的装置。这里以语音识别装置设置在终端设备内为例。当用户发出语音信号时,终端设备上搭载的音频采集设备采集获得该语音信号,并将该语音信号发送给语音识别装置,语音识别装置调用通用的语音识别模型对接收到的语音信号进行识别处理,从而输出识别结果。但是目前不同城市的地名/建筑名称/道路名称往往存在同音不同字的情况,同一个发音经常对应不同城市的街道(如海桐路(上海)和海铜路(重庆))、酒店(如爱俪轩(上海)和爱丽轩(廊坊))、建筑等,使得语音识别系统不确定哪个识别结果是用户目标输入的结果,只能呈现给用户在统计量上输出频率较高的识别结果,然而输出频率较高的识别结果不一定就是用户目标输入的结果,从而容易出现识别错误的情况,用户体验较差。针对现有技术存在的上述技术问题,本申请实施例提供了一种语音识别方法,图2是本申请实施例提供的一种语音识别方法的应用场景示意图,如图2所示,在本申请实施例中涉及的语音识别模型包括各区域通用的语音识别模型,以及基于各区域中采集获得的语音样本训练获得的适用于各区域的语音识别模型。在进行语音识别时,不仅要获取待识别的语音信号还要获取终端设备在采集该语音信号时的位置区域a,从而调用基于该位置区域a中语音样本训练获得的语音识别模型,以及预先训练获得的各区域通用的语音识别模型对语音信号进行分析,并基于二者的识别结果得到最终的语音识别结果。由于本申请实施例中预设了多个语音识别模型,且每个模型均通过一个对应区域中的语音样本训练获得,从而在执行语音识别操作时,基于终端设备的位置选择相应的语音模型进行语音识别任务,就能够使得语音识别结果更加具有地域特征,提高语音识别的准确性,并且提供时采用通用语音识别本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果,包括:基于预设的概率计算模型,计算目标输出的识别结果为第一识别结果的概率,以及目标输出的识别结果为第二识别结果的概率,确定所述第一识别结果和所述第二识别结果中对应概率最大的为目标输出的识别结果。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果,包括:对所述第一语音识别模型得到的第一识别结果和所述第二语音识别模型得到的第二识别结果进行纠错处理得到第三识别结果;基于所述第一识别结果、第二识别结果和第三识别结果,形成第一集合;基于预设打分模型计算所述第一集合中每个识别结果的打分;基于每个识别结果的打分确定目标输出的识别结果。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一识别结果、第二识别结果和第三识别结果,形成第一集合,包括:分别对所述第一识别结果、第二识别结果和第三识别结果进行特征提取,基于特征提取的结果形成第一集合。5.根据权利要求4所述的方法,其特征在于,所述基于每个识别结果的打分确定目标输出的识别结果,包括:确定打分最高的识别结果为目标输出的识别结果。6.根据权利要求4所述的方法,其特征在于,所述基于每个识别结果的打分确定目标输出的识别结果,包括:针对所述第一集合中的每个识别结果,将所述识别结果与其对应的打分组成一个元素;基于得到的所有元素形成第二集合;将所述第二集合输入预先训练获得的排序机中,将排序机输出的排序最高的识别结果作为目标输出的识别结果。7.根据权利要求1-6中任一项所述的方法,其特征在于,当所述第一语音识别模型和所述第二语音识别模型均得到多个识别结果时,所述基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果之前,所述方法还包括:确定所述第一语音识别模型得到的多个识别结果中输出频率最高的为第一识别结果;确定所述第二语音识别模型得到的多个识别结果中输出频率最高的为第二识别结果。8.根据权利要求1-6中任一项所述的方法,其特征在于,其特征在于,所述获取在采集获得所述语音信号时所述终端设备所在的第一区域之后,所述方法还包括:显示语音识别的区域条件为第一区域。9.一种语音识别装置,其特征在于,包括:获取模块,用于获取终端设备上搭载的音频...

【专利技术属性】
技术研发人员:韩文辉蒋正翔
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1