语音识别方法、装置及存储介质制造方法及图纸

技术编号:19429791 阅读:32 留言:0更新日期:2018-11-14 11:29
本发明专利技术公开了一种语音识别方法、装置及存储介质,属于语音处理技术领域。所述方法包括:采集待识别的目标语音,获取该目标语音的声学特征。调用目标识别模型,将该声学特征输入至该目标识别模型中,输出该目标语音对应的行为意图标签,该目标识别模型用于根据任一语音的声学特征识别该语音对应的行为意图。在本发明专利技术实施例中,无论是标准语音还是非标准语音,均可以基于声学特征通过目标识别模型识别出对应的行为意图,增强了语音识别的适用性。

【技术实现步骤摘要】
语音识别方法、装置及存储介质
本专利技术实施例涉及语音处理
,特别涉及一种语音识别方法、装置及存储介质。
技术介绍
目前,语音识别技术得到了广泛的应用。譬如,用户在使用终端的过程中,可以利用语音识别技术来控制终端,如,控制终端开启摄像头等。在相关技术中,终端采集到用户输入的语音后,将该语音发送给语音转化服务器,该语音转化服务器可以将该语音转化为文本的形式,之后,将转化后的文本发送给该终端。该终端接收到该文本后,可以再将该文本发送给语义识别服务器,由该语义识别服务器对该文本进行语义识别,并将该识别结果反馈给该终端。如此,终端即可基于该识别结果,执行对应的操作。然而,在上述实现过程中,只能对标准的语音进行识别,也就是说,只能对普通话进行语音识别,语音识别的适用性较差。
技术实现思路
本专利技术实施例提供了一种语音识别方法、装置及存储介质,可以解决相关技术中语音识别的适用性较差的问题。所述技术方案如下:第一方面,提供了一种语音识别方法,所述方法包括:采集待识别的目标语音;获取所述目标语音的声学特征;调用目标识别模型,将所述声学特征输入至所述目标识别模型中,输出所述目标语音对应的行为意图标签,所述目标识别模型用于根据任一语音的声学特征识别所述语音对应的行为意图。可选地,所述调用目标识别模型之前,还包括:获取至少一个语音训练样本的声学特征和每个语音训练样本对应的行为意图标签;基于所述至少一个语音训练样本的声学特征和所述每个语音训练样本对应的行为意图标签,对待训练的识别模型进行训练,得到所述目标识别模型。可选地,获取每个语音训练样本对应的行为意图标签,包括:获取至少一个语音;确定所述至少一个语音中每个语音对应的行为操作;生成每个行为操作对应的行为意图标签;将所述至少一个语音确定为所述至少一个语音训练样本,以及将生成的每个行为意图标签确定为对应的语音训练样本的行为意图标签。可选地,所述获取至少一个语音之前,还包括:根据所述每个语音的声纹特征,查询所述至少一个语音是否均来自目标用户,所述目标用户是指与所述第一终端具有关联关系的用户;当所述至少一个语音均来自所述目标用户时,执行所述获取至少一个语音的操作。可选地,所述根据所述每个语音的声纹特征,查询所述至少一个语音是否均来自目标用户,包括:确定所述每个语音的声纹特征与预设声纹特征之间的差异值;当所述每个语音的声纹特征与所述预设声纹特征之间的差异值均小于预设阈值时,确定所述至少一个语音均来自所述目标用户。可选地,所述基于所述至少一个语音训练样本的声学特征和所述每个语音训练样本对应的行为意图标签,对待训练的识别模型进行训练,得到所述目标识别模型之后,还包括:向第二终端分享所述目标识别模型,所述第二终端是指与所述第一终端具有关联关系的终端。第二方面,提供了一种语音识别装置,所述装置包括:采集模块,用于采集待识别的目标语音;第一获取模块,用于获取所述目标语音的声学特征;调用模块,用于调用目标识别模型,将所述声学特征输入至所述目标识别模型中,输出所述目标语音对应的行为意图标签,所述目标识别模型用于根据任一语音的声学特征识别所述语音对应的行为意图。可选地,所述装置还包括:第二获取模块,用于获取至少一个语音训练样本的声学特征和每个语音训练样本对应的行为意图标签;训练模块,用于基于所述至少一个语音训练样本的声学特征和所述每个语音训练样本对应的行为意图标签,对待训练的识别模型进行训练,得到所述目标识别模型。可选地,所述第二获取模块用于:获取至少一个语音;确定所述至少一个语音中每个语音对应的行为操作;生成每个行为操作对应的行为意图标签;将所述至少一个语音确定为所述至少一个语音训练样本,以及将生成的每个行为意图标签确定为对应的语音训练样本的行为意图标签。可选地,所述第二获取模块还用于:根据所述每个语音的声纹特征,查询所述至少一个语音是否均来自目标用户,所述目标用户是指与所述第一终端具有关联关系的用户;当所述至少一个语音均来自所述目标用户时,执行所述获取至少一个语音的操作。可选地,所述第二获取模块还用于:确定所述每个语音的声纹特征与预设声纹特征之间的差异值;当所述每个语音的声纹特征与所述预设声纹特征之间的差异值均小于预设阈值时,确定所述至少一个语音均来自所述目标用户。可选地,所述装置还包括:分享模块,用于向第二终端分享所述目标识别模型,所述第二终端是指与所述第一终端具有关联关系的终端。第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述第一方面所述的语音识别方法。第四方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的语音识别方法。第五方面,提供了一种计算设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述第一方面所述的语音识别方法。本专利技术实施例提供的技术方案带来的有益效果是:采集待识别的目标语音,获取该目标语音的声学特征。调用目标识别模型,由于该目标识别模型可以根据任一语音的声学特征识别该语音对应的行为意图,因此,将获取的该声学特征输入至该目标识别模型后,可以输出该目标语音对应的行为意图标签。在本专利技术实施例中,无论是标准语音还是非标准语音,均可以基于声学特征通过目标识别模型识别出对应的行为意图,增强了语音识别的适用性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据一示例性实施例示出的一种语音识别方法的流程图;图2是根据另一示例性实施例示出的一种语音识别方法的流程图;图3是根据一示例性实施例示出的一种语音识别装置的结构示意图;图4是根据另一示例性实施例示出的一种语音识别装置的结构示意图;图5是根据另一示例性实施例示出的一种语音识别装置的结构示意图;图6是根据另一示例性实施例示出的一种终端600的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。在对本专利技术实施例提供的语音识别方法进行详细描述之前,先对本专利技术实施例所涉及的应用场景和实施环境进行简单介绍。首先,对本专利技术实施例涉及的应用场景进行简单介绍。在一些应用场景中,为了提高操作的便捷性,有通过语音来控制终端的需求,譬如,该应用场景包括但不限于家居、车载等环境。在通过语音控制终端的过程中,为了能够获知语音对应的行为意图,需要进行语音识别。目前,在语音识别过程中,需要将待识别的语音转化为文本,再对转化后的文本进行语义识别。然而,在上述实现过程中,只能对标准语音进行文本转化和语义识别,无法对非标准语音(如方言)进行识别,从而导致语音识别的适用性较差。为此,本专利技术实施例提供了一种语音识别方法,该语音识别方法可以基于语音的声学特征通过目标识别模型来识别对应的行为意图,由于该方法无需识别语义,因此,无论是标准语音还是非标准语音,均可以实现语音识别,增加了语音识别的适用性,其具体实现过程请参见如下本文档来自技高网...

【技术保护点】
1.一种语音识别方法,应用于第一终端中,其特征在于,所述方法包括:采集待识别的目标语音;获取所述目标语音的声学特征;调用目标识别模型,将所述声学特征输入至所述目标识别模型中,输出所述目标语音对应的行为意图标签,所述目标识别模型用于根据任一语音的声学特征识别所述语音对应的行为意图。

【技术特征摘要】
1.一种语音识别方法,应用于第一终端中,其特征在于,所述方法包括:采集待识别的目标语音;获取所述目标语音的声学特征;调用目标识别模型,将所述声学特征输入至所述目标识别模型中,输出所述目标语音对应的行为意图标签,所述目标识别模型用于根据任一语音的声学特征识别所述语音对应的行为意图。2.如权利要求1所述的方法,其特征在于,所述调用目标识别模型之前,还包括:获取至少一个语音训练样本的声学特征和每个语音训练样本对应的行为意图标签;基于所述至少一个语音训练样本的声学特征和所述每个语音训练样本对应的行为意图标签,对待训练的识别模型进行训练,得到所述目标识别模型。3.如权利要求2所述的方法,其特征在于,获取每个语音训练样本对应的行为意图标签,包括:获取至少一个语音;确定所述至少一个语音中每个语音对应的行为操作;生成每个行为操作对应的行为意图标签;将所述至少一个语音确定为所述至少一个语音训练样本,以及将生成的每个行为意图标签确定为对应的语音训练样本的行为意图标签。4.如权利要求3所述的方法,其特征在于,所述获取至少一个语音之前,还包括:根据所述每个语音的声纹特征,查询所述至少一个语音是否均来自目标用户;当所述至少一个语音均来自所述目标用户时,执行所述获取至少一个语音的操作。5.如权利要求4所述的方法,其特征在于,所述根据所述每个语音的声纹特征,查询所述至少一个语音是否均来自目标用户,包括:确定所述每个语音的声纹特征与预设声纹特征之间的差异值;当所述每个语音的声纹特征与所述预设声纹特征之间的差异值均小于预设阈值时,确定所述至少一个语音均来自所述目标用户。6.如权利要求2所述的方法,其特征在于,所述基于所述至少一个语音训练样本的声学特征和所述每个语音训练样本对应的行为意图标签,对待训练的识别模型进行训练,得到所述目标识别模型之后,还包括:向第二终端分享所述目标识别模型,所述第二终端是指与所述第一终端具有关联关系的终端。7.一种语音识别装置,应用于第一终端中,其特征在于,所述装置包括:采集模块,用于采集待识别的目标语音;第一获取模块,用于...

【专利技术属性】
技术研发人员:李国华戴帅湘
申请(专利权)人:北京小蓦机器人技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1