语音唤醒方法及语音交互装置制造方法及图纸

技术编号:14708282 阅读:83 留言:0更新日期:2017-02-26 00:18
本发明专利技术实施例提供一种语音唤醒方法及语音交互装置,其中,该方法包括:接收语音输入信号;根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;若超过,则根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,若超过,则唤醒语音交互功能,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度。本发明专利技术实施例提供的语音唤醒方法及语音交互装置能够兼顾低功耗功耗和低误唤醒率的需求。

【技术实现步骤摘要】

本专利技术实施例涉及语音识别
,尤其涉及一种语音唤醒方法及语音交互装置
技术介绍
随着语音识别技术的飞速发展,语音交互的应用场景越来越普遍,智能电视,智能车载,智能家居,智能机器人都是语音交互应用的主要应用场景,同时由于人机交互对于用户体验的要求越来越高,人机语音对话的距离也越来越不局限于近讲(50cm以内)。现在通过多麦克风技术,已经能够实现3-5米内的远距离语音交互。与此同时,远距离语音交互还存在一个问题,就是什么时候开始触发语音收音并且开始识别。目前的技术方案有两种,一种是用一颗低功耗芯片,一直通过麦克风阵列收音,做相应的信号处理后(信号增强,噪声抑制,回声消除),然后再做语音识别,判断用户是否说出唤醒词,如果说了,则通知主模块,开始收音并进行语音识别,还有一种方式是前端的模块只做信号处理,由主模块来一直收音,并做语音识别来判断用户是否说出唤醒词,但是这两种方式都有弊端,前一种方式由于前端处理模块要求低功耗,所以识别性能相对来说会较低,同时误唤醒率也会较高;而后一种方案的问题是主芯片模块需要一直全速运行,功耗会比较大,并且由于对主芯片模块的要求比较高,方案的成本也比较高。目前尚无兼顾功耗和误唤醒率的方案。
技术实现思路
本专利技术实施例提供一种语音唤醒方法及语音交互装置,用以解决现有技术无法兼顾功耗和误唤醒率的问题。本专利技术实施例第一方面提供一种语音唤醒方法,该方法包括:接收语音输入信号;根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;若超过,则根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;若超过,则唤醒语音交互功能。本专利技术实施例第二方面提供一种语音交互装置,该装置包括:接收模块,用于接收语音输入信号;第一确定模块,用于根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;第二确定模块,用于在所述第一相似度超过所述第一预设阈值时,根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;唤醒模块,用于当所述第二相似度超过第二预设阈值时,唤醒语音交互功能。本专利技术实施例,首先通过准确度较低的第一声学模型对语音输入信号进行初步的语音唤醒识别,当识别出语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时,再通过准确度较高第二声学模型对语音输入信号进行第二次语音唤醒识别,从而根据第二次识别的结果,确定是否唤醒语音交互功能。由于在第一次识别过程中,采用的是准确度较低的声学模型,因此,第一次识别过程中的功耗较低。而只有当第一次识别通过,即语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时,才启用准确度较高的第二声学模型进行第二次唤醒识别。这样通过将准确度较低的声学模型和准确度较高的声学模型结合使用,避免了低准确度声学模型单独使用时,唤醒识别准确率较低,误唤醒率较高的问题,同时也能避免高准确度声学模型单独使用时,功耗较高的问题,进而达到了兼顾功耗和低误唤醒率的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的语音唤醒方法的流程示意图;图2为本专利技术一实施例提供的语音交互装置的架构图;图3为本专利技术一实施例提供的语音交互装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。图1为本专利技术一实施例提供的语音唤醒方法的流程示意图,该方法可以由诸如智能电视,智能车载,智能家居,智能机器人等具有语音交互功能的语音交互装置来执行。如图1所示,本实施例提供的方法包括如下步骤:步骤S101、接收语音输入信号。实际应用中,语音交互装置可以通过设置在其上的麦克风阵列来接收用户或终端设备输入的语音信号,并在接收到语音信号后通过时间延迟补偿来确保接收到的语音信号的完整性,避免由于漏掉部分语音信号,而对唤醒判断造成影响。进一步的,在获得完整的语音信号后通过对该语音信号进行预处理来获得本实施例所称的“语音输入信号”。具体的,在预处理过程中,至少要对语音信号进行噪声抑制处理、回声消除处理和声音增强处理,其中,上述处理与现有技术中语音处理过程类似,在这里不再赘述。步骤S102、根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值,若未超过,则结束本次唤醒操作,若超过,则执行步骤S103。其中,该第一预设阈值可以由用户根据实际需求自定义设置,也可以由终端设备默认设置,本专利技术实施例对此不作限定。特别的,本实施例中提供的语音唤醒方法包括两次判别过程,其中,第一次判断过程,可以通过一DSP模块来执行。在第一次判断过程中,首先从步骤S101中获得的语音输入信号中,提取特征信号。例如,可以通过提取语音输入信号的梅尔频率倒谱系数的方式来获取特征信号,此过程与现有技术相同,在这里不再赘述。进一步的,在实际应用中,可以在DSP模块中内置一个简单的声学模型,通过将该声学模型对上述获得的特征信号做解码处理,并采用最大似然比计算来判断特征信号和唤醒语音信号之间的相似度,其基本原理为,将特征信号中的每个特征点和声学模型里预设唤醒语音信号的每个特征点进行相似度比较,然后将所有的点综合得出一个极大似然值,公式为:其中,xi是特征信号中第i个特征点的样本值,μ为模型中的值,θ为需要计算得出的极大似然值,通过这个极大似然值来计算当前语音输入信号与预设的唤醒语音信号之间的相似度。其中,当计算获得的相似度大于预设第一阈值时,则开启第二次唤醒判断,否则结束唤醒操作。本实施例中,DSP模块对语音输入信号进行第一次唤醒判断的过程与现有技术类似,这里不再赘述。这里需要说明的是,由于第一次唤醒判断过程采用的是较简单的声学模型,因此,对DSP模块的要求较低,DSP模块的功耗较低。当然上述仅为示例说明,而不是对本专利技术的唯一限定,例如,在实际应用中也可以采用数据包窗口DTW的方法来计算两段语音的相似度,但是其最大的问题是语音的发音风格不同会严重影响语音的识别率。步骤S103、根据第二声学模型,确定所述语音输入信号和预设的本文档来自技高网...
语音唤醒方法及语音交互装置

【技术保护点】
一种语音唤醒方法,其特征在于,包括:接收语音输入信号;根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;若超过,则根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;若超过,则唤醒语音交互功能。

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:接收语音输入信号;根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;若超过,则根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;若超过,则唤醒语音交互功能。2.根据权利要求1所述的方法,其特征在于,所述第二预设阈值大于所述第一预设阈值。3.根据权利要求2所述的方法,其特征在于,所述根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,包括:从所述语音输入信号中,提取特征信号;根据第一声学模型和所述特征信号,确定所述特征信号和预设的唤醒语音信号之间的第一极大似然值;根据所述第一极大似然值,确定所述语音输入信号与预设的唤醒语音信号之间的第一相似度。4.根据权利要求3所述的方法,其特征在于,当所述第一相似度超过所述第一预设阈值时,所述根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,包括:根据所述第二声学模型,确定所述特征信号中发音单元与其前和/或后发音单元之间的第一转移概率,以及对应的所述唤醒语音信号中发音单元与其前和/或后发音单元之间的第二转移概率;根据所述第一转移概率和所述第二转移概率,确定所述特征信号和所述唤醒语音信号之间的第二相似度。5.根据权利要求1~4任一项所述的方法,其特征在于,所述第一声学模型设置在DSP模块中,所述的第二声学模型设置在主芯片处理模块中。6....

【专利技术属性】
技术研发人员:杨香斌
申请(专利权)人:海信集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1