一种语音唤醒的判断方法、装置及电子设备制造方法及图纸

技术编号:22469281 阅读:27 留言:0更新日期:2019-11-06 12:20
本申请公开了一种语音唤醒的判断方法、装置及电子设备,包括,获取输入语音,第一模型根据所述输入语音判断是否唤醒;若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段;将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。所述语音唤醒的判断方法、装置及电子设备,在第一次判断结果为唤醒时,截取唤醒语音段,再根据唤醒语音段的语谱图进一步判断是否唤醒,过程中进行了两层判断,且第二次判断依据直接有效的唤醒语音段,因此能够排除一些环境因素可能引起的误唤醒,提升设备的唤醒性能。

A judgment method, device and electronic equipment of voice wake-up

【技术实现步骤摘要】
一种语音唤醒的判断方法、装置及电子设备
本专利技术涉及数据处理技术,更具体的说,是涉及一种语音唤醒的判断方法、装置及电子设备。
技术介绍
语音唤醒是人机交互的一个入口,目前越来越多的智能设备将语音唤醒技术作为产品的基础配置技术。现有的唤醒技术主要包括两类,一是直接建立端到端的模型,其原理是在对大量语音进行特征提取后,将提取特征输入神经网络得到每一帧语音的后验概率,在后验概率大于阈值时确定唤醒;二是基于隐马尔科夫模型的结构,通过维特比算法获取最优路径判断是否唤醒。然而,上述唤醒技术的唤醒性能有限,且易受环境、相近词等因素影响造成误唤醒。
技术实现思路
有鉴于此,本专利技术提供了一种语音唤醒方法、装置及电子设备,以克服现有技术中唤醒技术的唤醒性能有限且误唤醒率较高的问题。为实现上述目的,本专利技术提供如下技术方案:一种语音唤醒的判断方法,包括:获取输入语音;第一模型根据所述输入语音判断是否唤醒;若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段;将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。可选的,所述返回唤醒长度,确定唤醒语音段,包括:确定所述输入语音中每一帧音素的后验概率;基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件;若满足,记录唤醒时间点;确定唤醒词的起始时间点;基于所述唤醒时间点和所述起始时间点确定唤醒长度,并确定唤醒语音段。可选的,所述确定唤醒词的起始时间点,包括:确定所述唤醒时间点前预设时间内的唤醒词的第一个字的各个音素在所述唤醒语音段的每一帧中的后验概率;以帧为单位,将所述第一个字的各个音素的后验概率相加,得到所述第一个字的各个音素在每一帧中的概率和;确定概率和最大值对应的第一帧数;将所述第一帧数对应的时间点加上预设的修正值得到起始时间点。可选的,在所述基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件前,还包括:对所述每一帧音素的后验概率进行平滑处理。可选的,所述将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,包括:对所述唤醒语音段做短时傅里叶变换;基于变换后的语音信息,以分贝为单位计算每个时间点的频谱能量密度;对所有的频谱能量密度进行归一化处理,得到所述唤醒语音段的语谱图;将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果。可选的,所述依据大量唤醒语音段的语谱图训练得到的二分类网络模型的训练过程包括:将语谱图作为特征建立卷积神经网络;基于所述卷积神经网络,利用反向传播原理和交叉熵原理,训练得到二分类网络模型。可选的,所述第一模型根据所述输入语音判断是否唤醒,包括:第一模型根据所述输入语音中各个音素的后验概率的乘积与预设值的比较结果判断是否唤醒。可选的,所述第一模型为基于隐马尔科夫模型的结构模型,所述第一模型根据所述输入语音判断是否唤醒,包括:基于所述结构模型,通过维特比算法获取所述输入语音的最优路径;基于所述最优路径判断是否唤醒。一种语音唤醒的判断装置,包括:语音获取模块,用于获取输入语音;第一判断模块,用于基于第一模型根据所述输入语音判断是否唤醒;语音截取模块,用于在所述第一判断模块的判断结果为是时,返回唤醒长度,确定唤醒语音段;第二判断模块,用于将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述可执行指令包括:第一模型根据输入语音判断是否唤醒;若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段;将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。经由上述的技术方案可知,与现有技术相比,本专利技术实施例公开了一种语音唤醒的判断方法、装置及电子设备,包括,获取输入语音,第一模型根据所述输入语音判断是否唤醒;若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段;将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。所述语音唤醒的判断方法、装置及电子设备,在第一次判断结果为唤醒时,截取唤醒语音段,再根据唤醒语音段的语谱图进一步判断是否唤醒,过程中进行了两层判断,且第二次判断依据直接有效的唤醒语音段,因此能够排除一些环境因素可能引起的误唤醒,提升设备的唤醒性能。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例公开的一种语音唤醒的判断方法的流程图;图2为本专利技术实施例公开的截取唤醒语音段的流程图;图3为本专利技术实施例公开的确定唤醒词的起始时间的流程图;图4为本专利技术实施例公开的第二模型判断唤醒结果的流程图;图5为本专利技术实施例公开的语音唤醒的判断装置的结构示意图;图6为本专利技术实施例公开的语音截取模块的结构示意图;图7为本专利技术实施例公开的时间点确定模块的结构示意图;图8为本专利技术实施例公开的第二判断模块的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例公开的一种语音唤醒的判断方法的流程图,参见图1所示,语音唤醒的判断方法可以包括:步骤101:获取输入语音。所述输入语音可以由电子设备上的语音采集装置采集获取,如话筒、麦克风;所述输入语音来自于用户。步骤102:第一模型根据所述输入语音判断是否唤醒。其中,所述第一模型可以是现有的用于判断是否唤醒的模型,例如,端对端模型,在端对端模型的判断技术中,输入语音输出是否唤醒的结果,主要可以分为三步:1、特征提取;2、输入神经网络得到每一帧音素的后验概率;3、对后验概率进行平滑处理,后验概率经过一定处理后超过一定阈值认为唤醒。基于上述内容,所述第一模型根据所述输入语音判断是否唤醒,可以包括:第一模型根据所述输入语音中各个音素的后验概率的乘积与预设值的比较结果判断是否唤醒。当然,这只是第一模型根据输入语音判断是否唤醒的一种实现,具体对后验概率如何处理,将处理后的后验概率与什么数值做什么样的比较,可以有多种实现,只需要保证配置的判断条件符合实际情况即可。当然,所述第一模型也可以是基于隐马尔科夫模型的结构,该结构可以用来判断是否唤醒。在所述第一模型为基于隐马尔科夫模型的结构模型时,所述第一模型根据所述输入语音判断是否唤醒,可以包括:基于所述结构模型,通过维特比算法获取所述输入语音的最优路径;基于所述最优路径判断是否唤醒。步骤103:若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段。在所述第一模型的判断结果为唤醒的情况下,返回唤醒长度,确定唤醒语音段,所述唤醒语音段即为包括完整唤醒词的语音段。在确定唤醒本文档来自技高网...

【技术保护点】
1.一种语音唤醒的判断方法,其特征在于,包括:获取输入语音;第一模型根据所述输入语音判断是否唤醒;若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段;将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。

【技术特征摘要】
1.一种语音唤醒的判断方法,其特征在于,包括:获取输入语音;第一模型根据所述输入语音判断是否唤醒;若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段;将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型。2.根据权利要求1所述的语音唤醒的判断方法,其特征在于,所述返回唤醒长度,确定唤醒语音段,包括:确定所述输入语音中每一帧音素的后验概率;基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件;若满足,记录唤醒时间点;确定唤醒词的起始时间点;基于所述唤醒时间点和所述起始时间点确定唤醒长度,并确定唤醒语音段。3.根据权利要求2所述的语音唤醒的判断方法,其特征在于,所述确定唤醒词的起始时间点,包括:确定所述唤醒时间点前预设时间内的唤醒词的第一个字的各个音素在所述唤醒语音段的每一帧中的后验概率;以帧为单位,将所述第一个字的各个音素的后验概率相加,得到所述第一个字的各个音素在每一帧中的概率和;确定概率和最大值对应的第一帧数;将所述第一帧数对应的时间点加上预设的修正值得到起始时间点。4.根据权利要求2所述的语音唤醒的判断方法,其特征在于,在所述基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件前,还包括:对所述每一帧音素的后验概率进行平滑处理。5.根据权利要求1所述的语音唤醒的判断方法,其特征在于,所述将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,包括:对所述唤醒语音段做短时傅里叶变换;基于变换后的语音信息,以分贝为单位计算每个时间点的频谱能量密度;对所有的频谱能量密度进行归一化处理,得到所述唤醒语音段的语谱图;...

【专利技术属性】
技术研发人员:陈孝良靳源冯大航常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1