设备唤醒相关方法、装置及故事机制造方法及图纸

技术编号:31157821 阅读:20 留言:0更新日期:2021-12-04 09:55
本申请公开了设备唤醒相关系统、方法、装置及设备。其中,所述设备唤醒方法包括:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。采用这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的唤醒性能。高度嘈杂人声干扰下的唤醒性能。高度嘈杂人声干扰下的唤醒性能。

【技术实现步骤摘要】
设备唤醒相关方法、装置及故事机


[0001]本申请涉及自动化控制
,具体涉及设备唤醒系统、方法和装置,语音会议纪要系统、方法和装置,服务启动系统、方法和装置,故事机,智能音箱,以及电子设备。

技术介绍

[0002]近年来随着语音识别技术的进步,具有语音唤醒功能的智能故事机得到了广泛的应用。由于现有声学模型技术无法有效克服泡沫噪声和人声干扰的影响,在高度嘈杂人声干扰下,语音唤醒效果会急剧下降。
[0003]基于麦克风阵列信号处理技术可以大幅度提高信噪比和语音系统的性能。波束形成是一类常用的阵列信号处理算法,具有计算量小,易部署等优点,适用于硬件性能有限的故事机。目前,波束形成技术主要需要语音活动检测(Voice Activity Detection,VAD)来区分噪声与目标声源来提供信息输入。
[0004]然而,在实现本专利技术过程中,专利技术人发现该技术方案至少存在如下问题:传统的VAD在人声噪声下会失效,由此导致严重降低故事机在人声干扰噪声情况下的唤醒性能。综上所述,如何改进波束形成方案,以区分人声噪音和目标声源,从而提高故事机在高度嘈杂人声干扰下的唤醒性能,成为本领域技术人员迫切需要解决的技术问题。

技术实现思路

[0005]本申请提供设备唤醒方法,以解决现有技术存在的在高度嘈杂人声干扰下唤醒性能较低的问题。本申请另外提供设备唤醒系统和装置,语音会议纪要系统、方法和装置,服务启动系统、方法和装置,故事机,智能音箱,以及电子设备。
[0006]本申请提供一种设备唤醒方法,包括:
[0007]确定上一个语音帧的唤醒词概率;
[0008]根据唤醒词概率和上一个语音帧,调整滤波系数;
[0009]根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
[0010]根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。
[0011]可选的,所述确定上一个语音帧的唤醒词概率,包括:
[0012]根据调整前的滤波系数,对上一个语音帧执行语音增强处理;
[0013]确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;
[0014]根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
[0015]可选的,所述根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率,包括:
[0016]将最大的声学概率作为所述唤醒词概率。
[0017]可选的,还包括:
[0018]根据语音帧的采集时间,将各个语音帧顺序存储至缓存队列;
[0019]根据确定所述声学概率的处理时长,从所述缓存队列中读取上一个语音帧。
[0020]可选的,所述根据唤醒词概率和上一个语音帧,调整滤波系数,包括:
[0021]将唤醒词概率作为上一个语音帧的权重,确定目标协方差矩阵和噪声协方差矩阵;
[0022]通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
[0023]可选的,所述上一个语音帧包括:与当前语音帧相邻的语音帧,或者,与当前语音帧不相邻的语音帧。
[0024]可选的,所述语音帧包括通过多个传声器采集的语音帧。
[0025]本申请还提供一种设备唤醒装置,包括:
[0026]唤醒词概率确定单元,用于确定上一个语音帧的唤醒词概率;
[0027]滤波系数调整单元,用于根据唤醒词概率和上一个语音帧,调整滤波系数;
[0028]人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
[0029]唤醒单元,用于根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。
[0030]可选的,所述唤醒词概率确定单元包括:
[0031]语音增强子单元,用于根据调整前的滤波系数,对上一个语音帧执行语音增强处理;
[0032]声学概率确定子单元,用于确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;
[0033]唤醒词概率确定子单元,用于根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
[0034]可选的,所述滤波系数调整单元包括:
[0035]加权子单元,用于将唤醒词概率作为上一个语音帧的权重,根据加权后的上一个语音帧,确定目标协方差矩阵和噪声协方差矩阵;
[0036]滤波系数确定子单元,用于通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
[0037]本申请还提供一种故事机,包括:
[0038]处理器;以及
[0039]存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将故事机调整至唤醒状态。
[0040]本申请还提供一种电子设备,包括:
[0041]处理器;以及
[0042]存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一
个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。
[0043]可选的,所述设备包括:智能音箱,智能电视。
[0044]本申请还提供一种语音会议纪要方法,包括:
[0045]确定上一个语音帧的录音服务启动词概率;
[0046]根据启动词概率和上一个语音帧,调整滤波系数;
[0047]根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
[0048]根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
[0049]可选的,还包括:
[0050]滤除说话时长大于时长阈值的声源。
[0051]本申请还提供一种语音会议纪要装置,包括:
[0052]录音服务启动词概率确定单元,用于确定上一个语音帧的录音服务启动词概率;
[0053]滤波系数调整单元,用于根据启动词概率和上一个语音帧,调整滤波系数;
[0054]人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
[0055]录音单元,用于根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
[0056]本申请还提供一种智能音箱,包括:
[0057]处理器;以及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备唤醒方法,其特征在于,包括:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。2.根据权利要求1所述的方法,其特征在于,所述确定上一个语音帧的唤醒词概率,包括:根据调整前的滤波系数,对上一个语音帧执行语音增强处理;确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。3.根据权利要求2所述的方法,其特征在于,所述根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率,包括:将最大的声学概率作为所述唤醒词概率。4.根据权利要求2所述的方法,其特征在于,还包括:根据语音帧的采集时间,将各个语音帧顺序存储至缓存队列;根据确定所述声学概率的处理时长,从所述缓存队列中读取上一个语音帧。5.根据权利要求1所述的方法,其特征在于,所述根据唤醒词概率和上一个语音帧,调整滤波系数,包括:将唤醒词概率作为上一个语音帧的权重,确定目标协方差矩阵和噪声协方差矩阵;通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。6.根据权利要求1所述的方法,其特征在于,所述上一个语音帧包括:与当前语音帧相邻的语音帧,或者,与当前语音帧不相邻的语音帧。7.根据权利要求1所述的方法,其特征在于,所述语音帧包括通过多个传声器采集的语音帧。8.一种设备唤醒装置,其特征在于,包括:唤醒词概率确定单元,用于确定上一个语音帧的唤醒词概率;滤波系数调整单元,用于根据唤醒词概率和上一个语音帧,调整滤波系数;人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;唤醒单元,用于根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。9.根据权利要求8所述的装置,其特征在于,所述唤醒词概率确定单元包括:语音增强子单元,用于根据调整前的滤波系数,对上一个语音帧执行语音增强处理;声学概率确定子单元,用于确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;唤醒词概率确定子单元,用于根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
10.根据权利要求8所述的装置,其特征在于,所述滤波系数调整单元包括:加权子单元,用于将唤醒词概率作为上一个语音帧的权重,根据加权后的上一个语音帧,确定目标协方差矩阵和噪声协方差矩阵;滤波系数确定子单元,用于通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。11.一种故事机,其特征在于,包括:处理器;以及存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将故事机调整至唤醒状态。12.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。13.一种语音会议纪要方法,其特征在于,包括:确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。14.根据权利要求13所述的方法,其特征在于,还包括:滤除说话时长大于时长阈值的声源。15.一种语音会议纪要装置,其特征在于,包括:录音服务启动词概率确定单元,用于确定上一个语音帧的录音服务启动词概率;滤波系数调整单元,用于根据启动词概率和上一个语音帧,调整滤波系数;人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;录音单元,用于根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。16.一种智能音箱,其特征在于,包括:处理器;以及存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,
以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。17.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。18.一种服务启动方法,其特征在于,包括:确定上一个语音帧的目标服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。19.一种服务启动装置,其特征在于...

【专利技术属性】
技术研发人员:刘章田彪李昀王子腾纳跃跃
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1