语音唤醒方法和装置制造方法及图纸

技术编号:29618152 阅读:15 留言:0更新日期:2021-08-10 18:38
本发明专利技术公开语音唤醒方法和装置,其中,一种语音唤醒方法,用于主设备,包括:响应于获取的第一音频信息中包含唤醒词,进入预唤醒状态;基于获取的第一音频信息和与第一音频信息对应的第一视频信息计算并融合得到第一音视频指标;接收从设备反馈的至少一个第二音视频指标;比较第一音视频指标和第二音频指标并基于比较结果确定响应设备,使响应设备进入唤醒状态以与所述用户进行语音交互。通过计算融合第一音频指标和第一视频指标并接受从设备发送的融合后的第二音视频指标,判断每一设备计算融合的音视频指标之间的值判定距离用户最近的设备,从而可以准确的就近唤醒设备,保证数据传输的安全性和降低数据传输的延时性。

【技术实现步骤摘要】
语音唤醒方法和装置
本专利技术属于语音唤醒
,尤其涉及语音唤醒方法和装置。
技术介绍
基本场景描述:在智能家居的解决方案中,存在多个具备语音唤醒功能的家居智能设备,当用户说出指定的唤醒词时,可能存在多个设备同时响应用户的应答的情况,而用户仅希望距离自己最近且正对的设备响应自己的需求。就近唤醒就是面对这样的场景需求而衍生出的一种技术方案。目前已知的方案主要基于语音技术的就近唤醒方案、基于距离传感器的就近唤醒方案和基于多类特征数据的就近唤醒方案。其中,基于语音技术的就近唤醒方案:随着智能语音技术的发展与普及,在某些智能音箱助手上已经出现了就近唤醒的功能,即距离用户越近的设备,才能够响应用户的需求(或指令)。例如目前市面上现有的亚马逊音箱产品以及国内的小爱同学音箱,均通过采集用户的语音信息来进行处理并判断哪一台设备距离用户最近;首先,常见的唤醒技术都是基于语音来进行的,因此利用语音处理技术来额外地判断说话人的距离,是一种相对低成本的方案。用户说出特定的唤醒词,当多台设备各自检测到唤醒词之后,会将包含唤醒词的音频进一步处理,进而得出与距离相关的语音指标。通过比较同一网络中不同设备的语音指标值,来决策出离用户最近的设备,进而只有唯一一台的设备响应用户的需求;首先,由于语音技术仅通过语音来判断用户距离设备的远近,因此在一些复杂的家居场景,如多人聊天场景、音箱电视播放大音量的场景等,相应的效果就会大打折扣;其次,用户不同的声音响度、音色等,均可能影响到语音指标的计算;最后,不同的设备选择的麦克风型号不同,虽然语音处理技术一定程度上可以改善这样的差异,但却无法做到所有设备的一致性,因此在进行比较的时候,仍存在误判的可能性。基于距离传感器的就近唤醒方案:基于传统主动式的距离探测方案,如采用超声波、雷达等声波技术,在设备被成功唤醒之后,可利用此类传感器主动探测前方用户的距离,进而依据距离直接判断距离用户最近的设备,进而进行下一步的语音交互;用于短距离测量的传感器相对较多,如红外、超声波、雷达等,同语音技术的就近唤醒方案相似,当多台设备各自检测到唤醒词之后,会立即触发距离传感器进行工作,依据计算得出的距离值,在同一网络中比较距离用户最近的设备,进而让唯一一台设备响应用户的需求;其中,距离传感器,当用到就近唤醒的方案中时,由于其仅具备测量距离的功能,因此仅通过该方法并不能够判断用户是正对着设备还是背对着设备,而用户期望的是用户正对着的设备来响应用户的需求;其次,该类传感器在测量较大物体或是平面时,其计算出来的距离相对准确,精度也相对较高,而对于像人体这样的不规则表面,由于反射回来信号的差异性,会影响实际的距离测量。基于多类特征数据的就近唤醒方案:基于多类特征数据的就近唤醒方案,主要就是依赖于本地设备中采集的多类距离特征数据,将其直接送至上层通信网络中进行决策,以此来判断用户与哪一个本地设备距离最近;在语音唤醒之后,采集此时与距离相关的特征数据,再将所有本地的特征数据上传至服务器,通过服务器来进行综合决策;基于多类特征数据的就近方案,其将采集到的本地特征数据直接送至服务器进行决策判断,一方面,由于多类数据对网络带宽的依赖性较强,如图像数据需要较高的带宽,因此直接传送多类特征数据会带来极大的时延,最终影响用户体验;另一方面,多类特征数据直接上传至服务器进行决策,会带来多余的冗余信息,不便于上层的决策。
技术实现思路
本专利技术实施例提供一种语音唤醒方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种语音唤醒方法,用于主设备,包括:响应于获取的第一音频信息中包含唤醒词,进入预唤醒状态,其中,在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力;基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标;接收从设备反馈的至少一个第二音视频指标;比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备,使所述响应设备进入唤醒状态以与所述用户进行语音交互。第二方面,本专利技术实施例提供一种语音唤醒方法,用于从设备,包括:响应于获取的第二音频信息中包含唤醒词,进入预唤醒状态;基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标;将所述第二音视频指标经由局域网发送给主设备接收。第三方面,本专利技术实施例提供一种语音唤醒装置,用于主设备,包括:第一预唤醒程序模块,配置为响应于获取的第一音频信息中包含唤醒词,进入预唤醒状态,其中,在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力;第一计算融合程序模块,配置为基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标;接受程序模块,配置为接收从设备反馈的至少一个第二音视频指标;比较唤醒程序模块,配置为比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备,使所述响应设备进入唤醒状态以与所述用户进行语音交互。第四方面,本专利技术实施例提供一种语音唤醒装置,用于从设备,包括:第二预唤醒程序模块,配置为响应于获取的第二音频信息中包含唤醒词,进入预唤醒状态;第二计算融合程序模块,配置为基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标;发送程序模块,配置为将所述第二音视频指标经由局域网发送给主设备接收。第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的语音唤醒方法的步骤。第六方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的语音唤醒方法的步骤。本申请的方法和装置通过在预唤醒状态下计算融合第一音频指标和第一视频指标并接受从设备发送的融合后的第二音视频指标,判断每一设备计算融合的音视频指标之间的值判定距离用户最近的设备,从而可以更加准确的就近唤醒设备,同时还能够保证数据传输的安全性和降低数据传输的延时性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种语音唤醒方法的流程图,用于主设备;图2为本专利技术一实施例提供的另一种语音唤醒方法的流程图;图3为本专利技术一实施例提供的又一种语音唤醒方法的流程图;图4为本专利技术一实施例提供的一种语音唤醒方法的流程图,用于从设备;图5为本专利技术一实施例提供的语本文档来自技高网
...

【技术保护点】
1.一种语音唤醒方法,用于主设备,包括:/n响应于获取的第一音频信息中包含唤醒词,进入预唤醒状态,其中,在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力;/n基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标;/n接收从设备反馈的至少一个第二音视频指标;/n比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备,使所述响应设备进入唤醒状态以与所述用户进行语音交互。/n

【技术特征摘要】
1.一种语音唤醒方法,用于主设备,包括:
响应于获取的第一音频信息中包含唤醒词,进入预唤醒状态,其中,在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力;
基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标;
接收从设备反馈的至少一个第二音视频指标;
比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备,使所述响应设备进入唤醒状态以与所述用户进行语音交互。


2.根据权利要求1所述的方法,其中,所述响应于获取的第一音频信息中包含唤醒词,进入预唤醒状态包括:
响应于获取的第一音频信息,判断所述第一音频信息是否包含唤醒词;
若包含唤醒词,所述主设备开启预唤醒状态。


3.根据权利要求1所述的方法,其中,所述基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标,包括:
将所述第一音频信息进行音频距离计算处理获取第一音频指标,并将与所述第一音频信息对应的第一视频信息进行图像距离计算获取第一视频指标;
基于所述第一音频指标和所述第一视频指标融合处理得到第一音视频指标。


4.根据权利要求3所述的方法,其中,所述基于所述第一音频指标和所述第一视频指标融合处理得到第一音视频指标包括:
利用数据加权和/或人工神经网络方法将所述第一语音指标和所述第一视频指标进行融合处理得到第一音视频指标。


5.一种语音唤醒方法,用于从设备,包括:
响应于获取的第二音频信息中包含唤醒词,进入预唤醒状态;
基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标;

【专利技术属性】
技术研发人员:徐超
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1