一种语音人机交互方法、装置制造方法及图纸

技术编号:38467796 阅读:9 留言:0更新日期:2023-08-11 14:44
本申请公开了一种语音人机交互方法、装置,该方法包括:获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前允许的指令词集根据被控设备的当前运行状态确定,利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,根据校验结果,确定是否执行当前指令,并将当前指令信息作为本次交互信息予以记录。本申请实现了免唤醒词的情形下可靠地进行交互。行交互。行交互。

【技术实现步骤摘要】
一种语音人机交互方法、装置


[0001]本专利技术涉及智能家居领域,特别地,涉及一种语音人机交互方法、装置。

技术介绍

[0002]随着语音识别、关键词识别技术的发展,现在电子智能设备已经基本具备语音人机交互的能力,但是当前语音人机交互都需要先进行唤醒确认,才能执行语音下达的指令。
[0003]参见图1所示,图1为现有的需要唤醒词唤醒之后方执行指令的一种流程示意图。智能设备检测是否接收到语音,在检测到语音的情形下,识别所检测语音中的唤醒词,如果唤醒词正确,则获取语音中所包含的指令内容,在指令内容被正确识别的情形下,执行指令,当上述任一步骤失败时,都不会有指令被执行。
[0004]由此可见,现有的语音人机交互过程中,唤醒词、指令内容都必须被识别方能进行交互。例如市面上已有的智能音箱,都需要先喊出唤醒词,如:“XX精灵”、“XX同学”等,每次交互都需要按此格式进行,一旦唤醒词不正确,则不会生成进一步的响应,这样的人机交互方式比较繁琐,用户体验不佳。

技术实现思路

[0005]本专利技术提供了一种语音人机交互方法,即使无唤醒词也能正确地实现期望的人机交互。
[0006]本申请第一方面提供一种语音人机交互方法,该方法包括:获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,其中,当前语音信号中不包括任一唤醒词,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前允许的指令词集根据被控设备的当前运行状态确定,利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,根据校验结果,确定是否执行当前指令。
[0007]较佳地,所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:以当前指令信息为搜索依据,搜索历史交互信息中与当前指令信息相同的历史指令信息,利用所搜索到的历史指令信息的历史执行时长,对当前指令信息进行校验,得到第一校验结果;所述根据校验结果,确定是否执行当前指令,包括:根据第一校验结果,确定是否执行当前指令,将当前指令信息作为本次交互信息予以记录;所述将当前指令信息作为本次交互信息予以记录,包括:
将当前指令信息、以及当前指令的执行结果作为本次交互信息予以记录,其中,当前指令的执行结果至少包括:当前指令被执行的情况下的执行时长;所述执行时长根据本次交互所执行指令与上一次交互所执行指令之间的时间间隔确定。
[0008]较佳地,所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息的当前状态信息进行校验,得到第二校验结果;所述根据校验结果,确定是否执行当前指令,包括:根据第一校验结果和第二校验结果的投票结果,确定是否执行当前指令,并将当前运行状态作为本次交互信息予以记录。
[0009]较佳地,所述在检测到语音的情形下,进一步包括:对所述当前语音信号进行声源定位,得到当前声源定位信息;和/或获取当前语音信号的当前声纹信息;所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息进行校验,得到第三校验结果;和/或利用所搜索到的历史指令信息对应的历史声纹信息,对当前指令信息进行校验,得到第四校验结果;所述根据校验结果,确定是否执行当前指令,包括:根据各校验结果的投票结果,确定是否执行当前指令,将当前声源定位信息和/或当前声纹信息作为本次交互信息予以记录。
[0010]较佳地,所述利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息进行校验,包括:计算所搜索到的历史指令信息中与当前状态信息相同的历史运行状态信息在所有历史运行状态中的比例,该比例值越大,当前指令信息的置信度越大;所述利用所搜索到的历史指令信息的执行时长,对当前指令信息进行校验,包括:统计所搜索到的历史指令信息的执行时长的平均值,该平均值越大,当前指令信息的置信度越大;所述利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息的进行校验,包括:将当前声源定位信息与各历史声源定位信息进行相似度计算,并求取各相似度的平均值,该平均值越大,当前指令信息的置信度越大;所述利用所搜索到的历史指令信息对应的历史声纹信息,对当前指令信息进行校验,包括:将当前声纹信息与各历史声纹信息进行欧式距离计算,并求取各欧式距离的平均值,该平均值越小,当前指令信息的置信度越大。
[0011]较佳地,所述根据各校验结果的投票结果,确定是否执行当前指令,包括:若执行时长平均值大于设定的第一阈值,则赋予第一校验结果的第一投票结果有效,若相似度平均值大于设定的第二阈值,则赋予第三校验结果的第三投票结果有效,和/或,若欧式距离平均值大于设定的第三阈值,则赋予第四校验结果的第四投票结果有效,统计各有效投票结果,在有效投票结果的数量大于设定的数量阈值的情况下,触发执行当前指令。
[0012]较佳地,所述根据第一校验结果和第二校验结果的投票结果,确定是否执行当前指令,包括:若执行时长平均值大于设定的第一阈值,则赋予第一校验结果的第一投票结果有效,若当前状态在所有历史运行状态中的比例值大于设定的第二阈值,则赋予第二校验结果的第二投票结果有效,统计各有效投票结果,在有效投票结果的数量大于设定的数量阈值的情况下,触发执行当前指令。
[0013]较佳地,该方法进一步包括:检查本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息是否大于设定的间隔阈值,如果是,则将本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息作为上一次指令的执行时长,标记所记录的上一次交互信息为正样本,否则,将本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息作为上一次指令的执行时长,标记所记录的上一次交互信息为负样本,或删除上一次交互信息;利用所记录的正样本和负样本,对用于进行信息校验的神经网络模型进行训练,得到训练后的神经网络模型,或者,对用于声源定位信息校验的第一神经网络模型、用于声纹信息校验的第二神经网络模型、用于运行状态信息校验的第三神经网络模型、用于当前指令信息本身校验的第四神经网络模型中的至少之一神经网络模型分别进行训练,得到各个训练后的神经网络模型;所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:通过训练后的神经网络模型,对当前指令信息的当前声源定位信息、当前声纹信息、当前运行状态信息、当前指令信息本身至少之一进行校验。
[0014]本申请第二方面提供一种语音人机交互装置,该交互装置包括:检测模块,用于获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前语音信号当前语音信号中不包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音人机交互方法,其特征在于,该方法包括:获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,其中,当前语音信号中不包括任一唤醒词,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前允许的指令词集根据被控设备的当前运行状态确定,利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,根据校验结果,确定是否执行当前指令。2.如权利要求1所述的语音人机交互方法,其特征在于,所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:以当前指令信息为搜索依据,搜索历史交互信息中与当前指令信息相同的历史指令信息,利用所搜索到的历史指令信息的历史执行时长,对当前指令信息进行校验,得到第一校验结果;所述根据校验结果,确定是否执行当前指令,包括:根据第一校验结果,确定是否执行当前指令,将当前指令信息作为本次交互信息予以记录;所述将当前指令信息作为本次交互信息予以记录,包括:将当前指令信息、以及当前指令的执行结果作为本次交互信息予以记录,其中,当前指令的执行结果至少包括:当前指令被执行的情况下的执行时长;所述执行时长根据本次交互所执行指令与上一次交互所执行指令之间的时间间隔确定。3.如权利要求2所述的语音人机交互方法,其特征在于,所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息的当前状态信息进行校验,得到第二校验结果;所述根据校验结果,确定是否执行当前指令,包括:根据第一校验结果和第二校验结果的投票结果,确定是否执行当前指令,并将当前运行状态作为本次交互信息予以记录。4.如权利要求2或3任一所述的语音人机交互方法,其特征在于,所述在检测到语音的情形下,进一步包括:对所述当前语音信号进行声源定位,得到当前声源定位信息;和/或获取当前语音信号的当前声纹信息;所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息进行校验,得到第三校验结果;和/或利用所搜索到的历史指令信息对应的历史声纹信息,对当前指令信息进行校验,得到
第四校验结果;所述根据校验结果,确定是否执行当前指令,包括:根据各校验结果的投票结果,确定是否执行当前指令,将当前声源定位信息和/或当前声纹信息作为本次交互信息予以记录。5.如权利要求4所述的语音人机交互方法,其特征在于,所述利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息进行校验,包括:计算所搜索到的历史指令信息中与当前状态信息相同的历史运行状态信息在所有历史运行状态中的比例,该比例值越大,当前指令信息的置信度越大;所述利用所搜索到的历史指令信息的执行时长,对当前指令信息进行校验,包括:统计所搜索到的历史指令信息的执行时长的平均值,该平均值越大,当前指令信息的置信度越大;所述利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息的进行校验,包括:将当前声源定位信息与各历史声源定位信息进行相似度计算,并求取...

【专利技术属性】
技术研发人员:钟雨崎艾国杨作兴
申请(专利权)人:北京边锋信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1