本申请涉及一种面向眼镜设备的命令词确定方法、装置、设备和介质。在眼镜设备横框架的上下侧各配置一个麦克风,所述方法包括:两个麦克风独立拾取音频信号,其中,将两个麦克风中靠近人的嘴部的一个作为第一麦克风,将另一个作为第二麦克风;识别第一麦克风所拾取的音频信号并确定出第一麦克风所拾取的音频信号中的命令词及命令词对应的起止时间点;分别提取第一麦克风和第二麦克风针对命令词对应的起止时间所组成的时间范围内的音频信号并将提取结果分别作为第一音频信号和第二音频信号;计算第一音频信号和第二音频信号之间的时间差,基于时间差确定声源角度,并根据声源角度确定出目标命令词。本申请能快速而精准地确定出目标命令词。
【技术实现步骤摘要】
本申请涉及电器检测及语音识别,更为具体来说,本申请涉及一种面向眼镜设备的命令词确定方法、装置、设备和介质。
技术介绍
1、在可以交互的眼镜设备中,语音是一种较好的交互与控制方式。其中一个典型需求是,只有当佩戴者发出语音指令时,眼镜设备才会正确响应,当周围其他人发出语音指令时,眼镜设备则无响应。但该形态的有规模产品还比较少,但在其它交互场景有类似的解决方案,如个性话语音唤醒。
2、然而,通过声纹识别来判断是否指定用户发出指令,需要事先注册声纹,对公共穿戴产品不友好。另外还有采用波束形成加命令词识别方案,但是当声音比较大时,仍然影响识别效率。因此,现有的面向眼镜设备的命令词确定过程较慢,效率较低。
技术实现思路
1、基于上述技术问题,本专利技术旨在计算两个麦克风拾取的音频信号之间的时间差,基于所述时间差确定声源角度,并根据所述声源角度确定出目标命令词,以解决面向眼镜设备的命令词确定过程较慢及效率较低的问题。
2、本专利技术第一方面提供了一种面向眼镜设备的命令词确定方法,在所述眼镜设备横框架的上下侧各配置一个麦克风,且使两个麦克风与佩戴眼镜设备的人的嘴部处于一条直线上;所述方法包括:
3、两个麦克风独立拾取音频信号,其中,将两个麦克风中靠近人的嘴部的一个作为第一麦克风,将两个麦克风中除第一麦克风外的另一个作为第二麦克风;
4、识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点;p>5、分别提取第一麦克风和第二麦克风针对所述命令词对应的起止时间所组成的时间范围内的音频信号并将提取结果分别作为第一音频信号和第二音频信号;
6、计算所述第一音频信号和所述第二音频信号之间的时间差,基于所述时间差确定声源角度,并根据所述声源角度确定出目标命令词。
7、在本专利技术的一些实施例中,所述识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点,包括:
8、采用音频样本数据训练dnn-hmm模型,其中,所述音频样本数据包括命令词音频和非命令词音频;
9、将训练好的dnn-hmm模型作为命令词识别模型,并基于所述命令词识别模型识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点。
10、在本专利技术的一些实施例中,所述计算所述第一音频信号和所述第二音频信号之间的时间差,包括:
11、计算所述第一音频信号和所述第二音频信号之间的相关性;
12、基于所述第一音频信号和所述第二音频信号之间的相关性得到所述第一音频信号和所述第二音频信号之间的时间差。
13、在本专利技术的一些实施例中,所述基于所述时间差确定声源角度,并根据所述声源角度确定出目标命令词,包括:
14、获取当前声源的预设位置点;
15、将所述当前声源的预设位置点与第二麦克风所在点的连线作为第三直线;
16、计算所述第三直线和第一麦克风所在点与第二麦克风所在点间的连线所形成的夹角,并将所述夹角作为声源角度;
17、根据所述声源角度的大小确定出目标命令词。
18、在本专利技术的一些实施例中,将第一麦克风所在点向所述第三直线做垂线,将所述垂线与第三直线的交点作为第四交点,并将所述第四交点与第一麦克风所在点与第二麦克风所在点组成三角形;
19、针对所组成的三角形,根据公式计算所述声源角度,其中,θ表示声源角度,sd表示第二麦克风所在点到所述第四交点间的线段,v表示声速,td表示所述第一音频信号和所述第二音频信号之间的时间差,m表示第一麦克风所在点与第二麦克风所在点形成的线段。
20、在本专利技术的一些实施例中,所述根据所述声源角度的大小确定出目标命令词,包括:
21、预先设置容忍角度值;
22、若计算出的声源角度小于或等于所述容忍角度值,则判定所述第一麦克风所拾取的音频信号中的命令词为目标命令词;
23、若计算出的声源角度大于所述容忍角度值,则判定所述第一麦克风所拾取的音频信号中的命令词为无效命令词,并接收新音频信号。
24、在本专利技术的一些实施例中,所述识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点,包括:
25、将所述第一麦克风所拾取的音频信号变换为连续语音帧;
26、将所述连续语音帧输入所述命令词识别模型,若所述连续语音帧对应的音频信号包含命令词,则命令词识别模型输出命令词及所述命令词对应的起止时间点。
27、本专利技术的第二方面提供了一种面向眼镜设备的命令词确定装置,所述装置包括:
28、拾取模块,用于使两个麦克风独立拾取音频信号,其中,将两个麦克风中靠近人的嘴部的一个作为第一麦克风,将两个麦克风中除第一麦克风外的另一个作为第二麦克风;
29、识别模块,用于识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点;
30、提取模块,用于分别提取第一麦克风和第二麦克风针对所述命令词对应的起止时间所组成的时间范围内的音频信号并将提取结果分别作为第一音频信号和第二音频信号;
31、确定模块,用于计算所述第一音频信号和所述第二音频信号之间的时间差,基于所述时间差确定声源角度,并根据所述声源角度确定出目标命令词。
32、本专利技术第三方面提供一种眼镜设备,所述眼镜设备应用各实施例中任一所述面向眼镜设备的命令词确定方法。
33、本专利技术第四方面提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行各实施例中任一所述面向眼镜设备的命令词确定方法。
34、本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
35、本申请提供的面向眼镜设备的命令词确定方法,在所述眼镜设备横框架的上下侧各配置一个麦克风,且使两个麦克风与佩戴眼镜设备的人的嘴部处于一条直线上;两个麦克风独立拾取音频信号,其中,将两个麦克风中靠近人的嘴部的一个作为第一麦克风,将两个麦克风中除第一麦克风外的另一个作为第二麦克风;识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点;分别提取第一麦克风和第二麦克风针对所述命令词对应的起止时间所组成的时间范围内的音频信号并将提取结果分别作为第一音频信号和第二音频信号;计算所述第一音频信号和所述第二音频信号之间的时间差,基于所述时间差确定声源角度,并根据所述声源角度确定出目标命令词。本申请利用两个麦克风的两个音频信号的时间差来计算当前声源的角度,进而判定第一麦克风所拾取的音频信号中的命令词是否为目标命令词,使命令词本文档来自技高网
...
【技术保护点】
1.一种面向眼镜设备的命令词确定方法,其特征在于,在所述眼镜设备横框架的上下侧各配置一个麦克风,且使两个麦克风与佩戴眼镜设备的人的嘴部处于一条直线上;所述方法包括:
2.根据权利要求1所述的面向眼镜设备的命令词确定方法,其特征在于,所述识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点,包括:
3.根据权利要求2所述的面向眼镜设备的命令词确定方法,其特征在于,所述计算所述第一音频信号和所述第二音频信号之间的时间差,包括:
4.根据权利要求1所述的面向眼镜设备的命令词确定方法,其特征在于,所述基于所述时间差确定声源角度,并根据所述声源角度确定出目标命令词,包括:
5.根据权利要求4所述的面向眼镜设备的命令词确定方法,其特征在于,所述计算所述第三直线和第一麦克风所在点与第二麦克风所在点间的连线所形成的夹角,并将所述夹角作为声源角度,包括:
6.根据权利要求5所述的面向眼镜设备的命令词确定方法,其特征在于,所述根据所述声源角度的大小确定出目标命令词,包括:
>7.根据权利要求2所述的面向眼镜设备的命令词确定方法,其特征在于,所述识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点,包括:
8.一种面向眼镜设备的命令词确定装置,其特征在于,所述装置包括:
9.一种眼镜设备,其特征在于,所述眼镜设备应用如权利要求1-7任一所述方法。
10.一种计算机设备,包括存储器和处理器,其特征在于,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如权利要求1-7任一所述方法。
...
【技术特征摘要】
1.一种面向眼镜设备的命令词确定方法,其特征在于,在所述眼镜设备横框架的上下侧各配置一个麦克风,且使两个麦克风与佩戴眼镜设备的人的嘴部处于一条直线上;所述方法包括:
2.根据权利要求1所述的面向眼镜设备的命令词确定方法,其特征在于,所述识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点,包括:
3.根据权利要求2所述的面向眼镜设备的命令词确定方法,其特征在于,所述计算所述第一音频信号和所述第二音频信号之间的时间差,包括:
4.根据权利要求1所述的面向眼镜设备的命令词确定方法,其特征在于,所述基于所述时间差确定声源角度,并根据所述声源角度确定出目标命令词,包括:
5.根据权利要求4所述的面向眼镜设备的命令词确定方法,其特征在于,所述计算所述第三直线...
【专利技术属性】
技术研发人员:雷延强,叶珑,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。