一种展演智能设备的语音唤醒方法技术

技术编号:37710306 阅读:16 留言:0更新日期:2023-06-02 00:02
本发明专利技术提供了一种展演智能设备的语音唤醒方法,涉及智能语音交互技术领域,该包括智能设备接收预设地域范围及预设时间内分贝最高的语音及所有用户的人脸动态图像;根据第一用户的人脸动态图像判断第一用户当前是否还在预设地域范围;锁定第一用户的人脸动态图像,并与第一用户进行第一次语音交互,提取第一用户的第一声纹特征,并基于第一声纹特征过滤与第一声纹特征不匹配的声纹特征。本发明专利技术的展演智能设备的语音唤醒方法,解决人多嘈杂的环境中现有的智能设备与人进行交流时交互针对性不足的技术问题。对性不足的技术问题。对性不足的技术问题。

【技术实现步骤摘要】
一种展演智能设备的语音唤醒方法


[0001]本专利技术涉及智能语音交互
,特别涉及一种展演智能设备的语音唤醒方法。

技术介绍

[0002]用于展览展会的智能语音导览,是通过对室内展览物件进行语音播报讲解,以便于参观者对展览物品进行深入了解的装置,其在语音导览的领域中得到了广泛的使用。
[0003]目前常用的智能语音导览是用户手动开启后,根据用户的问题,在问题库中查找并播报固定的内容,播放的内容不因使用者的改变而改变,也不能与某一位参观者进行针对性的交互。在智能手机领域,智能语音助手可以根据使用者的唤醒词唤醒后与其开展人机对话。但是,这种方式一般用于单人与机器的对话,在噪音大、人员多的复杂场景中,如展演场景,存在内容识别精度不高、不易识别发声主体的问题,从而导致智能设备难以识别交互对象,交互时不能很好的理解指令,导致交互无针对性。因此,现有的智能语音助手难以用于展览展会等人多嘈杂的环境。
[0004]因此,亟需一种改进的展演智能设备的语音唤醒方法,以改善上述技术问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种在人多嘈杂的环境中进行人机交互时能够很好的锁定交互者,进而能进行针对性回答的展演智能设备的语音唤醒方法。
[0006]本专利技术提供了一种展演智能设备的语音唤醒方法,包括:智能设备接收预设地域范围及预设时间内分贝最高的语音及所有用户的人脸动态图像;该分贝最高的语音为第一语音,对该第一语音进行语义分析获得第一语义;对该所有用户的人脸动态图像进行图像分析获得人脸动态图像集合,通过图像提取获得与该人脸动态图像集合对应的唇部动态图像集合,通过唇语分析获得与该唇部动态图像集合对应的第二语义集合;若该第一语义在该第二语义集合内,从该第二语义集合内提取与该第一语义对应的第一用户的唇部动态图像及第一用户的人脸动态图像;若该第一语义不在该第二语义集合内,重新接收预设地域范围及预设时间内分贝最高的语音;根据该第一用户的人脸动态图像判断第一用户当前是否还在该预设地域范围,若不在,重新接收预设地域范围及预设时间内分贝最高的语音;若在,锁定该第一用户的人脸动态图像,并与该第一用户进行第一次语音交互,提取该第一用户的第一声纹特征,并基于该第一声纹特征过滤与该第一声纹特征不匹配的声纹特征。
[0007]优选地,本专利技术提供的一种展演智能设备的语音唤醒方法还包括:建立用户数据库,该用户数据库包括多个用户特征信息,该用户特征信息包括年龄、性别、口音、语音交互记录。
[0008]优选地,在进行第一次语音交互后,将第一声纹特征与该用户数据库的用户特征信息进行比对;将该用户特征信息进一步分为管理者数据信息、访问过用户数据信息,该管理者数据信息对应有管理者语音交互记录,该访问过用户数据信息对应有访问过用户交互
记录;若判断该第一声纹特征为该管理者数据信息,调取该管理者语音交互记录进行下一次交互,若判断该第一声纹特征为访问过用户数据信息,调取该访问过用户交互记录进行下一次交互。
[0009]优选地,该年龄和该性别从该人脸动态图像集合中提取;该口音的语音识别方法包括:根据特定方言的特点,构建从普通话读音到方言读音的音节映射表;根据该音节映射表,扩展已有的标准普通话语音识别器,并形成第一搜索树;用该第一搜索树替换该标准普通话语音识别器中的搜索树并形成第二搜索树。
[0010]优选地,该分贝最高的语音包括唤醒指令。
[0011]优选地,该唇语分析方法为:从该唇部动态图像中获取唇部动作特征数据;确定该唇部动作特征数据的正向标准差和/或逆向标准差;基于该正向标准差和/或逆向标准差,确定与该唇部动态图像集合对应的第二语义集合的分词结果。
[0012]优选地,该唇部动作特征数据包括:左唇角、右唇角、上唇峰构成的上唇部特征角度及上唇面积,左唇角、右唇角和下唇低点构成的下唇部特征角度及下唇面积。
[0013]优选地,确定该唇部动作特征数据的正向标准差包括:选取确定唇部动态图像的第一视帧,该第一视帧和该第一视帧的在前视帧图像的唇部动作特征确定得到;确定该唇部动作特征数据的逆向标准差包括:选取确定唇部动态图像的第一视帧,该第一视帧和该第一视帧的在后视帧图像的唇部动作特征确定得到。
[0014]优选地,该过滤与第一声纹特征不匹配的声纹特征的方法为:智能设备包括麦克风阵列、ToF检测模块、DOA计算模块;该麦克风阵列处理多路语音信号,对该语音信号进行降噪及增强;该ToF检测模块检测该预设地域范围人员,并生成人员位置信息;通过该DOA计算模块计算产生当前的DOA区间数据;计算基于该麦克风阵列输入的数据和基于DOA计算模块产生的数据,过滤与第一声纹特征不匹配的声纹特征。
[0015]优选地,对该第一语音进行语义分析获得第一语义的方法包括:根据领域任务定义文法中所有的终结符、非终结符和规则分类,该终结符为按语义分类的关键词,该关键词可包含阿拉伯数字和英文字母,每个关键词都有相应的拼音,每一条规则都被赋以一个优先级别,该优先级的规则集合通过词法分析的或非词法分析得到,该规则与语义直接关联,每一条该规则都对应一个语义分析函数,从语法配置文件中读入基于语义类的上下文无关增强文法;对用户输入的句子进行分词;对分词结果进行句法分析;取最优的句法分析结果进行语义分析,得到用户最终的搜索关键词信息。
[0016]本专利技术的技术方案带来了以下有益效果:在本专利技术提供的一种展演智能设备的语音唤醒方法中,以在展会会场使用为例,包括以下步骤:智能设备搜寻预设地域范围及预设时间内会场信息,接收在预设时间内和预设地域范围声音分贝最高的人的语音所有的用户的人脸动态图像。将分贝最高的语音设置为第一语音,对该第一语音进行语义分析处理,获得与第一语音对应的第一语义。同时,对所有用户的人脸动态图像进行图像分析获得人脸动态图像集合,通过图像提取手段获得与人脸动态图像集合对应的唇部动态图像集合,并通过唇语分析手段获得与唇部动态图像集合对应的第二语义集合。
[0017]在对预设地域范围及预设时间内声音分贝最高的人的语音及所有的用户的人脸动态图像处理后获得第一语义和第二语义集合后,判断上述的第一语义是否在在第二语义集合内,若第一语义在第二语义集合内,从而获得了声音分贝最高的人的第一语义、人脸动
态图像、唇部动态图像,锁定并获得了要找的人的特征信息。若不在,则说明嘈杂的环境中识别噪音较大,智能设备将重新接收预设地域范围及预设时间内分贝最高的语音。
[0018]根据第一用户的人脸动态图像判断第一用户当前是否还在预设地域范围,若不在,可能第一用户已经离开预设地域范围,智能设备重新接收预设地域范围及预设时间内分贝最高的语音。若在,锁定第一用户的人脸动态图像,并与第一用户进行第一次语音交互,提取第一用户的第一声纹特征,并基于第一声纹特征过滤与第一声纹特征不匹配的声纹特征。如果此时第一用户还在现场,提取第一用户的第一声纹特征用于更有针对性的交互,并过滤掉与第一声纹特征不匹配的声纹特征。
[0019]基于此本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种展演智能设备的语音唤醒方法,其特征在于,包括:智能设备接收预设地域范围及预设时间内分贝最高的语音及所有用户的人脸动态图像;所述分贝最高的语音为第一语音,对所述第一语音进行语义分析获得第一语义;对所述所有用户的人脸动态图像进行图像分析获得人脸动态图像集合,通过图像提取获得与所述人脸动态图像集合对应的唇部动态图像集合,通过唇语分析获得与所述唇部动态图像集合对应的第二语义集合;若所述第一语义在所述第二语义集合内,从所述第二语义集合内提取与所述第一语义对应的第一用户的唇部动态图像及第一用户的人脸动态图像;若所述第一语义不在所述第二语义集合内,重新接收预设地域范围及预设时间内分贝最高的语音;根据所述第一用户的人脸动态图像判断第一用户当前是否还在所述预设地域范围,若不在,重新接收预设地域范围及预设时间内分贝最高的语音;若在,锁定所述第一用户的人脸动态图像,并与所述第一用户进行第一次语音交互,提取所述第一用户的第一声纹特征,并基于所述第一声纹特征过滤与所述第一声纹特征不匹配的声纹特征。2.根据权利要求1所述的展演智能设备的语音唤醒方法,其特征在于,还包括:建立用户数据库,所述用户数据库包括多个用户特征信息,所述用户特征信息包括年龄、性别、口音、语音交互记录。3.根据权利要求2所述的展演智能设备的语音唤醒方法,其特征在于,在进行第一次语音交互后,将所述第一声纹特征与所述用户数据库的所述用户特征信息进行比对;将所述用户特征信息进一步分为管理者数据信息、访问过用户数据信息,所述管理者数据信息对应有管理者语音交互记录,所述访问过用户数据信息对应有访问过用户交互记录;若判断所述第一声纹特征为所述管理者数据信息,调取所述管理者语音交互记录进行下一次交互,若判断所述第一声纹特征为所述访问过用户数据信息,调取所述访问过用户交互记录进行下一次交互。4.根据权利要求2所述的展演智能设备的语音唤醒方法,其特征在于,所述年龄和所述性别从所述人脸动态图像集合中提取;所述口音的语音识别方法包括:根据特定方言的特点,构建从普通话读音到方言读音的音节映射表;根据所述音节映射表,扩展已有的标准普通话语音识别器,并形成第一搜索树;用所述第一搜索树替换所述标准普通话语音识别器中的搜索树并形成第二搜索树。5.根据权利要求1所述的展演智能设备的语音唤...

【专利技术属性】
技术研发人员:张慧周林娜
申请(专利权)人:北京水晶石数字科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1