一种基于智能语音交互的多模态拒识方法和系统技术方案

技术编号:32872369 阅读:18 留言:0更新日期:2022-04-02 12:02
本发明专利技术涉及人机语音交互技术领域,提供一种基于智能语音交互的多模态拒识方法和系统,提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入,根据预设融合算法完成异构数据信息的融合,得到融合特征向量代入预设评分规则,获取直观且全面的目标拒识概率,根据目标拒识概率即可直接判断是否执行拒识操作;通过融合多种模态的信息(语音、文本、视频),扩大了语音拒识的信息输入范围,多种模态的信息相互补充、相互增强,从而大大提升拒识的准确度,进而大大提升语音交互系统的可用性和用户体验。大提升语音交互系统的可用性和用户体验。大提升语音交互系统的可用性和用户体验。

【技术实现步骤摘要】
一种基于智能语音交互的多模态拒识方法和系统


[0001]本专利技术涉及人机语音交互
,尤其涉及一种基于智能语音交互的多模态拒识方法和系统。

技术介绍

[0002]在语音交互过程中,在对话交互期间,尤其是诸如全双工的连续语音对话等场景,能够使用户唤醒一次后可以连续输入语音指令,同时可以边听边说,随时打断,以及支持基于上下文理解的多轮对话能力等,从而给用户带来更好的体验。但由于在全双工场景下,为等待用户的语音输入,麦克风一直处于拾音状态,这就会将周围所有的一揽子声音全部录入,比如环境噪声、周围人的说话声等无效人声,导致非目标的语音输入都会被识别,从而造成语音交互系统的误识别,极大地降低可用性和用户体验。所以就需要对这部分非目标输入的声音信号进行处理,背景的噪音可以通过VAD(活动音检测)来进行滤除,而无效人声就是拒识的处理对象。所谓拒识,顾名思义就是拒绝识别,对语音交互系统中非目标的语音输入进行拒绝识别,就是对其不进行响应。
[0003]在市面上常见的语音交互系统中,常见的有基于场景的技术方案和基于策略的技术方案。
[0004]基于场景的技术方案,总体上分为两种,一种是基于多音区的拒识方案,这种方案依赖声音中的声源定位技术,另一种是基于语义的场景拒识,主要是通过针对目标场景设计与场景对应的意图的集合,新的语音指令经过语义分析后,如果对应的意图在先前设计的意图的有限集合内,则走正常的语音交互流程,否则进行拒识。因此,基于语义的场景拒识高度依赖于语音识别。
[0005]而策略拒识,则是通过提取一系列语音交互过程中的特征,基于这些特征进行拒识策略的设计,这些特征往往是一些可解释性比较强的人工抽取的特征,可能来自语音也可能来自文本的语义。上述基于场景拒识的方法,其信息来自于一种模态,即语音或者经过语音识别之后的文本的语义,并且是基于分析引擎处理之后的单一维度的信息。而基于策略的拒识方案,其特征也是通过人工抽取的具有可解释性的有限维度的特征,并且策略拒识中,策略的设计往往会存在不同特征之间的冲突,比较难以处理。因此,策略拒识中的各个特征存在较大的前端依赖性。

技术实现思路

[0006]本专利技术提供一种基于智能语音交互的多模态拒识方法和系统,解决了现有的拒识策略过于依赖语音识别的前端设备,识别依据单一,拒识准确率较低的技术问题。
[0007]为解决以上技术问题,本专利技术提供一种基于智能语音交互的多模态拒识方法,包括步骤:
[0008]S1、从语音交互中获取包含语音指令的音频信息,并采集相关的视觉信息;
[0009]S2、根据预设特征提取算法处理所述音频信息,得到中间特征向量;从所述视觉信
息中提取出对应的视觉特征;
[0010]S3、根据所述中间特征向量,获取对应的文本指令、语音高维表征向量、语音高阶信息向量;
[0011]S4、识别所述文本指令,获取的文本高维语义向量、语义高阶特征;
[0012]S5、将所述语音高维表征向量、所述文本高维语义向量、所述语音高阶信息向量、所述语义高阶特征和所述视觉特征代入预设融合算法,输出融合特征向量;
[0013]S6、将所述融合特征向量代入预设评分规则,计算出目标拒识概率并确定是否执行拒识操作。
[0014]本基础方案提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入,进而通过采用不同的、适合于对应模态的神经网络结构提取出对应模态信息的隐藏语义表征,即语音高维表征向量、文本高维语义向量、语音高阶信息向量、语义高阶特征和视觉特征;随后根据预设融合算法完成异构数据信息的融合,得到融合特征向量代入预设评分规则,获取直观且全面的目标拒识概率,根据目标拒识概率即可直接判断是否执行拒识操作。通过融合多种模态的信息(语音、文本、视频),扩大了语音拒识的信息输入范围,多种模态的信息相互补充、相互增强,从而大大提升拒识的准确度,进而大大提升语音交互系统的可用性和用户体验。
[0015]在进一步的实施方案中,所述步骤S2包括:
[0016]S21、根据预设特征提取算法对获取到的所述包含语音指令的音频信息进行音频处理,得到目标特征向量,作为中间特征向量;
[0017]S22、采用神经网络结构处理所述视觉信息,从中提取出对应的视觉特征;
[0018]所述预设特征提取算法包括预加重、分帧、加窗、FFT、Mel滤波器组滤波、log变换、DCT解卷积;
[0019]所述神经网络结构为P3D+LSTM网络,或ImageNet网络。
[0020]本方案在获取到原始的包含语音指令的音频信息后,采用常规的特征提取算法对语音指令进行音频处理,初步得到目标特征向量,作为中间特征向量,一方面是语音模态下特征提取的必要过程,另一方面则是为文本模态的特征抽取提供可识别的基础数据;在获取到视觉信息后,直接采用神经网络结构即可处理得到计算机可处理的离散数据张量形式的视觉特征,从而将视觉信息数据化、标准化,并引入语音交互过程中的拒识判断中,进一步提高输入数据的多样性、拒识准确率。
[0021]在进一步的实施方案中,所述步骤S3包括:
[0022]S31、采用语音识别模型识别所述中间特征向量,得到对应的文本指令;
[0023]S32、采用CNN+LSTM网络结构对所述中间特征向量进行进一步的抽象表征提取,得到语音高维表征向量;
[0024]S33、根据所述中间特征向量获取语音高阶信息向量;
[0025]所述语音高阶信息向量包括音量值、信噪比、语速。
[0026]本方案以包含语音指令的音频信息为基础信息,采用CNN+LSTM网络结构对所述中间特征向量进行抽象表征提取,直接从中提取出对应语音模态下的语音高维表征向量、语音高阶信息向量,通过隐藏语义表征(以计算机可处理的离散数据张量的形式存在)的提取
将虚拟的语音数据化、书面化,从而使得计算机等处理器可代替人工完成智能识别工作。
[0027]在进一步的实施方案中,所述步骤S4包括:
[0028]S41、获取预设阶段内的历史文本指令,与当前获取到的所述文本指令拼接,得到拼接文本指令;
[0029]S42、将所述拼接文本指令输入Bert预训练模型中进行特征提取,得到文本高维语义向量;
[0030]S43、采用自然语言理解技术对所述文本指令进行理解、解析,得到语义高阶特征;
[0031]所述语义高阶特征包括Domain得分和Intent得分。
[0032]本方案对包含语音指令的音频信息进行语音识别后得到对应的文本指令,使得指令书面化,通过对预设阶段内的历史文本指令与当前获取到的文本指令拼接识别,以及利用Bert预训练模型得到文本高维语义向量、采用自然语言理解技术得到语义高阶特征,将文本数据转换为向量数据,使得计算机可直接从向量数据中获取来自于文本数据当中的语言特性。
[0033]在进一步的实施方案中,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能语音交互的多模态拒识方法,其特征在于,包括步骤:S1、从语音交互中获取包含语音指令的音频信息,并采集相关的视觉信息;S2、根据预设特征提取算法处理所述音频信息,得到中间特征向量;从所述视觉信息中提取出对应的视觉特征;S3、根据所述中间特征向量,获取对应的文本指令、语音高维表征向量、语音高阶信息向量;S4、识别所述文本指令,获取的文本高维语义向量、语义高阶特征;S5、将所述语音高维表征向量、所述文本高维语义向量、所述语音高阶信息向量、所述语义高阶特征和所述视觉特征代入预设融合算法,输出融合特征向量;S6、将所述融合特征向量代入预设评分规则,计算出目标拒识概率并确定是否执行拒识操作。2.如权利要求1所述的一种基于智能语音交互的多模态拒识方法,其特征在于,所述步骤S2包括:S21、根据预设特征提取算法对获取到的所述音频信息进行音频处理,得到目标特征向量,作为中间特征向量;S22、采用神经网络结构处理所述视觉信息,从中提取出对应的视觉特征;所述预设特征提取算法包括预加重、分帧、加窗、FFT、Mel滤波器组滤波、log变换、DCT解卷积;所述神经网络结构为P3D+LSTM网络,或ImageNet网络。3.如权利要求2所述的一种基于智能语音交互的多模态拒识方法,其特征在于,所述步骤S3包括:S31、采用语音识别模型识别所述中间特征向量,得到对应的文本指令;S32、采用CNN+LSTM网络结构对所述中间特征向量进行进一步的抽象表征提取,得到语音高维表征向量;S33、根据所述中间特征向量获取语音高阶信息向量;所述语音高阶信息向量包括音量值、信噪比、语速。4.如权利要求1所述的一种基于智能语音交互的多模态拒识方法,其特征在于,所述步骤S4包括:S41、获取预设阶段内的历史文本指令,与当前获取到的所述文本指令拼接,得到拼接文本指令;S42、将所述拼接文本指令输入Bert预训练模型中进行特征提取,得到文本高维语义向量;S43、采用自然语言理解技术对所述文本指令进行理解、解析,得到语义高阶特征;所述语义高阶特征包括Domain得分和Intent得分。5.如权利要求1所述的一种基于智能语音交互的多模态拒识方法,其特征在于,所述步骤S5包括:S51、采用深度神经网络融合所述语音高维表征向量和所述文本高维语义向量,得到第一融合信息向量;S52、将所述第一融合信息向量与所述语音高阶信息向量、所述语义高阶特征进行融合
或拼接,得到第二...

【专利技术属性】
技术研发人员:李向阳谢志华王满红
申请(专利权)人:惠州市德赛西威汽车电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1