一种基于智能语音交互的多模态拒识方法和系统技术方案

技术编号：32872369 阅读：18 留言：0更新日期：2022-04-02 12:02

本发明专利技术涉及人机语音交互技术领域，提供一种基于智能语音交互的多模态拒识方法和系统，提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入，根据预设融合算法完成异构数据信息的融合，得到融合特征向量代入预设评分规则，获取直观且全面的目标拒识概率，根据目标拒识概率即可直接判断是否执行拒识操作；通过融合多种模态的信息(语音、文本、视频)，扩大了语音拒识的信息输入范围，多种模态的信息相互补充、相互增强，从而大大提升拒识的准确度，进而大大提升语音交互系统的可用性和用户体验。大提升语音交互系统的可用性和用户体验。大提升语音交互系统的可用性和用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于智能语音交互的多模态拒识方法和系统

[0001]本专利技术涉及人机语音交互
，尤其涉及一种基于智能语音交互的多模态拒识方法和系统。

技术介绍

[0002]在语音交互过程中，在对话交互期间，尤其是诸如全双工的连续语音对话等场景，能够使用户唤醒一次后可以连续输入语音指令，同时可以边听边说，随时打断，以及支持基于上下文理解的多轮对话能力等，从而给用户带来更好的体验。但由于在全双工场景下，为等待用户的语音输入，麦克风一直处于拾音状态，这就会将周围所有的一揽子声音全部录入，比如环境噪声、周围人的说话声等无效人声，导致非目标的语音输入都会被识别，从而造成语音交互系统的误识别，极大地降低可用性和用户体验。所以就需要对这部分非目标输入的声音信号进行处理，背景的噪音可以通过VAD(活动音检测)来进行滤除，而无效人声就是拒识的处理对象。所谓拒识，顾名思义就是拒绝识别，对语音交互系统中非目标的语音输入进行拒绝识别，就是对其不进行响应。
[0003]在市面上常见的语音交互系统中，常见的有基于场景的技术方案和基于策略的技术方案。
[0004]基于场景的技术方案，总体上分为两种，一种是基于多音区的拒识方案，这种方案依赖声音中的声源定位技术，另一种是基于语义的场景拒识，主要是通过针对目标场景设计与场景对应的意图的集合，新的语音指令经过语义分析后，如果对应的意图在先前设计的意图的有限集合内，则走正常的语音交互流程，否则进行拒识。因此，基于语义的场景拒识高度依赖于语音识别。
[0005]而策略拒识，则是通过提取一...

【技术保护点】

【技术特征摘要】
1.一种基于智能语音交互的多模态拒识方法，其特征在于，包括步骤：S1、从语音交互中获取包含语音指令的音频信息，并采集相关的视觉信息；S2、根据预设特征提取算法处理所述音频信息，得到中间特征向量；从所述视觉信息中提取出对应的视觉特征；S3、根据所述中间特征向量，获取对应的文本指令、语音高维表征向量、语音高阶信息向量；S4、识别所述文本指令，获取的文本高维语义向量、语义高阶特征；S5、将所述语音高维表征向量、所述文本高维语义向量、所述语音高阶信息向量、所述语义高阶特征和所述视觉特征代入预设融合算法，输出融合特征向量；S6、将所述融合特征向量代入预设评分规则，计算出目标拒识概率并确定是否执行拒识操作。2.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S2包括：S21、根据预设特征提取算法对获取到的所述音频信息进行音频处理，得到目标特征向量，作为中间特征向量；S22、采用神经网络结构处理所述视觉信息，从中提取出对应的视觉特征；所述预设特征提取算法包括预加重、分帧、加窗、FFT、Mel滤波器组滤波、log变换、DCT解卷积；所述神经网络结构为P3D+LSTM网络，或ImageNet网络。3.如权利要求2所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S3包括：S31、采用语音识别模型识别所述中间特征向量，得到对应的文本指令；S32、采用CNN+LSTM网络结构对所述中间特征向量进行进一步的抽象表征提取，得到语音高维表征向量；S33、根据所述中间特征向量获取语音高阶信息向量；所述语音高阶信息向量包括音量值、信噪比、语速。4.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S4包括：S41、获取预设阶段内的历史文本指令，与当前获取到的所述文本指令拼接，得到拼接文本指令；S42、将所述拼接文本指令输入Bert预训练模型中进行特征提取，得到文本高维语义向量；S43、采用自然语言理解技术对所述文本指令进行理解、解析，得到语义高阶特征；所述语义高阶特征包括Domain得分和Intent得分。5.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S5包括：S51、采用深度神经网络融合所述语音高维表征向量和所述文本高维语义向量，得到第一融合信息向量；S52、将所述第一融合信息向量与所述语音高阶信息向量、所述语义高阶特征进行融合
或拼接，得到第二...

【专利技术属性】
技术研发人员：李向阳，谢志华，王满红，
申请(专利权)人：惠州市德赛西威汽车电子股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人