基于规则意图表决器的D-S证据理论多模态融合人机交互方法技术

技术编号:28624731 阅读:28 留言:0更新日期:2021-05-28 16:20
本发明专利技术公开了基于规则意图表决器的D‑S证据理论多模态融合人机交互方法,机器人听觉系统采集音频信息,调整自身姿态并进行硬件降噪,视觉系统使用双层网络来对动态手势进行检测和识别,对手势动作进行分类;对语音和手势的识别网络添加全连接层,输出机器人对于交互对象的意图理解。让两种模式以并行协助的方式来实现人机交互的通信过程,能够接受更多信息,做出准确的意图理解,视觉和听觉更容易被人接受,并在交互机制上做出改进。将不同模态对当前信息输入的输出判断结果。这样的合成结果更为关注深层次的信息之间的联系,解决多模态之间的融合,也能适应不同模态之间的证据冲突问题,并且关注于标签中的单一结果,更适用于的人机交互工作。

【技术实现步骤摘要】
基于规则意图表决器的D-S证据理论多模态融合人机交互方法
本专利技术涉及人机交互(Human-robotinteraction,HRI)技术和多模态融合领域。具体包括:机器人听觉系统利用MUSIC算法确定声源方位,经过MFCC的语音特征预处理,利用端对端门控CNN识别语音结果;视觉系统使用双层网络来对动态手势进行检测和识别,使用3DCNN和LSTM的深度CNN框架来处理时序信息,对手势动作进行分类。对语音和手势的识别网络添加全连接层,进行归一化处理,并进行基于规则意图表决器的D-S证据理论算法对不同模态进行融合,输出机器人对于交互对象的意图理解。
技术介绍
人机交互是服务机器人研究的核心问题,感知方式在人与机器人的交流中起着最基础的作用,人们可以通过手势、语言、身体、表情、触摸等方式与机器人进行交互。现有的交互方式分为设备交互方式,单一交互方式和多模态交互方式。设备交互通过交互对象佩戴上信息采集器装置用来向机器人传达信息,但这样会限制交互的灵活性和舒适度。而单一模式下的人机交互会受到周围环境的影响,交互对象自身的行为也会限制机器人识别的本文档来自技高网...

【技术保护点】
1.基于规则意图表决器的D-S证据理论多模态融合人机交互方法,其特征在于:首先,机器人听觉系统采用六麦环形阵列采集音频信息,利用MUSIC算法确定声源方位;然后,调整自身姿态并进行硬件降噪,经过MFCC的语音特征预处理,利用端对端门控CNN识别语音结果;视觉系统使用双层网络来对动态手势进行检测和识别,识别器和分类器以滑动窗口法,步幅s=1作用在视频帧上,使用3D CNN和LSTM的深度CNN框架来处理时序信息,对手势动作进行分类;最后,对语音和手势的识别网络添加全连接层,进行归一化处理,并进行基于规则意图表决器的D-S证据理论算法对不同模态进行融合,输出机器人对于交互对象的意图理解。/n

【技术特征摘要】
1.基于规则意图表决器的D-S证据理论多模态融合人机交互方法,其特征在于:首先,机器人听觉系统采用六麦环形阵列采集音频信息,利用MUSIC算法确定声源方位;然后,调整自身姿态并进行硬件降噪,经过MFCC的语音特征预处理,利用端对端门控CNN识别语音结果;视觉系统使用双层网络来对动态手势进行检测和识别,识别器和分类器以滑动窗口法,步幅s=1作用在视频帧上,使用3DCNN和LSTM的深度CNN框架来处理时序信息,对手势动作进行分类;最后,对语音和手势的识别网络添加全连接层,进行归一化处理,并进行基于规则意图表决器的D-S证据理论算法对不同模态进行融合,输出机器人对于交互对象的意图理解。


2.根据权利要求1所述的基于规则意图表决器的D-S证据理论多模态融合人机交互方法,其特征在于:六麦环形阵列为语音采集装置,其特征在于:对音频的输入增加空间域和时域属性,判断语音对象方位角的实现硬件降噪,对语音输入信号加强;确认方位角采用高分辨率谱估计法,谱函数极大值所对应的θ就是信号源方向的估计值;
六个麦克风的权重相同:Vx=α0·x0+α1·x1+…+α5·x5,V为麦克风阵列作用的总输出音频信号,α为每个麦克风的权重,且满足{α0+α1+…+α5=1},每个麦克风之间只有相对空间位置,对应着音频输入信号的时序关系,满足{α0=α1=…=α5};当解析麦克风的相关矩阵确定声源的位置方向{θ},声源方向对应的麦克风xi权重加强,其他方位角的音频信号被抑制,即
使用梅尔倒谱系数MFCC对语音输入信号进行滤波,降低噪声影响,基于预处理,分帧,加窗和快速傅里叶变换,并经过三角带通滤波器滤波后得到的功率归一化音频的频谱图作为语音识别网络模型的输入,每个带通滤波器输出的信号能量能够作为信号的基本特征,送入到语音识别网络中;
专注于语音识别速度,设计一个完全基于CNN的端对端网络架构,共有12层卷积结构,使用门控线性单元GLU作为激活函数,并将损失函数设为CTC,网络在预测模型时不需要预先对数据做语音对齐工作。


3.根据权利要求1所述的基于规则意图表决器的D-S证据理论多模态融合人机交互方法,其特征在于:六麦环形阵列为语音采集装置,其特征在于:动态手势识别中,使用双层网络结构来进行对动态手势的识别,检测器和分类器在输入视频流上使用滑动窗口法,步幅s=1;
将检测器预测到的原始概率添加到队列(qk)中,队列的大小k被选择为4,对这些原始值...

【专利技术属性】
技术研发人员:李秀智王珩张祥银
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1