【技术实现步骤摘要】
一种基于音频和面部输入的受话方检测框架和方法
[0001]本专利技术属于视听处理、机器学习
,尤其涉及一种基于音频和面 部输入的受话方检测框架和方法。
技术介绍
[0002]类人型机器人的根本挑战是具有智能视听感知能力系统,以辅助与人类 的自然交互和合作。丰富此系统的方式之一是让机器人识别它是否为受话方。 它帮助机器人决定是否对人类话语做出反应。其主要应用于导引机器人、同 伴助理、机器人管家、机器人救生员和移动护理机器人。然而,尽管有少量 先前的工作,这一领域还没有得到广泛的探索,以最先进的方法在现实环境 中使用有效的沟通线索。虽然近年来国内外对AD的研究取得了重要的进展, 但还没有研究将音频和视频(面部)特征结合起来探讨AD。先前的工作没有 从现有的音频和视频信息、长时间和短时间片段中获得太多益处。这些研究 大多集中在0.2s到0.6s的片段级(单幅图像)信息,很难从单幅图像或0.2s 的视频片段预测对话活动。然而,在现实中,人们会考虑跨越数百个视频帧 的整个句子来判断一个人是否在对另一个人说话。例如,一个5秒的视频平 均包含15个单词,0.2秒的短时间片段甚至不能覆盖一个完整的单词。此外, 现有的框架在人对人或人对机器人的设置中使用在有固定参与者的会议室中 记录的数据集,这不适用于人机交互。再者,现有的受话方检测工作广泛采 用统计和基于规则的方法,这些方法仅适用于特定任务,无法适用于其他情 况,例如,不同的动作和沟通表达以及不同的参与者数量。
技术实现思路
[0003]本专利技术目的在于提供 ...
【技术保护点】
【技术特征摘要】
1.一种基于音频和面部输入的受话方检测框架,所述框架包括基于双流的端到端框架ADNet,ADNet用于剪裁人脸区域的可变时间长度和相应的音频片段作为输入,并预测人类是在对机器人还是对其他人说话,其特征在于,ADNet包括前端和后端,所述前端包括音频流编码器和视频流编码器;所述后端包括交叉注意力模块;双线性融合模块以及自注意力模块;所述视频流编码器用于输入N个连续人脸区域,并学习面部区域运动的长时间表示;所述音频流编码器从时间动态中学习音频特征表示;所述交叉注意力模块用于动态关联视频和音频内容;所述双线性融合模块用于融合视频和音频两个模态;所述自注意力模块用于在话语层面从背景监测受话方活动。2.根据权利要求1所述的基于音频和面部输入的受话方检测框架,其特征在于,所述视频流包括两个子模块:视觉前端网络模块和视觉时间卷积模块,用于将视频流编码为具有相同时间分辨率的视觉嵌入E
v
序列。3.根据权利要求1所述的基于音频和面部输入的受话方检测框架,其特征在于,包括全连接层,全连接层通过softmax操作将自注意力网络的输出投射到AD标签序列。4.根据权利要求2所述的基于音频和面部输入的受话方检测框架,其特征在于,所述视觉前端网络模块采用3D
‑
ResNet,从时空卷积,即3D卷积层开始,然后通过18层残差网络ResNet18逐步降低空间维数,学习每个视频帧的空间信息,并将视频帧流编码为基于帧的嵌入序列;所述视觉时间卷积模块V
‑
TCN用于表示长时间视觉时空流中的时间内容,V
‑
TCN包括五个残差连接线性单元ReLU,批归一化BN和深度可分离卷积层DSConv1D,最后,加入Conv1D层,将特征维数降至128。5.根据权利要求1所述的基于音频和面部输入的受话方检测框架,其特征在于,所述音频流编码器采用包含压缩和激励SE模块的ResNet
‑
34网络;所述音频流编码器使用梅尔频率倒谱系数MFCC,每个时间步使用13个梅尔频率带,所述ResNet
‑
34网络输入音频帧序列以生成音频嵌入E
a
序列,所述音频流编码器特征维度输出设置为(1,128),ResNet34的设计采用空洞卷积,使音频嵌入E
a
时间分辨率与视觉嵌入E
v
相匹配,以方便所述交叉注意力模块,使用25ms分析窗口提取MFCC特征,步幅为10ms,每秒产生100个音频帧。6.根据权利要求1所述的基于音频和面部输入的受话方检测框架,其特征在于,所述交叉注意力网络的核心部分是注意力层,输入为线性层分别投射的音频和视觉嵌入的查询(Q
a
,Q
v
)、键(K
a
,K
v
)和值(V
a
,V
v
)向量,输出为音频注意力特征:音频交叉注意力ACA,和视觉注意力特征:视觉交叉注意力VCA;注意力特征:视觉交叉注意力VCA;其中,d表示Q,A...
【专利技术属性】
技术研发人员:李想,顾建军,朱世强,宋伟,吴洪,林哲远,黄敏,汪雯,瑞嘉,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。