当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于音频和面部输入的受话方检测框架和方法技术

技术编号:36375192 阅读:59 留言:0更新日期:2023-01-18 09:35
本发明专利技术属于视听处理、机器学习技术领域,公开了一种基于音频和面部输入的受话方检测框架和方法,前端包括音频流编码器和视频流编码器;后端包括交叉注意力模块;双线性融合模块以及自注意力模块;本发明专利技术框架输入可变长度的音频和面部区域信息,并通过联合分析音频和面部特征,预测每帧中的受话方。它使用在人对人和人对机器人混合设置中记录的数据集。因此,所述框架可应用并适用于机器人,以区分机器人是否为受话方。使得机器人具有智能视听感知能力,提高了机器人智能化程度。提高了机器人智能化程度。提高了机器人智能化程度。

【技术实现步骤摘要】
一种基于音频和面部输入的受话方检测框架和方法


[0001]本专利技术属于视听处理、机器学习
,尤其涉及一种基于音频和面 部输入的受话方检测框架和方法。

技术介绍

[0002]类人型机器人的根本挑战是具有智能视听感知能力系统,以辅助与人类 的自然交互和合作。丰富此系统的方式之一是让机器人识别它是否为受话方。 它帮助机器人决定是否对人类话语做出反应。其主要应用于导引机器人、同 伴助理、机器人管家、机器人救生员和移动护理机器人。然而,尽管有少量 先前的工作,这一领域还没有得到广泛的探索,以最先进的方法在现实环境 中使用有效的沟通线索。虽然近年来国内外对AD的研究取得了重要的进展, 但还没有研究将音频和视频(面部)特征结合起来探讨AD。先前的工作没有 从现有的音频和视频信息、长时间和短时间片段中获得太多益处。这些研究 大多集中在0.2s到0.6s的片段级(单幅图像)信息,很难从单幅图像或0.2s 的视频片段预测对话活动。然而,在现实中,人们会考虑跨越数百个视频帧 的整个句子来判断一个人是否在对另一个人说话。例如,一个5秒的视频平 均包含15个单词,0.2秒的短时间片段甚至不能覆盖一个完整的单词。此外, 现有的框架在人对人或人对机器人的设置中使用在有固定参与者的会议室中 记录的数据集,这不适用于人机交互。再者,现有的受话方检测工作广泛采 用统计和基于规则的方法,这些方法仅适用于特定任务,无法适用于其他情 况,例如,不同的动作和沟通表达以及不同的参与者数量。

技术实现思路

[0003]本专利技术目的在于提供一种基于音频和面部输入的受话方检测框架和方法, 以解决上述的技术问题。
[0004]为解决上述技术问题,本专利技术的一种基于音频和面部输入的受话方检测 框架和方法的具体技术方案如下:
[0005]一种基于音频和面部输入的受话方检测框架,所述框架包括基于双流的 端到端框架ADNet,ADNet用于剪裁人脸区域的可变时间长度和相应的音频 片段作为输入,并预测人类是在对机器人还是对其他人说话,ADNet包括 前端和后端,所述前端包括音频流编码器和视频流编码器;所述后端包括交 叉注意力模块;双线性融合模块以及自注意力模块;
[0006]所述视频流编码器用于输入N个连续人脸区域,并学习面部区域运动的 长时间表示;
[0007]所述音频流编码器从时间动态中学习音频特征表示;
[0008]所述交叉注意力模块用于动态关联视频和音频内容;
[0009]所述双线性融合模块用于融合视频和音频两个模态;
[0010]所述自注意力模块用于在话语层面从背景监测受话方活动。
[0011]进一步的,所述视频流包括两个子模块:视觉前端网络模块和视觉时间卷 积模
块,用于将视频流编码为具有相同时间分辨率的视觉嵌入E
v
序列。
[0012]进一步的,包括全连接层,全连接层通过softmax操作将自注意力网络的 输出投射到AD标签序列。
[0013]进一步的,所述视觉前端网络模块采用3D

ResNet,从时空卷积,即3D 卷积层开始,然后通过18层残差网络ResNet18逐步降低空间维数,学习 每个视频帧的空间信息,并将视频帧流编码为基于帧的嵌入序列;所述视 觉时间卷积模块V

TCN用于表示长时间视觉时空流中的时间内容,V

TCN包括五个残差连接线性单元ReLU,批归一化BN和深度可分离卷 积层DSConv1D,最后,加入Conv1D层,将特征维数降至128。
[0014]进一步的,所述音频流编码器采用包含压缩和激励SE模块的ResNet

34 网络;所述音频流编码器使用梅尔频率倒谱系数MFCC,每个时间步使 用13个梅尔频率带,所述ResNet

34网络输入音频帧序列以生成音频嵌 入E
a
序列,所述音频流编码器特征维度输出设置为(1,128),ResNet34 的设计采用空洞卷积,使音频嵌入E
a
时间分辨率与视觉嵌入E
v
相匹配, 以方便所述交叉注意力模块,使用25ms分析窗口提取MFCC特征,步幅 为10ms,每秒产生100个音频帧。
[0015]进一步的,所述交叉注意力网络的核心部分是注意力层,输入为线性层分 别投射的音频和视觉嵌入的查询(Q
a
,Q
v
)、键(K
a
,K
v
)和值(V
a
,V
v
) 向量,输出为音频注意力特征:音频交叉注意力ACA,和视觉注意力特 征:视觉交叉注意力VCA;
[0016][0017][0018]其中,d表示Q,A和V的维度,ACA通过采用视频流中的目标序列来生 成查询,采用音频流中的源序列来生成键和值来学习,从而生成新的交互 音频特征,反之亦然,以类似的方式生成新的视觉特征;最后,在将两个 交叉注意力模块送入融合层之前,增加前馈层、残差连接和层归一化,生 成最终交叉注意力网络。
[0019]进一步的,视频和音频流交叉注意力生成的128维音频和128维视觉注意 力每帧特征与双线性融合连接,BLF=f
blp
(ACA
ij
,VCA
ij
),然后对位置求和, 以沿时间方向连接特征:
[0020][0021]由此产生的特征捕获了相应空间位置的相乘交互作用,在视 听交叉注意力层融合音频和视觉注意力特征生成融合特征E
av
后,增加 BLF。
[0022]进一步的,采用自注意力模块输入BLF的融合特征E
av
,对视听话语层面 时间信息进行建模。
[0023]进一步的,将AD视为帧级分类任务,通过交叉熵损失将预测的标签序列 与地面实况标签序列进行比较,损失函数如下,其中P
i
和y
i
是j
th
视频帧 j∈[a,N]的预测和地面实况AD标签,N为视频帧数;
[0024][0025]本专利技术还公开了一种基于音频和面部输入的受话方检测框架进行深度学 习的方法,包括如下步骤:
[0026]步骤1:构建在人对人和人对机器人混合设置中记录的数据集,通过增加 对话活动的时空注释来扩展现有的MuMMER数据集,或使用自定义数据 集,在人对人和人对机器人之间发生对话的场景中记录数据集。由人类注 释器生成受话方标签,从而对数据集进行注释,画面中每张说话的人脸均 注释为边界框区域(x、y),x表示宽度,Y表示高度;活动时间轴描述 了音频波形,以标记语音的开始和结束时间戳,手动选择开始和结束时间 戳([(t
s0
,t
e0
),(t
s1
,t
e1
),...,(t
sn
,t
en
)])的语音片段,并根据所选语 音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频和面部输入的受话方检测框架,所述框架包括基于双流的端到端框架ADNet,ADNet用于剪裁人脸区域的可变时间长度和相应的音频片段作为输入,并预测人类是在对机器人还是对其他人说话,其特征在于,ADNet包括前端和后端,所述前端包括音频流编码器和视频流编码器;所述后端包括交叉注意力模块;双线性融合模块以及自注意力模块;所述视频流编码器用于输入N个连续人脸区域,并学习面部区域运动的长时间表示;所述音频流编码器从时间动态中学习音频特征表示;所述交叉注意力模块用于动态关联视频和音频内容;所述双线性融合模块用于融合视频和音频两个模态;所述自注意力模块用于在话语层面从背景监测受话方活动。2.根据权利要求1所述的基于音频和面部输入的受话方检测框架,其特征在于,所述视频流包括两个子模块:视觉前端网络模块和视觉时间卷积模块,用于将视频流编码为具有相同时间分辨率的视觉嵌入E
v
序列。3.根据权利要求1所述的基于音频和面部输入的受话方检测框架,其特征在于,包括全连接层,全连接层通过softmax操作将自注意力网络的输出投射到AD标签序列。4.根据权利要求2所述的基于音频和面部输入的受话方检测框架,其特征在于,所述视觉前端网络模块采用3D

ResNet,从时空卷积,即3D卷积层开始,然后通过18层残差网络ResNet18逐步降低空间维数,学习每个视频帧的空间信息,并将视频帧流编码为基于帧的嵌入序列;所述视觉时间卷积模块V

TCN用于表示长时间视觉时空流中的时间内容,V

TCN包括五个残差连接线性单元ReLU,批归一化BN和深度可分离卷积层DSConv1D,最后,加入Conv1D层,将特征维数降至128。5.根据权利要求1所述的基于音频和面部输入的受话方检测框架,其特征在于,所述音频流编码器采用包含压缩和激励SE模块的ResNet

34网络;所述音频流编码器使用梅尔频率倒谱系数MFCC,每个时间步使用13个梅尔频率带,所述ResNet

34网络输入音频帧序列以生成音频嵌入E
a
序列,所述音频流编码器特征维度输出设置为(1,128),ResNet34的设计采用空洞卷积,使音频嵌入E
a
时间分辨率与视觉嵌入E
v
相匹配,以方便所述交叉注意力模块,使用25ms分析窗口提取MFCC特征,步幅为10ms,每秒产生100个音频帧。6.根据权利要求1所述的基于音频和面部输入的受话方检测框架,其特征在于,所述交叉注意力网络的核心部分是注意力层,输入为线性层分别投射的音频和视觉嵌入的查询(Q
a
,Q
v
)、键(K
a
,K
v
)和值(V
a
,V
v
)向量,输出为音频注意力特征:音频交叉注意力ACA,和视觉注意力特征:视觉交叉注意力VCA;注意力特征:视觉交叉注意力VCA;其中,d表示Q,A...

【专利技术属性】
技术研发人员:李想顾建军朱世强宋伟吴洪林哲远黄敏汪雯瑞嘉
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1