【技术实现步骤摘要】
基于跨模态自监督学习的主动说话人识别方法
[0001]本专利技术属于计算机视觉以及语音识别
,具体涉及一种基于跨模态自监督学习的主动说话人识别方法。
技术介绍
[0002]主动说话人识别是视频分析算法中的一个重要组成部分,该任务通过分析微小的面部运动和相应的语音波形,在一组可能的候选人中识别出主动说话者。主动说话人识别是大量后续任务的必要基础,比如说话人分类、会议视频重定位、语音增强和人机交互等应用,主要依据视频帧中的人物面部特征和当前音频中人物声音特征的相似程度来区分识别。若人物面部特征和人物声音特征的相似度超过特定阈值,则当前声音由该人物发出,并称其为主动说话人,反之则为非主动说话人。
[0003]近年来,随着深度学习的不断发展,尤其是卷积神经网络在目标识别上的优异表现,使得越来越多的目标识别任务能够实现高效自动化。一些研究已将卷积神经网络应用于主动说话人识别的任务中。
[0004]然而,目前的主动说话人识别模型对数据标注的依赖性较强,仅仅利用人工标注的正负图像样本进行训练。在现实情况中,由于网络社 ...
【技术保护点】
【技术特征摘要】
1.一种基于跨模态自监督学习的主动说话人识别方法,其特征在于,包括以下步骤:步骤S1,利用训练数据对主动说话人识别模型进行跨模态自监督学习,获得合适的模型参数;步骤S2,将待测视频输入训练完成的所述主动说话人识别模型,得到所述待测视频的主动说话人识别结果,其中,步骤S2中,所述主动说话人识别模型通过如下步骤进行识别:步骤S2
‑
1,提取所述待测视频的视觉特征和听觉特征,并基于所述视觉特征和所述听觉特征计算所述待测视频中每帧图像的注意力图;步骤S2
‑
2,采用光流法融合所述注意力图,提取每帧所述注意力图的密度光流值,并将所述密度光流值进行链接,得到光流轨迹,并对所述光流轨迹上的注意力得分进行平均;步骤S2
‑
3,寻找所述注意力图中的峰值点,并采用非极大值抑制法去除干扰项;步骤S2
‑
4,将找到的所述峰值点沿所述光流轨迹反向投影到每帧所述图像,从而定位各帧所述图像中的人脸位置;步骤S2
‑
5,计算所述人脸位置的所述视觉特征和所述听觉特征的余弦相似度,当该余弦相似度大于预定的阈值时,判定所述人脸位置对应于主动说话人。2.根据权利要求1所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:其中,步骤S1中,利用视频的同步性特征构建所述训练数据。3.根据权利要求2所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:其中,将所述视频中连续的N帧图像和对应的音频信号组成正样本对,将所述视频中连续的N帧图像和偏移t秒后的音频信号组成负样本对。4.根据权利要求1所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:其中,所述主动说话人识别模型包括依次设...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。