System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 目标对象的识别方法、装置、计算机设备和存储介质制造方法及图纸_技高网

目标对象的识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:40417896 阅读:7 留言:0更新日期:2024-02-20 22:35
本申请涉及目标对象的识别方法、装置、计算机设备和存储介质。所述方法包括:从目标视频对应的已分割视频片段集中获取第一视频片段及第二视频片段;基于第一视频片段的特征集合与第二视频片段的特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理,直至所述已分割视频片段集中的各个视频片段处理完毕,得到所述目标视频对应的聚类簇,其中同一个聚类簇中的视频片段被识别为同一个目标对象所属音频的视频片段。本申请提高了说话人身份识别的准确度。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种目标对象的识别方法、装置、计算机设备、存储介质和计算机程序产品。


技术介绍

1、说话人日志(speaker diarization)是指将音频或视频内容按照什么人在什么时间说话的形式进行记录的一种技术,检测出每段音频或视频对应的说话人身份。说话人日志在转录服务、会议分析、广播新闻索引等应用中起着关键作用。

2、相关技术中,利用音频特征,例如频谱特征和声调模式进行说话人识别和分割,其他技术还加入额外的特征,如定位特征以增强系统性能。然而上述方法在特定的场景效果较好,在真实的复杂场景中,例如电影,或者存在挑战性的场景,例如说话者完全不在屏幕上,说话人身份识别准确度低。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够说话人身份识别准确度的目标对象的识别方法、装置、计算机设备、存储介质和计算机程序产品。

2、第一方面,本申请提供了目标对象的识别方法。所述方法包括:

3、从目标视频对应的已分割视频片段集中获取第一视频片段及第二视频片段;

4、获取所述第一视频片段对应的音频片段,第二视频片段对应的音频片段;

5、从所述第一视频片段中识别得到第一目标对象对应的脸部图像以及唇部图像序列,以及从所述第二视频片段中识别得到第二目标对象对应的脸部图像以及唇部图像序列;

6、分别对所述第一视频片段对应的音频片段、所述第一目标对象对应的脸部图像、以及唇部图像序列进行特征提取,得到第一视频片段的特征集合,以及分别对所述第二视频片段对应的音频片段、所述第二目标对象对应的脸部图像、以及唇部图像序列进行特征提取,得到第二视频片段的特征集合;其中,特征集合包括音频特征、脸部特征以及唇部轨迹特征;

7、基于第一视频片段的特征集合与第二视频片段的特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理,直至所述已分割视频片段集中的各个视频片段处理完毕,得到所述目标视频对应的聚类簇,其中同一个聚类簇中的视频片段被识别为同一个目标对象所属音频的视频片段。

8、第二方面,本申请提供了一种视频中目标对象相似度预测模型的训练方法。所述方法包括:

9、获取训练视频对应的样本集合,其中,样本集合中包括第一视频片段样本和第二视频片段样本;其中,所述第一视频片段样本和第二视频片段样本上分别标注有对象标识;其中,所述对象标识用于生成标注结果;

10、获取第一视频片段样本的特征集合,以及第二视频片段样本的特征集合;其中特征集合均包括:音频特征、脸部特征以及唇部轨迹特征;

11、将所述第一视频片段样本的特征集合和所述第二视频片段样本的特征集合输入至初始相似度评分网络,输出预测结果;

12、基于所述预测结果与对应的标注结果的差异,对所述初始相似度评分网络进行迭代调整,直至所述差异满足预设要求,得到视频中目标对象相似度的预测模型。

13、第三方面,本申请还提供了一种目标对象的识别装置,所述装置包括:

14、第一获取模块,用于从目标视频对应的已分割视频片段集中获取第一视频片段及第二视频片段;

15、第二获取模块,用于获取所述第一视频片段对应的音频片段,第二视频片段对应的音频片段;

16、识别模块,用于从所述第一视频片段中识别得到第一目标对象对应的脸部图像以及唇部图像序列,以及从所述第二视频片段中识别得到第二目标对象对应的脸部图像以及唇部图像序列;

17、特征提取模块,用于分别对所述第一视频片段对应的音频片段、所述第一目标对象对应的脸部图像、以及唇部图像序列进行特征提取,得到第一视频片段的特征集合,以及分别对所述第二视频片段对应的音频片段、所述第二目标对象对应的脸部图像、以及唇部图像序列进行特征提取,得到第二视频片段的特征集合;其中,特征集合包括音频特征、脸部特征以及唇部轨迹特征;

18、聚类模块,用于基于第一视频片段的特征集合与第二视频片段的特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理,直至所述已分割视频片段集中的各个视频片段处理完毕,得到所述目标视频对应的聚类簇,其中同一个聚类簇中的视频片段被识别为同一个目标对象所属音频的视频片段。

19、在一个实施例中,所述聚类模块还用于:

20、对第一视频片段的特征集合中的音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合;

21、对第二视频片段的特征集合中的音频特征、第二目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第二融合特征集合;

22、基于第一融合特征集合和第二融合特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理。

23、在一个实施例中,所述聚类模块还用于:

24、对第一视频片段的特征集合中的音频特征和第一目标对象的脸部特征进行融合处理,得到第一中间特征;

25、将所述第一中间特征和所述第一目标对象的唇部轨迹特征进行融合处理,得到第一融合特征集合。

26、在一个实施例中,所述聚类模块还用于:

27、通过注意力机制提取音频特征中的音频特征值、音频特征键值和音频特征查询向量;

28、通过注意力机制提取第一目标对象的脸部特征中的脸部特征值、脸部特征键值和脸部特征查询向量;

29、基于音频特征键值与脸部特征查询向量的相关度,对音频特征值进行加权求和,得到第一输出特征;

30、基于脸部特征键值与音频特征查询向量的相关度,对脸部特征值进行加权求和,得到第二输出特征;

31、将所述第一输出特征和所述第二输出特征进行拼接处理,得到第一中间特征。

32、在一个实施例中,所述聚类模块还用于:

33、对第一视频片段的特征集合中的音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合,包括:

34、对第一视频片段的特征集合中的音频特征和第一目标对象的脸部特征进行融合处理,得到第一中间特征;

35、对第一视频片段的特征集合中的音频特征和第一目标对象的唇部轨迹特征进行融合处理,得到第二中间特征;

36、对第一目标对象的脸部特征和第一目标对象的唇部轨迹特征进行融合处理,得到第三中间特征;

37、将所述第一中间特征、所述第二中间特征和所述第三中间特征进行拼接处理,得到第一融合特征集合。

38、在一个实施例中,目标对象的识别装置还包括相似度预测模块,所述相似度预测模块用于:

39、将所述第一视频片段的特征集合和所述第二视频片段的特征集合输入至相似度评分模型,输出所述第一视频片段的特征集合与所述第二视频片段的特征集合的相似度。

40、在一个实施例中,所述相似度预测模块还用于:

41、获取训练视频对应的样本集合,其中,样本集合中包括第一视频片段样本文档来自技高网...

【技术保护点】

1.一种目标对象的识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于第一视频片段的特征集合与第二视频片段的特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理,包括:

3.根据权利要求2所述的方法,其特征在于,所述对第一视频片段的特征集合中音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合,包括:

4.根据权利要求3所述的方法,其特征在于,对第一视频片段的特征集合中的音频特征和第一目标对象的脸部特征进行融合处理,得到第一中间特征,包括:

5.根据权利要求2所述的方法,其特征在于,对第一视频片段的特征集合中的音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合,包括:

6.根据权利要求1所述的方法,其特征在于,在所述基于第一视频片段的特征集合与第二视频片段的特征集合的相似度之前,还包括:

7.根据权利要求6所述的方法,其特征在于,所述相似度评分模型的获得方式,包括:

8.根据权利要求7所述的方法,其特征在于,每次迭代训练包括多次获取视频片段样本的特征集合,将所述第一视频片段样本的特征集合和所述第二视频片段样本的特征集合输入至初始相似度评分网络,包括:

9.根据权利要求7所述的方法,其特征在于,获取训练视频对应的样本集合,包括:

10.根据权利要求1所述的方法,其特征在于,从所述第一视频片段中识别得到第一目标对象对应的脸部图像以及唇部图像序列,包括:

11.根据权利要求10所述的方法,其特征在于,所述目标对象检测模型的获得方式包括:

12.根据权利要求1所述的方法,其特征在于,在从目标视频对应的已分割视频片段集中获取第一视频片段及第二视频片段,之前还包括:

13.一种视频中目标对象相似度预测模型的训练方法,其特征在于,相似度预测模型包括相似度评分网络,所述方法包括:

14.根据权利要求13所述的方法,其特征在于,每次迭代训练包括多次获取视频片段样本的特征集合,将所述第一视频片段样本的特征集合和所述第二视频片段样本的特征集合输入至初始相似度评分网络,包括:

15.根据权利要求13所述的方法,其特征在于,所述相似度预测模型还包括特征融合网络,所述将所述第一视频片段样本的特征集合和所述第二视频片段样本的特征集合输入至初始相似度评分网络,输出预测结果,包括:

16.一种目标对象的识别装置,其特征在于,所述装置包括:获取从目标视频对应的已分割视频片段集中获取第一视频片段及第二视频片段;

17.一种视频中目标对象相似度预测模型的训练装置,其特征在于,相似度预测模型包括相似度评分网络,所述装置包括:

18.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤或者实现权利要求1至12中任一项所述的方法的步骤13至15中任一项所述的方法的步骤。

19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤或者实现权利要求1至12中任一项所述的方法的步骤13至15中任一项所述的方法的步骤。

20.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤或者实现权利要求1至12中任一项所述的方法的步骤13至15中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种目标对象的识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于第一视频片段的特征集合与第二视频片段的特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理,包括:

3.根据权利要求2所述的方法,其特征在于,所述对第一视频片段的特征集合中音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合,包括:

4.根据权利要求3所述的方法,其特征在于,对第一视频片段的特征集合中的音频特征和第一目标对象的脸部特征进行融合处理,得到第一中间特征,包括:

5.根据权利要求2所述的方法,其特征在于,对第一视频片段的特征集合中的音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合,包括:

6.根据权利要求1所述的方法,其特征在于,在所述基于第一视频片段的特征集合与第二视频片段的特征集合的相似度之前,还包括:

7.根据权利要求6所述的方法,其特征在于,所述相似度评分模型的获得方式,包括:

8.根据权利要求7所述的方法,其特征在于,每次迭代训练包括多次获取视频片段样本的特征集合,将所述第一视频片段样本的特征集合和所述第二视频片段样本的特征集合输入至初始相似度评分网络,包括:

9.根据权利要求7所述的方法,其特征在于,获取训练视频对应的样本集合,包括:

10.根据权利要求1所述的方法,其特征在于,从所述第一视频片段中识别得到第一目标对象对应的脸部图像以及唇部图像序列,包括:

11.根据权利要求10所述的方法,其特征在于,所述目标对象检测模型的获得方式包括:

12.根据权利要求1所述的方法,其特征在于,在从目标视频对应的已分割视频片段...

【专利技术属性】
技术研发人员:尹永康李旭单瀛邹月娴
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1