【技术实现步骤摘要】
本申请涉及人工智能,特别是涉及一种目标对象的识别方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、说话人日志(speaker diarization)是指将音频或视频内容按照什么人在什么时间说话的形式进行记录的一种技术,检测出每段音频或视频对应的说话人身份。说话人日志在转录服务、会议分析、广播新闻索引等应用中起着关键作用。
2、相关技术中,利用音频特征,例如频谱特征和声调模式进行说话人识别和分割,其他技术还加入额外的特征,如定位特征以增强系统性能。然而上述方法在特定的场景效果较好,在真实的复杂场景中,例如电影,或者存在挑战性的场景,例如说话者完全不在屏幕上,说话人身份识别准确度低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够说话人身份识别准确度的目标对象的识别方法、装置、计算机设备、存储介质和计算机程序产品。
2、第一方面,本申请提供了目标对象的识别方法。所述方法包括:
3、从目标视频对应的已分割视频片段集中获取第一视
...【技术保护点】
1.一种目标对象的识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于第一视频片段的特征集合与第二视频片段的特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理,包括:
3.根据权利要求2所述的方法,其特征在于,所述对第一视频片段的特征集合中音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合,包括:
4.根据权利要求3所述的方法,其特征在于,对第一视频片段的特征集合中的音频特征和第一目标对象的脸部特征进行融合处理,得到第一中间特征,包括:
5.根据
...【技术特征摘要】
1.一种目标对象的识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于第一视频片段的特征集合与第二视频片段的特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理,包括:
3.根据权利要求2所述的方法,其特征在于,所述对第一视频片段的特征集合中音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合,包括:
4.根据权利要求3所述的方法,其特征在于,对第一视频片段的特征集合中的音频特征和第一目标对象的脸部特征进行融合处理,得到第一中间特征,包括:
5.根据权利要求2所述的方法,其特征在于,对第一视频片段的特征集合中的音频特征、第一目标对象的脸部特征以及唇部轨迹特征进行特征融合,得到第一融合特征集合,包括:
6.根据权利要求1所述的方法,其特征在于,在所述基于第一视频片段的特征集合与第二视频片段的特征集合的相似度之前,还包括:
7.根据权利要求6所述的方法,其特征在于,所述相似度评分模型的获得方式,包括:
8.根据权利要求7所述的方法,其特征在于,每次迭代训练包括多次获取视频片段样本的特征集合,将所述第一视频片段样本的特征集合和所述第二视频片段样本的特征集合输入至初始相似度评分网络,包括:
9.根据权利要求7所述的方法,其特征在于,获取训练视频对应的样本集合,包括:
10.根据权利要求1所述的方法,其特征在于,从所述第一视频片段中识别得到第一目标对象对应的脸部图像以及唇部图像序列,包括:
11.根据权利要求10所述的方法,其特征在于,所述目标对象检测模型的获得方式包括:
12.根据权利要求1所述的方法,其特征在于,在从目标视频对应的已分割视频片段...
【专利技术属性】
技术研发人员:尹永康,李旭,单瀛,邹月娴,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。