一种声纹匹配方法和装置及声纹身份识别方法制造方法及图纸

技术编号:36838940 阅读:36 留言:0更新日期:2023-03-15 15:16
本申请实施例公开了一种声纹匹配方法和装置及声纹身份识别方法,该声纹匹配方法包括:获取待处理的音视频,所述音视频中包含有至少一个人员的音视频信息,所述音视频信息包含视频信息和第一音频信息;对所述视频信息进行特征分析获取第一人员语音信息,并对所述第一音频信息分别进行特征分析获取第二人员语音信息,根据所述第一说话时间和所述第二说话时间确定所述音视频中的第一声纹特征与相应人员的对应关系。通过该实施例方案,实现了将音视频中的人员与其对应声音进行匹配,为对存在较多干扰因素的视频中的人员进行身份识别,降低布控难度提供了技术基础。降低布控难度提供了技术基础。降低布控难度提供了技术基础。

【技术实现步骤摘要】
一种声纹匹配方法和装置及声纹身份识别方法


[0001]本申请实施例涉及声音识别技术,尤指一种声纹匹配方法和装置及声纹身份识别方法。

技术介绍

[0002]目前没有特定人员的身份识别方案,仅存在依托音频、单一人脸信息等进行多模态身份认证的方法,该方法需要提供明确的待比对清晰正面人脸图以及只有目标人物声音的待比对音频信息,与预先保存的人脸特征和声纹特征进行比对,无法针对存在多人脸和多人声音干扰的动态视频进行特征提取从而进行身份识别。

技术实现思路

[0003]本申请实施例提供了一种声纹匹配方法和装置及声纹身份识别方法,能够将音视频中的人员与其对应声音进行匹配,为对存在较多干扰因素的视频中的人员进行身份识别提供了技术基础。
[0004]本申请实施例提供了一种声纹身份识别方法,所述方法可以包括:
[0005]获取待处理的音视频;所述音视频中包含有至少一个人员的音视频信息,所述音视频信息包含视频信息和第一音频信息;
[0006]对所述视频信息进行特征分析获取第一人员语音信息,并对所述第一音频信息进行特征分析获取第二人员语音信息;所述第一人员语音信息包括:第一说话时间,所述第二人员语音信息包括:第二说话时间;
[0007]根据所述第一说话时间和所述第二说话时间确定所述音视频中的第一声纹特征与相应人员的对应关系。
[0008]在本申请的示例性实施例中,所述对所述视频信息进行特征分析获取第一人员语音信息,可以包括:
[0009]根据预设的唇语特征算法提取唇语特征,在根据所述唇语特征判断相应人员在所述音视频中存在说话行为时,确定所述唇语特征的产生时间,作为该人员对应的第一说话时间。
[0010]在本申请的示例性实施例中,所述对所述第一音频信息进行特征分析获取第二人员语音信息,可以包括:
[0011]从所述第一音频信息中提取全部第一声纹特征,并对所述全部第一声纹特征中相同的第一声纹特征进行合并;
[0012]获取每一种第一声纹特征对应的说话时间段,作为所述第二说话时间。
[0013]在本申请的示例性实施例中,所述根据所述第一说话时间和所述第二说话时间确定所述音视频中的第一声纹特征与相应人员的对应关系,可以包括:
[0014]由所述音视频包含的视频内的每个人员与相应的第一人员语音信息的对应关系组成人员档案集合;并由所述第一音频信息内的每个第一声纹特征与相应的第二人员语音
信息的对应关系组成声纹档案集合;
[0015]确定出所述人员档案集合中每个人员的第一说话时间集合,以及所述声纹档案集合中每个第一声纹特征的第二说话时间集合;
[0016]将所述第一说话时间集合和所述第二说话时间集合进行比对,确定出所述第一说话时间集合和所述第二说话时间集合中时间重合度最高的多个说话时间组合;
[0017]将符合所述预设条件的说话时间组合所对应的人员身份与第一声纹特征确定对应关系。
[0018]在本申请的示例性实施例中,所述预设条件可以包括:
[0019]任意的说话时间组合中包含的第一子说话时间和第二子说话时间的交集的时长在所述第一说话时间和所述第二说话时间对应的时长中的占比均大于预设的语音产生时间比对置信度参数η%,η为小于或等于100的正数;
[0020]其中,所述第一说话时间集合包含所述第一子说话时间,所述第二说话时间集合包含所述第二子说话时间。
[0021]在本申请的示例性实施例中,所述第一人员语音信息还包括:第一说话语义元素;所述第二人员语音信息还包括:第二说话语义元素;所述方法还可以包括:
[0022]当所述多个说话时间组合中存在多个符合预设条件的说话时间组合,使得未能根据所述第一说话时间和所述第二说话时间确定所述音视频中的第一声纹特征与相应人员的唯一对应关系时;根据所述第一说话时间和所述第一说话语义元素,以及所述第二说话时间和所述第二说话语义元素确定所述视频信息和所述第一音频信息中在同一个时间点是否出现相同的关键词;
[0023]若所述视频信息和所述第一音频信息中在同一个时间点出现相同的关键词,则将与所述相同的关键词对应的第一声纹特征和相应人员之间确定对应关系。
[0024]在本申请的示例性实施例中,所述对所述视频信息进行特征分析获取第一人员语音信息,还可以包括:
[0025]在根据唇语特征判断相应人员在所述音视频中存在说话行为时,根据唇语特征确定可能表达的文字信息,作为该人员对应的第一说话语义元素;
[0026]所述对所述第一音频信息进行特征分析获取第二人员语音信息,还可以包括:
[0027]根据预设的语音识别算法将同一人员的语言声音片段转化为对应的文字信息,作为该人员对应的第二说话语义元素。
[0028]在本申请的示例性实施例中,所述第一人员语音信息还包括:说话可能性标签;在确定出所述第一说话时间集合之前,所述方法还可以包括:
[0029]根据唇语特征和人体特征对相应人员设置相应的说话可能性标签;所述说话可能性标签包括:存在说话行为、不存在说话行为和可能存在说话行为;
[0030]从所述人员档案集合的全部人员中减去所述说话可能性标签为不存在说话行为的人员,获取第一人员集合;以从所述第一人员集合中确定出每个人员的第一说话时间集合。
[0031]本申请实施例还提供了一种声纹匹配装置,可以包括第一处理器和第一计算机可读存储介质,所述第一计算机可读存储介质中存储有指令,当所述指令被所述第一处理器执行时,实现上述任意一项所述的声纹匹配方法。
[0032]本申请实施例还提供了一种声纹身份识别方法,所述方法可以包括:
[0033]获取待处理的第二音频信息,从所述第二音频信息中提取第二声纹特征;
[0034]获取与所述第二音频信息对应的来电所属区域内的音视频,并获取所述音视频中的第一声纹特征与相应人员的对应关系;所述第一声纹特征与相应人员的对应关系是根据上述任意一项所述的声纹匹配方法获得的;
[0035]将所述第二声纹特征与所述第一声纹特征相匹配,根据匹配结果从所述音视频中的相应人员中确定出具有所述第二声纹特征的人员。
[0036]本申请实施例还提供了一种声纹身份识别装置,可以包括第二处理器和第二计算机可读存储介质,所述第二计算机可读存储介质中存储有指令,当所述指令被所述第二处理器执行时,实现所述的声纹身份识别方法。
[0037]与相关技术相比,本申请实施例的声纹特征库创建方法可以包括:获取待处理的音视频,所述音视频中包含有至少一个人员的音视频信息,所述音视频信息包含视频信息和第一音频信息;对所述视频信息进行特征分析获取第一人员语音信息,并对所述第一音频信息分别进行特征分析获取第二人员语音信息,所述第一人员语音信息包括:第一说话时间,所述第二人员语音信息包括:第二说话时间;根据所述第一说话时间和所述第二说话时间确定所述音视频中的第一声纹特征与相应人员的对应关系。通过该实施例方案,实现了将音视频中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹匹配方法,其特征在于,所述方法包括:获取待处理的音视频;所述音视频中包含有至少一个人员的音视频信息,所述音视频信息包含视频信息和第一音频信息;对所述视频信息进行特征分析获取第一人员语音信息,并对所述第一音频信息进行特征分析获取第二人员语音信息;所述第一人员语音信息包括:第一说话时间,所述第二人员语音信息包括:第二说话时间;根据所述第一说话时间和所述第二说话时间确定所述音视频中的第一声纹特征与相应人员的对应关系。2.根据权利要求1所述的声纹匹配方法,其特征在于,所述对所述视频信息进行特征分析获取第一人员语音信息,包括:根据预设的唇语特征算法提取唇语特征,在根据所述唇语特征判断相应人员在所述音视频中存在说话行为时,确定所述唇语特征的产生时间,作为该人员对应的第一说话时间。3.根据权利要求1所述的声纹匹配方法,其特征在于,所述对所述第一音频信息进行特征分析获取第二人员语音信息,包括:从所述第一音频信息中提取全部第一声纹特征,并对所述全部第一声纹特征中相同的第一声纹特征进行合并;获取每一种第一声纹特征对应的说话时间段,作为所述第二说话时间。4.根据权利要求1

3任意一项所述的声纹匹配方法,其特征在于,所述根据所述第一说话时间和所述第二说话时间确定所述音视频中的第一声纹特征与相应人员的对应关系,包括:由所述视频信息内的每个人员与相应的第一人员语音信息的对应关系组成人员档案集合;并由所述第一音频信息内的每个第一声纹特征与相应的第二人员语音信息的对应关系组成声纹档案集合;确定出所述人员档案集合中每个人员的第一说话时间集合,以及所述声纹档案集合中每个第一声纹特征的第二说话时间集合;将所述第一说话时间集合和所述第二说话时间集合进行比对,确定出所述第一说话时间集合和所述第二说话时间集合中时间重合度最高的多个说话时间组合;将符合预设条件的说话时间组合所对应的人员身份与第一声纹特征确定对应关系。5.根据权利要求4所述的声纹匹配方法,其特征在于,所述预设条件包括:任意的说话时间组合中包含的第一子说话时间和第二子说话时间的交集的时长在所述第一说话时间和所述第二说话时间对应的时长中的占比均大于预设的语音产生时间比对置信度参数η%,η为小于或等于100的正数;其中,所述第一说话时间集合包含所述第一子说话时间,所述第二说话时间集合包含所述第二子说话时间。6.根据权利要求4所述的声纹匹配方法,其特征在于,所述第一人员语音信息还包括:第...

【专利技术属性】
技术研发人员:张佳瑞
申请(专利权)人:西安宇视信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1