一种基于音视频的说话人定位方法、装置、设备及介质制造方法及图纸

技术编号:39423450 阅读:7 留言:0更新日期:2023-11-19 16:11
本发明专利技术涉及人工智能技术领域,尤其涉及一种基于音视频的说话人定位方法、装置、设备及介质,本申请中,提取音视频中的图像帧中人脸区域的唇部部分与音视频中的音频,将音视频中的人脸区域中的唇部特征与音频特征结合,进行分类判断是否为说话人,从而定位出音视频中的音频对应的说话人,唇部特征与音频特征结合,丰富了特征信息,可以提高判断待检测人脸是否为说话人的准确度,从而提高了说话人定位的准确度,在保险销售行业,对说话人进行高准确度的定位可以有效防止销售人员代替客户读合同条款的情况。条款的情况。条款的情况。

【技术实现步骤摘要】
一种基于音视频的说话人定位方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于音视频的说话人定位方法、装置、设备及介质。

技术介绍

[0002]随着通信技术的发展,音视频的应用越来越广泛,在银行领域均通过音视频进行各种业务操作,如保险行业,代理人向客户销售各种保险,根据保监会的要求,必须全程录音录像,并且保证客户清晰保险合同内容,在很多环节,都需要客户读合同条款,防止代理人诱导或代替读条款,需要对音视频中的说话人进行定位,以判断是否为本人进行了合同读取,现有技术中,对音视频中说话人进行定位一般是通过声源定位的方式从多个用户中确定说话人,即通过说话人的声音来源来确定说话人的位置,进而根据说话人的位置来确定说话人。然而,在确定说话人位置时,声音来源容易受到背景噪声与房间混响的影响,降低了说话人位置确定的准确性,因此,在对音视频中说话人进行定位时,如何提高定位准确度成为亟需解决的问题。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种基于音视频的说话人定位方法、装置、设备及介质,以解决在对音视频中说话人进行定位时,定位准确度较低的问题。
[0004]本申请实施例的第一方面提供了一种基于音视频的说话人定位方法,所述说话人定位方法包括:
[0005]获取说话人待定位的音视频,对所述音视频进行解析,得到每个单位时间中的音频帧序列与图像帧序列;
[0006]针对任一单位时间,对所述音频帧序列进行频谱变换,得到所述音频帧序列对应的梅尔频谱图,通过颜色对照图,将所述梅尔频谱图转换为彩色频谱图;
[0007]在所述图像帧序列中提取包含人脸区域的关键帧序列,对所述关键帧序列中的每一帧图像进行人脸检测,得到每一帧图像中的人脸检测区域;
[0008]在所述关键帧序列中,对每个人脸进行目标跟踪,从每一帧图像中的人脸检测区域中提取对应人脸的人脸检测区域,得到所述关键帧序列中每一帧中对应人脸的人脸检测区域;
[0009]针对任一人脸对应的人脸检测区域,在所述人脸检测区域中提取出唇部的目标区域,得到目标区域,从所述关键帧序列中的每一帧中提取对应目标区域,得到目标区域序列;
[0010]将所述彩色频谱图与所述目标区域序列进行拼接合并,得到合并图像,对所述合并图像进行分类处理,得到分类结果;
[0011]根据每个单位时间中的每个说话人对应的分类结果,对所述音视频中的说话人进行定位,得到定位结果。
[0012]本申请实施例的第二方面提供了一种基于音视频的说话人定位装置,所述说话人定位装置包括:
[0013]获取模块,用于获取说话人待定位的音视频,对所述音视频进行解析,得到每个单位时间中的音频帧序列与图像帧序列;
[0014]变换模块,用于针对任一单位时间,对所述音频帧序列进行频谱变换,得到所述音频帧序列对应的梅尔频谱图,通过颜色对照图,将所述梅尔频谱图转换为彩色频谱图;
[0015]检测模块,用于在所述图像帧序列中提取包含人脸区域的关键帧序列,对所述关键帧序列中的每一帧图像进行人脸检测,得到每一帧图像中的人脸检测区域;
[0016]标记模块,用于在所述关键帧序列中,对每个人脸进行目标跟踪,从每一帧图像中的人脸检测区域中提取对应人脸的人脸检测区域,得到所述关键帧序列中每一帧中对应人脸的人脸检测区域;
[0017]提取模块,用于针对任一人脸对应的人脸检测区域,在所述人脸检测区域中提取出唇部的目标区域,得到目标区域,从所述关键帧序列中的每一帧中提取对应目标区域,得到目标区域序列;
[0018]拼接模块,用于将所述彩色频谱图与所述目标区域序列进行拼接合并,得到合并图像,对所述合并图像进行分类处理,得到分类结果;
[0019]定位模块,用于根据每个单位时间中的每个说话人对应的分类结果,对所述音视频中的说话人进行定位,得到定位结果。
[0020]第三方面,本专利技术实施例提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于音视频的说话人定位方法。
[0021]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于音视频的说话人定位方法。
[0022]本专利技术与现有技术相比存在的有益效果是:
[0023]获取说话人待定位的音视频,对音视频进行解析,得到每个单位时间中的音频帧序列与图像帧序列,针对任一单位时间,对音频帧序列进行频谱变换,得到音频帧序列对应的梅尔频谱图,通过颜色对照图,将梅尔频谱图转换为彩色频谱图,在图像帧序列中提取包含人脸区域的关键帧序列,对关键帧序列中的每一帧图像进行人脸检测,得到每一帧图像中的人脸检测区域,在关键帧序列中,对每个人脸进行目标跟踪,从每一帧图像中的人脸检测区域中提取对应人脸的人脸检测区域,得到关键帧序列中每一帧中对应人脸的人脸检测区域,针对任一人脸对应的人脸检测区域,在人脸检测区域中提取出唇部的目标区域,得到目标区域,从关键帧序列中的每一帧中提取对应目标区域,得到目标区域序列,将彩色频谱图与目标区域序列进行拼接合并,得到合并图像,对合并图像进行分类处理,得到分类结果,根据每个单位时间中的每个说话人对应的分类结果,对音视频中的说话人进行定位,得到定位结果。本申请中,将音视频中的人脸区域中的唇部特征与音频特征结合,进行分类判断是否为说话人,从而定位出音视频中的音频对应的说话人,唇部特征与音频特征结合,丰富了特征信息,可以提高判断待检测人脸是否为说话人的准确度,从而提高了说话人定位的准确度,在保险销售行业,对说话人进行高准确度的定位可以有效防止销售人员代替客
户读合同条款的情况。
附图说明
[0024]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本专利技术一实施例提供的一种基于音视频的说话人定位方法的一应用环境示意图;
[0026]图2是本专利技术一实施例提供的一种基于音视频的说话人定位方法的流程示意图;
[0027]图3是本专利技术一实施例提供的一种基于音视频的说话人定位装置的结构示意图;
[0028]图4是本专利技术一实施例提供的一种终端设备的结构示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]应当理解,当在本专利技术说明书和所附权利要求书本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音视频的说话人定位方法,其特征在于,所述说话人定位方法包括:获取说话人待定位的音视频,对所述音视频进行解析,得到每个单位时间中的音频帧序列与图像帧序列;针对任一单位时间,对所述音频帧序列进行频谱变换,得到所述音频帧序列对应的梅尔频谱图,通过颜色对照图,将所述梅尔频谱图转换为彩色频谱图;在所述图像帧序列中提取包含人脸区域的关键帧序列,对所述关键帧序列中的每一帧图像进行人脸检测,得到每一帧图像中的人脸检测区域;在所述关键帧序列中,对每个人脸进行目标跟踪,从每一帧图像中的人脸检测区域中提取对应人脸的人脸检测区域,得到所述关键帧序列中每一帧中对应人脸的人脸检测区域;针对任一人脸对应的人脸检测区域,在所述人脸检测区域中提取出唇部的目标区域,得到目标区域,从所述关键帧序列中的每一帧中提取对应目标区域,得到目标区域序列;将所述彩色频谱图与所述目标区域序列进行拼接合并,得到合并图像,对所述合并图像进行分类处理,得到分类结果;根据每个单位时间中的每个说话人对应的分类结果,对所述音视频中的说话人进行定位,得到定位结果。2.如权利要求1所述的说话人定位方法,其特征在于,所述对所述音频帧序列进行频谱变换,得到所述音频帧序列对应的梅尔频谱图,包括:使用预设采样率对所述音频帧序列进行重采样,得到重采样后音频帧序列;对所述重采样后音频帧序列进行傅里叶变换,得到傅里叶频谱,对所述傅里叶频谱进行梅尔频谱变换,得到对应的梅尔频谱图。3.如权利要求1所述的说话人定位方法,其特征在于,所述在所述图像帧序列中提取包含人脸区域的关键帧序列,包括:利用帧间差分局部最大值法对所述图像帧序列进行关键帧粗提取,得到初始关键帧序列;利用自适应相似度阈值法对所述初始关键帧序列进行关键帧精提取,得到所述关键帧序列。4.如权利要求1所述的说话人定位方法,其特征在于,所述对所述关键帧序列中的每一帧图像进行人脸检测,得到每一帧图像中的人脸检测区域之后,还包括:对每个人脸检测区域中的人脸进行关键点检测,根据所述关键点的坐标位置,判断所述人脸检测区域中的人脸是否为正脸;若所述人脸不是正脸,对所述人脸进行纠正,得到包含正脸的人脸检测区域。5.如权利要求1所述的说话人定位方法,其特征在于,所述在所述人脸检测区域中提取出唇部的目标区域,包括:对每个人脸检测区域中的人脸进行关键点检测,得到关键点集合;从所述关键点集合中确定所述唇部对应的目标关键点,根据所述目标关键点提取出所述唇部...

【专利技术属性】
技术研发人员:崔希鹏
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1