一种基于音视频的说话人定位方法、装置、设备及介质制造方法及图纸

技术编号：39423450 阅读：7 留言：0更新日期：2023-11-19 16:11

本发明专利技术涉及人工智能技术领域，尤其涉及一种基于音视频的说话人定位方法、装置、设备及介质，本申请中，提取音视频中的图像帧中人脸区域的唇部部分与音视频中的音频，将音视频中的人脸区域中的唇部特征与音频特征结合，进行分类判断是否为说话人，从而定位出音视频中的音频对应的说话人，唇部特征与音频特征结合，丰富了特征信息，可以提高判断待检测人脸是否为说话人的准确度，从而提高了说话人定位的准确度，在保险销售行业，对说话人进行高准确度的定位可以有效防止销售人员代替客户读合同条款的情况。条款的情况。条款的情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音视频的说话人定位方法、装置、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种基于音视频的说话人定位方法、装置、设备及介质。

技术介绍

[0002]随着通信技术的发展，音视频的应用越来越广泛，在银行领域均通过音视频进行各种业务操作，如保险行业，代理人向客户销售各种保险，根据保监会的要求，必须全程录音录像，并且保证客户清晰保险合同内容，在很多环节，都需要客户读合同条款，防止代理人诱导或代替读条款，需要对音视频中的说话人进行定位，以判断是否为本人进行了合同读取，现有技术中，对音视频中说话人进行定位一般是通过声源定位的方式从多个用户中确定说话人，即通过说话人的声音来源来确定说话人的位置，进而根据说话人的位置来确定说话人。然而，在确定说话人位置时，声音来源容易受到背景噪声与房间混响的影响，降低了说话人位置确定的准确性，因此，在对音视频中说话人进行定位时，如何提高定位准确度成为亟需解决的问题。

技术实现思路

[0003]基于此，有必要针对上述技术问题，提供一种基于音视频的说话人定位方法、装置、设备及介质，以解决在对音视频中说话人进行定位时，定位准确度较低的问题。
[0004]本申请实施例的第一方面提供了一种基于音视频的说话人定位方法，所述说话人定位方法包括：
[0005]获取说话人待定位的音视频，对所述音视频进行解析，得到每个单位时间中的音频帧序列与图像帧序列；
[0006]针对任一单位时间，对所述音频帧序列进行频谱变换，得到所述音频帧序列对应的梅尔频谱图，通...

【技术保护点】

【技术特征摘要】
1.一种基于音视频的说话人定位方法，其特征在于，所述说话人定位方法包括：获取说话人待定位的音视频，对所述音视频进行解析，得到每个单位时间中的音频帧序列与图像帧序列；针对任一单位时间，对所述音频帧序列进行频谱变换，得到所述音频帧序列对应的梅尔频谱图，通过颜色对照图，将所述梅尔频谱图转换为彩色频谱图；在所述图像帧序列中提取包含人脸区域的关键帧序列，对所述关键帧序列中的每一帧图像进行人脸检测，得到每一帧图像中的人脸检测区域；在所述关键帧序列中，对每个人脸进行目标跟踪，从每一帧图像中的人脸检测区域中提取对应人脸的人脸检测区域，得到所述关键帧序列中每一帧中对应人脸的人脸检测区域；针对任一人脸对应的人脸检测区域，在所述人脸检测区域中提取出唇部的目标区域，得到目标区域，从所述关键帧序列中的每一帧中提取对应目标区域，得到目标区域序列；将所述彩色频谱图与所述目标区域序列进行拼接合并，得到合并图像，对所述合并图像进行分类处理，得到分类结果；根据每个单位时间中的每个说话人对应的分类结果，对所述音视频中的说话人进行定位，得到定位结果。2.如权利要求1所述的说话人定位方法，其特征在于，所述对所述音频帧序列进行频谱变换，得到所述音频帧序列对应的梅尔频谱图，包括：使用预设采样率对所述音频帧序列进行重采样，得到重采样后音频帧序列；对所述重采样后音频帧序列进行傅里叶变换，得到傅里叶频谱，对所述傅里叶频谱进行梅尔频谱变换，得到对应的梅尔频谱图。3.如权利要求1所述的说话人定位方法，其特征在于，所述在所述图像帧序列中提取包含人脸区域的关键帧序列，包括：利用帧间差分局部最大值法对所述图像帧序列进行关键帧粗提取，得到初始关键帧序列；利用自适应相似度阈值法对所述初始关键帧序列进行关键帧精提取，得到所述关键帧序列。4.如权利要求1所述的说话人定位方法，其特征在于，所述对所述关键帧序列中的每一帧图像进行人脸检测，得到每一帧图像中的人脸检测区域之后，还包括：对每个人脸检测区域中的人脸进行关键点检测，根据所述关键点的坐标位置，判断所述人脸检测区域中的人脸是否为正脸；若所述人脸不是正脸，对所述人脸进行纠正，得到包含正脸的人脸检测区域。5.如权利要求1所述的说话人定位方法，其特征在于，所述在所述人脸检测区域中提取出唇部的目标区域，包括：对每个人脸检测区域中的人脸进行关键点检测，得到关键点集合；从所述关键点集合中确定所述唇部对应的目标关键点，根据所述目标关键点提取出所述唇部...

【专利技术属性】
技术研发人员：崔希鹏，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人