说话人识别方法、装置、电子设备、介质及程序产品制造方法及图纸

技术编号：43466713 阅读：22 留言：0更新日期：2024-11-27 13:03

本申请提供一种说话人识别方法、装置、电子设备、介质及程序产品，该说话人识别方法，包括：对待识别视频进行场景检测，基于场景检测的结果将待识别视频分为多个视频分段；针对各视频分段，分离得到视频分段中的音频数据和视频帧；提取视频帧的人脸特征以及提取音频数据的音频特征；针对多个视频分段中场景切换的多个视频帧，提取多个视频帧的人脸深度特征，并计算多个视频帧中相邻视频帧的人脸深度特征的距离，得到跨场景距离特征；基于跨场景距离特征、人脸特征和音频特征，从视频分段包含的人脸中识别说话人。实现了逐场景进行说话人识别，同时结合跨场景特征实现人脸关联，克服了由于场景切换导致说话人识别准确度较差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音视频处理，尤其涉及一种说话人识别方法、装置、电子设备、介质及程序产品。

技术介绍

1、说话人识别指的是自动识别出一段音频或视频中出现的不同的说话人，以便于将音频或视频按照不同说话人切分为多个分段。在对人对话场景下，快速、准确地检测出说话人，提取出指定说话人的语音或视频，对多媒体内容创作、视频定制化、不同语言下的口型调整等场景均有着较高的应用价值。

2、在识别多人对话视频中的说话人时，相关技术通常将整个视频视为一个整体，通过视觉特征和音频特征的提取和匹配，识别出视频中的说话人。本申请专利技术人在研究时发现，在多人对话场景下，说话人存在一定时间内频繁切换或者说话人运动的情况，导致视频的连续性和完整性较差，将整个视频视为一个整体进行说话人识别的方式，准确度较差。

3、因此，亟需提供一种准确度高的多人对话视频中说话人识别的方案。

技术实现思路

1、本申请提供一种说话人识别方法、装置、电子设备、介质及程序产品，通过场景检测实现视频分段，逐分段进行说话人识别，克服了...

【技术保护点】

1.一种说话人识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，针对所述多个视频分段中场景切换的多个视频帧，提取所述多个视频帧的人脸深度特征，并计算所述多个视频帧中相邻视频帧的人脸深度特征的距离，得到跨场景距离特征，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述人脸特征用于描述视频帧中包含的人脸对应的人脸框的特征，基于所述跨场景距离特征、所述人脸特征和所述音频特征，从所述视频分段包含的人脸中识别说话人，包括：

4.根据权利要求3所述的方法，其特征在于，基于所述跨场景距离特征，确定所述多个视频分段中场景切换的相邻视频帧中...

【技术特征摘要】

1.一种说话人识别方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，基于所述跨场景距离特征，确定所述多个视频分段中场景切换的相邻视频帧中同一人脸框的连接关系，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述人脸特...

【专利技术属性】
技术研发人员：王成，
申请(专利权)人：万兴科技湖南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人