说话人检测方法、设备、存储介质及程序产品技术

技术编号：33459828 阅读：25 留言：0更新日期：2022-05-19 00:41

本申请提供一种说话人检测方法、设备、存储介质及程序产品，其中方法包括：根据视频中至少一个用户的唇部信息，从至少一个用户中确定说话人，并存储说话人的声纹信息，若检测到说话人的唇部信息丢失，则通过存储的声纹信息确定视频中的说话人。本申请可以在根据唇部信息确定说话人之后，存储说话人的声纹信息，并在唇部信息丢失后，启用声纹识别来继续跟踪说话人，减少了视频过程中由于说话人低头或者侧身等操作导致无法正确定位说话人的情况，提高了说话人检测的准确性，提高了用户的应用体验。验。验。

全部详细技术资料下载

【技术实现步骤摘要】
说话人检测方法、设备、存储介质及程序产品

[0001]本申请涉及视频处理
，尤其涉及一种说话人检测方法、设备、存储介质及程序产品。

技术介绍

[0002]视频会议是指位于两个或多个地点的多个用户通过通信设备和网络，进行面对面交谈的会议。在视频会议过程中，涉及到不同的用户进行发言，且在用户发言过程中，需要从多个用户中确定说话人。
[0003]现有技术中，一般是通过声源定位的方式从多个用户中确定说话人，即通过说话人的声音来源来确定说话人的位置，进而根据说话人的位置来确定说话人。
[0004]然而，在确定说话人位置时，声音来源容易受到背景噪声与房间混响的影响，降低了说话人位置确定的准确性，且在确定了说话人位置之后，该位置可能对应着多个用户，也无法准确确定哪个用户是真正的说话人，进而降低了说话人确定的准确性。

技术实现思路

[0005]本申请实施例的主要目的在于提供一种说话人检测方法、设备、存储介质及程序产品，以提高说话人检测的准确性。
[0006]第一方面，本申请实施例提供一种说话人检

【技术保护点】

【技术特征摘要】
1.一种说话人检测方法，其特征在于，包括：根据视频中至少一个用户的唇部信息，从所述至少一个用户中确定说话人，并存储所述说话人的声纹信息；若检测到所述说话人的唇部信息丢失，则通过存储的声纹信息确定视频中的说话人。2.根据权利要求1所述的方法，其特征在于，还包括：在所述视频的播放过程中，截取所述视频中各个用户的人脸图像；在所述视频的播放界面的预设位置，显示各个用户的人脸图像，并对当前确定的说话人的人脸图像进行标识。3.根据权利要求1所述的方法，其特征在于，所述视频中的声音通过麦克风阵列采集得到；根据视频中至少一个用户的唇部信息，从至少一个用户中确定说话人，包括：通过所述麦克风阵列采集的声音确定声源方向；根据所述声源方向，确定说话人在视频图像中的位置范围；根据所述位置范围内的至少一个用户的唇部信息，从所述至少一个用户中确定说话人。4.根据权利要求1所述的方法，其特征在于，根据视频中至少一个用户的唇部信息，从所述至少一个用户中确定说话人，包括：通过预设的时间窗获取视频中的视频片段；对于任一用户，从所述视频片段的多帧图像中提取所述用户的唇部信息，并根据多帧图像中唇部信息的变化，确定所述用户是否为说话人。5.根据权利要求4所述的方法，其特征在于，所述唇部信息用于指示唇部的关键点所在位置；从所述视频片段的多帧图像中提取所述用户的唇部信息，包括：从各帧图像中提取出所述用户的人脸图像，将人脸图像输入到脸部关键点识别模型，得到人脸的多个关键点；根据人脸的多个关键点中的唇部关键点确定唇部图像；将所述唇部图像输入到唇部关键点识别模型，得到唇部的多个关键点。6.根据权利要求4所述的方法，其特征在于，根据多帧图像中唇部信息的变化，确定所述用户是否为说话人，包括：根据唇部的多个关键点确定各帧唇部图像对应的唇部打开程度；根据每一唇部图像相对于前一唇部图像的唇部打开程度的变化，确定该唇部图像对应的唇动状态；根据多帧唇部图像对应的唇动状态，确定所述用户是否为说话人。7.根据权利要求6所述的方法，其特征在于，根据多帧唇部图像对应的唇动状态，确定所述用户是否为说话人，包括：将多帧唇部图像对应的唇动状态输入到机器学习模型，确定所述用户是否为说话人；或者，将多帧唇部图像对应的唇动状态相加，得到变化累积量，并将所述变化累积量与预设阈值比较，确定所述用户是否为说话人；其中，唇部图像的唇动状态具体为所述唇部图像的唇部打开程度与前一唇部图像的唇部打开程度的差值的绝对值。8.根据权利要求1
‑

【专利技术属性】
技术研发人员：王飞，孙佰贵，刘洋，鲁建龙，王奇，李昊，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人