一种视频会议发言人聚焦方法、装置、设备和介质制造方法及图纸

技术编号：36649763 阅读：14 留言：0更新日期：2023-02-18 13:11

本申请公开了一种视频会议发言人聚焦方法、装置、设备和介质，由于该方法中是确定目标音频对应的第一唇形特征向量和目标图像对应的每个参会人员的第二唇形特征向量，根据第一唇形特征向量和第二唇形特征向量的相似度，确定视频会议的发言人，并将发言人的目标人脸区域图像突出显示，从而实现了准确地定位发言人的位置，提高了发言人聚焦的定位精度。提高了发言人聚焦的定位精度。提高了发言人聚焦的定位精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频会议发言人聚焦方法、装置、设备和介质

[0001]本申请涉及视频数据处理
，尤其涉及一种视频会议发言人聚焦方法、装置、设备和介质。

技术介绍

[0002]目前在视频会议中已经应用了发言人聚焦功能，将发言人的人脸图像显示在屏幕中间。该发言人聚焦功能的实现主要是通过高精度的声场定位技术实现，通过对发言人声源位置的定位实现发言人定位并聚焦。
[0003]但是该方法对硬件要求较高，需要有多个收音设备来实现声源定位，并且在人与人之间距离较近时，会导致无法精准定位发言人的位置，因此现有技术中发言人聚焦时的定位精度较低。

技术实现思路

[0004]本申请提供了一种视频会议发言人聚焦方法、装置、设备和介质，用以解决现有技术中的问题。
[0005]第一方面，本申请提供了一种视频会议发言人聚焦方法，所述方法包括：
[0006]获取视频会议中任一时刻的目标图像和目标音频；
[0007]根据所述目标音频确定所述目标音频对应的第一唇形特征向量；
[0008]对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。
[0009]进一步地，所述根据所述目标音频确定所述目标音频对应的第一唇形特征向量包括：
[0010]基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。
>[0011]进一步地，所述基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量包括：
[0012]将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；
[0013]针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；
[0014]根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二
坐标。
[0015]进一步地，所述对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量包括：
[0016]对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
[0017]进一步地，所述根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人包括：
[0018]根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人。
[0019]进一步地，所述根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人包括：
[0020]根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标，计算所述第四坐标与对应的所述第二坐标的欧式距离；
[0021]根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度；
[0022]根据所述第二唇形特征向量与所述第一唇形特征向量的相似度，确定相似度最高的目标第二唇形特征向量对应的目标参会人员，并将所述目标参会人员确定为所述发言人。
[0023]进一步地，所述根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度包括：
[0024]根据所述第四坐标与对应的所述第二坐标的欧式距离，将每个所述欧式距离的平均值的倒数确定为所述第二唇形特征向量与所述第一唇形特征向量的相似度。
[0025]进一步地，所述将所述发言人进行突出显示包括：
[0026]将所述发言人的目标人脸区域图像放大显示或设定位置显示。
[0027]第二方面，本申请提供了一种视频会议发言人聚焦装置，所述装置包括：
[0028]获取模块，用于获取视频会议中任一时刻的目标图像和目标音频；
[0029]确定模块，用于根据所述目标音频确定所述目标音频对应的第一唇形特征向量；对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。
[0030]进一步地，所述确定模块，具体用于基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。
[0031]进一步地，所述确定模块，具体用于将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征
向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二坐标。
[0032]进一步地，所述确定模块，具体用于对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
[0033]进一步地，所述确定模块，具体用于根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人。
[0034]进一步地，所述确定模块，具体用于根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标，本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频会议发言人聚焦方法，其特征在于，所述方法包括：获取视频会议中任一时刻的目标图像和目标音频；根据所述目标音频确定所述目标音频对应的第一唇形特征向量；对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标音频确定所述目标音频对应的第一唇形特征向量包括：基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。3.根据权利要求2所述的方法，其特征在于，所述基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量包括：将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二坐标。4.根据权利要求1所述的方法，其特征在于，所述对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量包括：对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。5.根据权利要求1所述的方法，其特征在于，所述根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人包括：根据所述第一唇形特征向量和所述第二唇形特征向量，计算所...

【专利技术属性】
技术研发人员：翟世平，高雪松，陈维强，曲磊，
申请(专利权)人：海信集团控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人