发言者的位置确定方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：40829096 阅读：3 留言：0更新日期：2024-04-01 14:51

本申请涉及一种发言者的位置确定方法、装置、计算机设备和存储介质。所述方法包括：根据待检测视频帧对应的音频信息，确定待检测视频帧对应的目标音频定位角度；基于目标音频定位角度和目标映射关系，确定待检测视频帧中第一发言者的目标位置；目标映射关系为根据各采样视频帧中第二发言者的预测位置，对初始映射关系中音频定位角度对应的初始位置进行更新得到的；预测位置为基于采样视频帧和发言检测模型确定的。采用本方法能够提高确定的发言者的目标位置的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，特别是涉及一种发言者的位置确定方法、装置、计算机设备和存储介质。

技术介绍

1、随着互联网的不断发展，人们可以通过线上视频的方式进行远程会议、演讲教学等等，若需要对视频会议中的发言者进行图像采集，则需要确定发言者在视频会议的各视频帧中所处的位置。

2、传统技术中，通过某一时刻的音频定位角度（direction of arrival，doa）和该时刻对应视频帧中发言者的视频定位角度，确定发言者的位置，然而，通过单一视频帧确定发言者位置的方法存在准确性较低的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高确定的发言者的目标位置的准确性的发言者的位置确定方法、装置、计算机设备和存储介质。

2、第一方面，本申请提供了一种发言者的位置确定方法。该方法包括：

3、根据待检测视频帧对应的音频信息，确定该待检测视频帧对应的目标音频定位角度；

4、基于该目标音频定位角度和目标映射关系，确定该待检测视频帧中第一发言者的目标位置；该目标映射关系为根据各采样视频帧中第二发言者的预测位置，对初始映射关系中音频定位角度对应的初始位置进行更新得到的；该预测位置为基于该采样视频帧和发言检测模型确定的。

5、在其中一个实施例中，该方法还包括：

6、根据该采样视频帧对应的音频定位角度、该采样视频帧对应的视场角和预设角度步长，确定该音频定位角度对应的索引标识；

7、根据该索引标识和该初始映射

8、基于该预测位置和该初始位置，对该初始位置进行更新，得到该目标映射关系。

9、在其中一个实施例中，该根据该采样视频帧对应的音频定位角度、该采样视频帧对应的视场角和预设角度步长，确定该音频定位角度对应的索引标识，包括：

10、确定该视场角和第一预设系数之间的第一比值；

11、确定该音频定位角度和该第一比值之间的第一求和结果；

12、确定该第一求和结果与预设角度之间的第一差值；

13、将该第一差值和该预设角度步长之间的第二比值，作为该音频定位角度对应的索引标识。

14、在其中一个实施例中，该基于该预测位置和该初始位置，对该初始位置进行更新，得到该目标映射关系，包括：

15、确定该预测位置和该初始位置之间的第二差值；

16、根据该第二差值和该初始位置对该初始位置进行更新，得到该目标映射关系。

17、在其中一个实施例中，该根据该第二差值和该初始位置对该初始位置进行更新，得到该目标映射关系，包括：

18、确定预设更新速度和该初始位置之间的第一乘积结果；

19、确定第二预设系数减去该预设更新速度得到的第三差值和该第二差值之间的第二乘积结果；

20、根据该第一乘积结果与该第二乘积结果之间的第二求和结果，对该初始位置进行更新，得到该目标映射关系。

21、在其中一个实施例中，该方法还包括：

22、对各该采样视频帧进行人脸检测，确定各该采样视频帧中的人脸检测框；

23、将各该人脸检测框依次输入至发言检测模型，确定各该采样视频帧中的第二发言者，以及该第二发言者的预测位置；该发言检测模型为利用人脸检测框样本和人脸检测框样本对应的发言者标签对初始发言检测模型进行训练得到模型。

24、在其中一个实施例中，该方法还包括：

25、根据各该音频定位角度和预设角度误差值，确定各该采样视频帧中人脸处于的目标区域；

26、相应的，该对各该采样视频帧进行人脸检测，确定各该采样视频帧中的人脸检测框，包括：

27、对各该采样视频帧中的该目标区域进行人脸检测，确定各该采样视频帧中的人脸检测框。

28、在其中一个实施例中，该根据各该音频定位角度和预设角度误差值，确定各该采样视频帧中人脸处于的目标区域，包括：

29、根据该采样音频定位角度和该预设角度误差值，确定第一音频定位角度和第二音频定位角度；

30、根据该初始映射关系，确定该第一音频定位角度对应的第一位置，以及确定该第二音频定位角度对应的第二位置；

31、将该第一位置和该第二位置之间的区域作为该目标区域。

32、第二方面，本申请还提供了一种发言者的位置确定装置。该装置包括：

33、第一确定模块，用于根据待检测视频帧对应的音频信息，确定该待检测视频帧对应的目标音频定位角度；

34、第二确定模块，用于基于该目标音频定位角度和目标映射关系，确定该待检测视频帧中第一发言者的目标位置；该目标映射关系为根据各采样视频帧中第二发言者的预测位置，对初始映射关系中音频定位角度对应的初始位置进行更新得到的；该预测位置为基于该采样视频帧和发言检测模型确定的。

35、第三方面，本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现以下步骤：

36、根据待检测视频帧对应的音频信息，确定该待检测视频帧对应的目标音频定位角度；

37、基于该目标音频定位角度和目标映射关系，确定该待检测视频帧中第一发言者的目标位置；该目标映射关系为根据各采样视频帧中第二发言者的预测位置，对初始映射关系中音频定位角度对应的初始位置进行更新得到的；该预测位置为基于该采样视频帧和发言检测模型确定的。

38、第四方面，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

39、根据待检测视频帧对应的音频信息，确定该待检测视频帧对应的目标音频定位角度；

40、基于该目标音频定位角度和目标映射关系，确定该待检测视频帧中第一发言者的目标位置；该目标映射关系为根据各采样视频帧中第二发言者的预测位置，对初始映射关系中音频定位角度对应的初始位置进行更新得到的；该预测位置为基于该采样视频帧和发言检测模型确定的。

41、第五方面，本申请还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

42、根据待检测视频帧对应的音频信息，确定该待检测视频帧对应的目标音频定位角度；

43、基于该目标音频定位角度和目标映射关系，确定该待检测视频帧中第一发言者的目标位置；该目标映射关系为根据各采样视频帧中第二发言者的预测位置，对初始映射关系中音频定位角度对应的初始位置进行更新得到的；该预测位置为基于该采样视频帧和发言检测模型确定的。

44、上述发言者的位置确定方法、装置、计算机设备和存储介质，根据待检测视频帧对应的音频信息，确定待检测视频帧对应的目标音频定位角度；基于目标音频定位角度和目标映射关系，确本文档来自技高网...

【技术保护点】

1.一种发言者的位置确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述采样视频帧对应的音频定位角度、所述采样视频帧对应的视场角和预设角度步长，确定所述音频定位角度对应的索引标识，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述预测位置和所述初始位置，对所述初始位置进行更新，得到所述目标映射关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二差值和所述初始位置对所述初始位置进行更新，得到所述目标映射关系，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据各所述音频定位角度和预设角度误差值，确定各所述采样视频帧中人脸处于的目标区域，包括：

9.一种发言者的位置确定装置，其特征在于，所述装置包括：

10.一种计算机设备，

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种发言者的位置确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述预测位置和所述初始位置，对所述初始位置进行更新，得到所述目标映射关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二差值和所述初始位置对所述初始位置进行更新，得到所述目标映射关系，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方...

【专利技术属性】
技术研发人员：唐小林，
申请(专利权)人：影石创新科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人