视频会议方法、装置及可读存储介质制造方法及图纸

技术编号：32476465 阅读：25 留言：0更新日期：2022-03-02 09:39

本申请实施例提供了一种视频会议方法、装置及可读存储介质，涉及数据处理技术领域。该方法包括：采集视频图像，以及与所述视频图像同步的语音信号；根据采集的视频图像和/或语音信号确定说话人，并在视频图像中对说话人进行身份标注。本申请实施例提供的方法中同时基于说话人的语音信号，和，包含说话人的视频图像对说话人进行识别，能够在多人视频会议中快速确定多个说话人，而且，相对于仅基于说话人的语音信号，或者，仅基于说话的视频图像对说话人识别的方法，识别结果更加准确。识别结果更加准确。识别结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
视频会议方法、装置及可读存储介质

[0001]本申请涉及数据处理
，具体而言，本申请涉及一种视频会议方法、装置及可读存储介质。

技术介绍

[0002]随着智能识别技术的快速发展，越来越多的场景需要应用生物识别技术对说话人进行识别。声纹特征是基于说话人语音信号的音波频谱特征而提取的声学特征，能够反映说话人的身份信息，因此，目前多基于说话人的声纹特征对说话人进行识别。
[0003]但是，说话人的语音信号会受说话人所处环境、说话人生理状况等影响，说话人的语音信号具有各种各样的不确定性，导致说话人的声纹特征也具有各种各样的不确定性，进而影响对说话人识别的准确性。该问题在多人视频会议的场景中尤为突出。

技术实现思路

[0004]本申请提供了一种视频会议方法、装置及可读存储介质，用于解决多人视频会议中无法快速确定说话人的技术问题。
[0005]第一方面，提供了一种视频会议方法，该方法包括：
[0006]采集视频图像，以及与所述视频图像同步的语音信号；
[0007]根据采集的视频图像和...

【技术保护点】

【技术特征摘要】
1.一种视频会议方法，其特征在于，包括：采集视频图像，以及与所述视频图像同步的语音信号；根据采集的视频图像和/或语音信号确定说话人；在视频图像中对说话人进行身份标注。2.根据权利要求1所述的方法，其特征在于，所述根据采集的语音信号确定说话人，包括：根据所述语音信号确定说话人的声纹特征；根据所述声纹特征确定说话人的第一身份信息；利用摄像头在会议全场搜索，确定说话人的位置；其中，所述在视频图像中对说话人进行身份标注，包括：根据说话人的所述第一身份信息和位置对应的位置信息，确定说话人的相关信息并在视频图像中对说话人进行身份标注。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：会议开始时利用摄像头在会议全场搜索，获取每个参会人员的初始位置；所述利用摄像头在会议全场搜索，确定说话人的位置，包括：根据所述声纹特征确定的第一身份信息，在初始位置附近的预设范围进行说话人的查找；在查找到的初始位置进行人脸识别确定说话人的位置。4.根据权利要求1所述的方法，其特征在于，所述根据采集的视频图像和语音信号确定说话人，包括：根据所述语音信号确定说话人的声纹特征；根据所述声纹特征确定出至少两个说话人的第一身份信息时，对所述视频图像进行唇形识别，确定说话人。5.根据权利要求4所述的方法，其特征在于，所述对所述视频图像进行唇形识别，确定说话人，包括：对所述视频图像进行唇形识别，得到至少两个说话人的第二身份信息；基于至少两个说话人的第一身份信息和第二身份信息，确定相应的说话人。6.根据权利要求5所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：宿绍勋，
申请(专利权)人：京东方科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人