一种会议主讲人锁定方法及系统技术方案

技术编号：37994296 阅读：29 留言：0更新日期：2023-06-30 10:08

本发明专利技术涉及会议主讲人锁定技术领域，提供了一种会议主讲人锁定方法，包括步骤：S1：安装麦克风阵列以及可转动摄像头装置；S2：驱动麦克风装置采集会议现场的原始音频数据；S3：对采集的多路声源信号进行声源信号的分离处理；S4：采用神经网络处理单元对分离后的多路声源信号进行人声判断；S5：从判断出的代表人声的声源信号中获取主讲人声音信号，送往远端通话；S6：根据主讲人声音信号和麦克风阵列的排列方式，计算会议主讲人相对麦克风阵列的角度信息；S7：依据角度信息控制可转动摄像头装置转动，并对会议主讲人对焦。采用基于麦克风阵列的人声定位和摄像头自动对焦相结合的方法对主讲人锁定，提供会议的沟通效率，降低误判和设备的成本。和设备的成本。和设备的成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种会议主讲人锁定方法及系统

[0001]本专利技术涉及会议主讲人锁定的
，尤其涉及一种会议主讲人锁定方法及系统。

技术介绍

[0002]现实办公环境下，经常需要使用会议装置开多方远程会议。当前市面上的会议装置主要有两种，一种是单纯的基于主讲人声音降噪的会议装置，此会议装置只能传输会议现场的音频数据；另一种是基于摄像头的会议装置，此会议装置可以传输会议现场视频和音频数据。
[0003]使用单纯基于主讲人声音降噪的会议装置开远程多方会议时，由于会议装置本身没有摄像头，无法做到图像传送，所以接听方无法实时捕捉主讲人面部表情，只能根据声音来沟通。这会造成某些场景下，沟通效率下降，听众误判主讲人意图的问题。而使用基于摄像头的会议装置开远程多方会议时，虽然可以传输主讲现场的音频和视频，但是这种装置要么依旧无法做到主讲人位置的精确聚焦，要么需要摄像头实时采集现场图像，并使用AI人脸面部动作识别技术，来捕捉现场人员的嘴部动作。此方法会存误判和成本高的问题，误判主要是因为主讲人如果没有正对着摄像头，或者是会议现场有非主讲人低声...

【技术保护点】

【技术特征摘要】
1.一种会议主讲人锁定方法，其特征在于，包括以下步骤：S1：在会议现场的固定位置安装包括至少两个麦克风装置的麦克风阵列以及可转动摄像头装置，并开机启动所述麦克风装置和所述可转动摄像头装置；S2：软件驱动所述麦克风装置采集会议现场的原始音频数据，其中，所述原始音频数据包括所述会议现场的多路声源信号；S3：对采集的多路所述声源信号进行所述声源信号的分离处理；S4：采用神经网络处理单元对分离后的多路所述声源信号进行人声判断；S5：从判断出的代表人声的所述声源信号中获取主讲人声音信号，送往远端通话；S6：根据所述主讲人声音信号和所述麦克风阵列的排列方式，计算出会议主讲人相对于所述麦克风阵列的角度信息；S7：依据所述角度信息控制所述可转动摄像头装置转动，并自动对所述会议主讲人对焦。2.根据权利要求1所述的会议主讲人锁定方法，其特征在于，在步骤S1中，还包括：所述麦克风阵列和所述可转动摄像头装置安装于所述会议主讲人前方3～5米处；所述麦克风阵列中的至少两个所述麦克风装置按照一固定间隔距离线性阵列排布；所述会议主讲人位于所述可转动摄像头装置的可视区域范围内部。3.根据权利要求2所述的会议主讲人锁定方法，其特征在于，在步骤S3中，对采集的多路所述声源信号进行所述声源信号的分离处理，具体为：采用基于所述麦克风阵列的语音增强GSC算法，在所述麦克风阵列中的每一个所述麦克风装置按照一所述固定间隔距离分开线性阵列排布；所述麦克风阵列中每个所述麦克风装置同时接收多路所述声源信号；针对每一路所述声源信号，利用各个所述麦克风装置采集到的信号之间的相位差，利用GSC算法根据方向做语音增强。4.根据权利要求1所述的会议主讲人锁定方法，其特征在于，在步骤S4中，采用所述神经网络处理单元对分离后的多路所述声源信号进行人声判断之前，还包括：建立所述神经网络处理单元，具体为：采用包括收集公开数据、采购私有数据和人工录制在内的方式收集训练所述神经网络需要的数据样本集；对所述数据样本集中的每一个所述声源信号按照一固定分帧长度进行分帧；将每一帧的所述声源信号内部的时域信号的值进行归一化处理，转换为统一的标准格式；对单位帧内的所述声源信号数据进行加窗处理，使所述声源信号数据具备周期性；通过傅里叶变换获取单位帧的所述声源信号数据的频谱分布；通过语音激活检测VAD算法根据单位帧内的所述声源信号数据的所述频谱分布判断单位帧内的所述声源信号数据为人声还是非人声；对每一个所述声源信号进行声学后验，计算在所述声源信号数据中人声还是非人声的概率；采用所述神经网络处理单元对分离后的多路所述声源信号进行人声判断，具体为；获取每一路所述声源信号的所述声学后验信息；
当所述声学后验信息中人声的概率大于非人声的概率时，判断当前所述声源信号是否为人声；当所述声源信号中连续预设数量的单位帧为非人声时，判断所述声源信号为非人声；当所述声源信号中...

【专利技术属性】
技术研发人员：尤兴旺，蔺翠婷，庄川武，孙金周，
申请(专利权)人：深聪半导体科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人