一种基于语音跟踪的全景视频录制方法及装置制造方法及图纸

技术编号：24176714 阅读：46 留言：0更新日期：2020-05-16 04:55

本发明专利技术涉及一种基于语音跟踪的全景视频录制方法及装置，采集多路音频信号和多路视频信号，将所述多路视频信号经全景视频融合拼接，形成全景视频图像；根据所述音频信号实时估算现场说话人的声源方向；根据所述声源方向，截取所述全景视频图像中对应位置的现场说话人特写图像，并将所述现场说话人特写图像和所述全景视频图像整合，形成全景视频输出图像；将所述音频信号和全景视频输出图像，通过网络上传至上位机，或直接通过监控设备输出。本发明专利技术流程简单，可有效实现全景图像与特写图像自动生成，并具有实时性。

A panoramic video recording method and device based on voice tracking

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音跟踪的全景视频录制方法及装置
本专利技术涉及一种基于语音跟踪的全景视频录制方法及装置。
技术介绍
现有技术中,全景视讯的视频会议设备多数组成复杂，对发言人的录播需要人工切换,无法实现全景图像与特写图像自动生成。与本专利技术最相关的现有技术是专利技术名称为“基于全景摄像头和麦克风阵列的会议转录系统”专利(专利公开号：CN109474797A)，该技术方案存在的不足之处在于结构复杂，全景图像与自动特写图像生成的流程复杂，实时性较差。
技术实现思路
本专利技术的专利技术目的在于提供一种基于语音跟踪的全景视频录制方法及装置，能够有效实现全景图像与特写图像自动生成。基于同一专利技术构思，本专利技术具有两个独立的技术方案：1、一种基于语音跟踪的全景视频录制方法，其特征在于，包括如下步骤：步骤1：采集多路音频信号和多路视频信号，将所述多路视频信号经全景视频融合拼接，形成全景视频图像；步骤2：根据所述音频信号实时估算现场说话人的声源方向；根据所述声源方向，截取所述全景视...

【技术保护点】
1.一种基于语音跟踪的全景视频录制方法，其特征在于，包括如下步骤：/n步骤1：采集多路音频信号和多路视频信号，将所述多路视频信号经全景视频融合拼接，形成全景视频图像；/n步骤2：根据所述音频信号实时估算现场说话人的声源方向；根据所述声源方向，截取所述全景视频图像中对应位置的现场说话人特写图像，并将所述现场说话人特写图像和所述全景视频图像整合，形成全景视频输出图像；/n步骤3：将所述音频信号和全景视频输出图像，通过网络上传至上位机，或直接通过监控设备输出。/n

【技术特征摘要】
1.一种基于语音跟踪的全景视频录制方法，其特征在于，包括如下步骤：
步骤1：采集多路音频信号和多路视频信号，将所述多路视频信号经全景视频融合拼接，形成全景视频图像；
步骤2：根据所述音频信号实时估算现场说话人的声源方向；根据所述声源方向，截取所述全景视频图像中对应位置的现场说话人特写图像，并将所述现场说话人特写图像和所述全景视频图像整合，形成全景视频输出图像；
步骤3：将所述音频信号和全景视频输出图像，通过网络上传至上位机，或直接通过监控设备输出。

2.根据权利要求1所述的基于语音跟踪的全景视频录制方法，其特征在于，步骤3中还包括：对现场说话人特写图像进行人脸识别，识别说话人身份；以及对音频信号进行识别，将语音转换成文字后进行数据存储，并对所述数据进行说话人身份标注。

3.根据权利要求1所述的基于语音跟踪的全景视频录制方法，其特征在于：所述多路音频信号是通过麦克风阵列采集的，所述多路视频信号是通过多路视频传感器采集的。

4.根据权利要求3所述的基于语音跟踪的全景视频录制方法，其特征在于：所述麦克风阵列由多个麦克风组成，其中1个麦克风位于圆心位置，其余麦克风沿圆周方向均匀分布；
所述多路视频传感器沿圆周方向均匀分布；
所述麦克风和视频传感器的数量、位置分布相互配合。

5.根据权利要求1所述的基于语音跟踪的全景视频录制方法，其特征在于，步骤2中还包括：利用自适应波束形成方法对声源方向的音频信号进行增强，消除其他方向的干扰声音。

6.根据权利要求1所...

【专利技术属性】
技术研发人员：蒋灏，李虎，赵成斌，沈宏泰，田晟浩，张小博，穆永鹏，戴玉成，孙洁，
申请(专利权)人：北京中电慧声科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人