视频流的生成方法、装置、设备及存储介质制造方法及图纸

技术编号：28430314 阅读：38 留言：0更新日期：2021-05-11 18:40

本公开公开了一种视频流的生成方法、装置、设备及存储介质，涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域。具体实现方案为：当监测到语音数据时，确定与语音数据对应的第一发言用户；控制预设摄像头对焦第一发言用户拍摄第一视频帧图像，并采集第一发言用户的第一发言数据；对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；根据第一目标数据和第一视频帧图像生成视频流。由此，在视频流传输场景下，聚焦发言人进行视频帧图像的拍摄，并且抑制非发言人的噪音，提高了视频流的质量，满足了多种场景下的视频需求。

全部详细技术资料下载

【技术实现步骤摘要】
视频流的生成方法、装置、设备及存储介质
本公开涉及语音
、视频处理
、计算机视觉
和深度学习
，尤其涉及一种视频流的生成方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展，基于计算机技术的视频场景也越发普遍，比如，在室内视频会议，或者是在室外视频会议等。相关技术中，对于室内的多人视频会议，两地沟通需要极强纽带和感知度，传统设备有背景噪音和人声干扰，且摄像头不好聚焦难定位主要发言人。对于室外的大厅、车站、开放空间的音视频通讯，会有背景嘈杂、人声干扰，不便会议。
技术实现思路
本公开提供了一种视频流的生成方法、装置、设备及存储介质，实现了在视频流传输场景下，聚焦发言人进行视频帧图像的拍摄，并且抑制非发言人的噪音，提高了视频流的质量，满足了多种场景下的视频需求。根据本公开的一方面，提供了一种视频流的生成方法，包括：当监测到语音数据时，确定与所述语音数据对应的第一发言用户；控制预设摄像头对焦所述第一发言用户拍摄第一视频帧图像，并采集所述第一发言用户的第一发言数据；...

【技术保护点】
1.一种视频流的生成方法，包括：/n当监测到语音数据时，确定与所述语音数据对应的第一发言用户；/n控制预设摄像头对焦所述第一发言用户拍摄第一视频帧图像，并采集所述第一发言用户的第一发言数据；/n对所述第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；/n根据所述第一目标数据和所述第一视频帧图像生成视频流。/n

【技术特征摘要】
1.一种视频流的生成方法，包括：
当监测到语音数据时，确定与所述语音数据对应的第一发言用户；
控制预设摄像头对焦所述第一发言用户拍摄第一视频帧图像，并采集所述第一发言用户的第一发言数据；
对所述第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；
根据所述第一目标数据和所述第一视频帧图像生成视频流。

2.如权利要求1所述的方法，其中，所述确定与所述语音数据对应的第一发言用户，包括：
获取与所述语音数据对应的全景图像，分析所述全景图像中用户的唇形特征；
根据所述唇形特征确定与所述语音数据对应的所述第一发言用户。

3.如权利要求1所述的方法，其中，所述确定与所述语音数据对应的第一发言用户，包括：
计算所述语音数据到预设麦克风阵列中的第一麦克风和第二麦克风的时延差；
识别所述语音数据的频率，并根据预设算法计算所述时延差和所述频率以获取参考方向矢量；
计算所述参考方向矢量和所述预设麦克风阵列的预设实际相位差的余弦距离，并根据所述余弦距离确定第一方向；
确定位于所述第一方向上的用户为所述第一发言用户。

4.如权利要求1所述的方法，其中，所述对所述第一发言数据中的噪音数据进行去噪处理，得到第一目标数据，包括：
识别所述第一发言用户的第一方向，提取所述第一发言数据中包含的多种语音频率；
识别所述多种语音频率中与预设语音频率匹配的至少一个候选语音频率；
识别每个所述候选语音频率的第二方向；
将所述第二方向与所述第一方向匹配，提取匹配成功的第二方向上的候选语音频率为目标语音频率；
提取与所述目标语音频率对应的语音数据得到所述第一目标数据。

5.如权利要求1所述的方法，还包括：
在监测到所述语音数据时开始计时；
根据计时结果判断在预设时长内是否监测到第二发言用户的语音数据；
若监测到所述第二发言用户的语音数据，则控制所述预设摄像头对焦所述第一发言用户和所述第二发言用户拍摄第二视频帧图像，并采集所述第一发言用户和所述第二发言用户的第二发言数据；
对所述第二发言数据中的噪音数据进行去噪处理，得到第二目标数据；
根据所述第二目标数据和所述第二视频帧图像生成视频流。

6.如权利要求5所述的方法，其中，在所述根据计时结果判断在预设时长内是否监测到第二发言用户的语音数据之后，还包括：
若没有监测到所述第二发言用户的语音数据，则控制所述预设摄像头进入全景拍摄模式。

7.一种视频流的生成装置，包括：
确定模块，用于当监测到语音数据时，确定与所述语音数据对应的第一发言用户；
拍摄模块，用于控制预设摄像头对焦所述第一发言用户拍摄第一视频帧图像，并采集所述第一发言用户的第一发言数据；
采集模块，用于对所述第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；
去噪模块，用于对所述第一发言数...

【专利技术属性】
技术研发人员：曹璨，李峥，戴宁，姜俊，王昕，魏建强，付明鑫，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人