语音视频的降噪方法、装置、存储介质和设备制造方法及图纸

技术编号:32546346 阅读:10 留言:0更新日期:2022-03-05 11:44
本申请公开了一种语音视频的降噪方法、装置、存储介质和设备,基于人物视频,获取人体图像。对人体图像进行人体姿态估计,得到人体头部坐标。利用人体头部坐标,计算得到人体头部的方位角和俯仰角。将方位角、俯仰角作为指向性因数,计算得出波束形成的超指向性。依据超指向性,对多路音频信号进行波束形成,得到波束。对不归属于波束所属声源方向的音频信号进行删除,得到有效语音信号。将有效语音信号和人物视频进行合成,得到语音视频。基于本申请所示方案,利用波束形成的超指向性对多路音频信号进行波束形成,得到有效语音信号,通过有效语音信号所合成得到语音视频的信噪比得到明显提高,从而实现对语音视频的有效降噪。从而实现对语音视频的有效降噪。从而实现对语音视频的有效降噪。

【技术实现步骤摘要】
语音视频的降噪方法、装置、存储介质和设备


[0001]本申请涉及音频降噪领域,尤其涉及一种语音视频的降噪方法、装置、存储介质和设备。

技术介绍

[0002]随着科技的快速发展,提供人工智能的客服服务,即人工智能与用户进行语音视频交互,成为了当今人工智能行业的热点。在语音视频交互过程中,需要利用硬件设备采集用户的语音视频,并将语音视频传输给人工智能进行语音识别,得到用户需求,而后人工智能再根据用户需求提供相应的服务。受限于硬件设备和环境因素的影响,硬件设备所采集到的语音具有噪音,噪音会导致语音识别的结果出现偏差,从而给后续的服务带来不良影响。
[0003]为此,如何有效地对语音视频进行降噪,成为本领域亟需解决的问题。

技术实现思路

[0004]本申请提供了一种语音视频的降噪方法、装置、存储介质和设备,目的在于提高语音视频的信噪比,实现对语音视频的有效降噪。
[0005]为了实现上述目的,本申请提供了以下技术方案:
[0006]一种语音视频的降噪方法,包括:
[0007]获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号;
[0008]基于所述人物视频,获取人体图像;
[0009]对所述人体图像进行人体姿态估计,得到人体头部坐标;
[0010]利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角;
[0011]将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性;
[0012]依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束;
[0013]对不归属于所述波束所属声源方向的音频信号进行删除,得到有效语音信号;
[0014]将所述有效语音信号和所述人物视频进行合成,得到语音视频。
[0015]可选的,所述人物视频包括各个深度图像帧;
[0016]所述基于所述人物视频,获取人体图像,包括:
[0017]对各个所述深度图像帧进行前景分割,得到每个所述深度图像帧的前景图像;
[0018]利用各个所述前景图像,对所述人物视频中的人体目标进行跟踪估计,得到人体图像。
[0019]可选的,所述人物视频包括深度图像帧序列;所述深度图像帧序列包括各个深度图像帧;各个所述深度图像帧按照生成时间由早到晚的顺序进行排序;
[0020]所述利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角,包括:
[0021]对目标深度图像帧进行解析,得到深度距离;所述目标深度图像帧为:所述深度图
像帧序列中序位为最后一位的深度图像帧;所述深度距离用于指示人体所在平面到所述深度摄像设备的距离;
[0022]利用所述人体头部坐标和所述深度距离,计算得到人体头部的方位角和俯仰角。
[0023]可选的,所述将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性,包括:
[0024]从预设数据表中,获取与俯仰角对应的麦克风坐标系俯仰角;其中,所述麦克风坐标系俯仰角,基于所述深度摄像头的预设空间位置和所述麦克风阵列的预设空间位置计算得到;
[0025]将所述方位角、所述麦克风坐标系俯仰角作为指向性因数,计算得出波束形成的超指向性。
[0026]可选的,所述依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束,包括:
[0027]对于每路所述音频信号,对所述音频信号进行预处理,得到目标信号;
[0028]生成所述目标信号的对数谱,并计算所述目标信号的对数谱与预设对数谱之间的对数谱偏差,得到目标数值;
[0029]在所述目标数值大于预设阈值的情况下,将所述目标信号标识为语音信号;
[0030]依据所述波束形成的超指向性,对各个所述语音信号进行波束形成,得到波束。
[0031]可选的,所述对于每路所述音频信号,对所述音频信号进行预处理,得到目标信号,包括:
[0032]对于每路所述音频信号,对所述音频信号进行滤波,得到有效音频信号;
[0033]对所述有效音频信号进行降采样处理,得到目标音频信号;
[0034]对所述目标音频信号进行子带分析,得到频域信号;
[0035]对所述频域信号进行回声消除,得到目标信号。
[0036]可选的,所述生成所述目标信号的对数谱,并计算所述目标信号的对数谱与预设对数谱之间的对数谱偏差,得到目标数值之后,还包括:
[0037]在所述目标数值不大于所述预设阈值的情况下,将所述目标信号标识为噪声信号。
[0038]一种语音视频的降噪装置,包括:
[0039]信号获取单元,用于获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号;
[0040]图像获取单元,用于基于所述人物视频,获取人体图像;
[0041]姿态估计单元,用于对所述人体图像进行人体姿态估计,得到人体头部坐标;
[0042]角度计算单元,用于利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角;
[0043]指向性计算单元,用于将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性;
[0044]波束形成单元,用于依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束;
[0045]信号过滤单元,用于对不归属于所述波束所属声源方向的音频信号进行删除,得
到有效语音信号;
[0046]视频合成单元,用于将所述有效语音信号和所述人物视频进行合成,得到语音视频。
[0047]一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的语音视频的降噪方法。
[0048]一种语音视频的降噪设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
[0049]所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行述的语音视频的降噪方法。
[0050]本申请提供的技术方案,获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号。基于人物视频,获取人体图像。对人体图像进行人体姿态估计,得到人体头部坐标。利用人体头部坐标,计算得到人体头部的方位角和俯仰角。将方位角、俯仰角作为指向性因数,计算得出波束形成的超指向性。依据波束形成的超指向性,对多路音频信号进行波束形成,得到波束。对不归属于波束所属声源方向的音频信号进行删除,得到有效语音信号。将有效语音信号和人物视频进行合成,得到语音视频。基于本申请所示方案,基于从人物视频中获得的人体头部的方位角和俯仰角,计算波束形成的超指向性,并利用波束形成的超指向性对音频信号进行波束形成,得到波束,以及基于波束进一步确定有效语音信号,通过有效语音信号所合成得到语音视频的信噪比得到明显提高,从而实现对语音视频的有效降噪。
附图说明
[0051]为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音视频的降噪方法,其特征在于,包括:获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号;基于所述人物视频,获取人体图像;对所述人体图像进行人体姿态估计,得到人体头部坐标;利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角;将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性;依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束;对不归属于所述波束所属声源方向的音频信号进行删除,得到有效语音信号;将所述有效语音信号和所述人物视频进行合成,得到语音视频。2.根据权利要求1所述的方法,其特征在于,所述人物视频包括各个深度图像帧;所述基于所述人物视频,获取人体图像,包括:对各个所述深度图像帧进行前景分割,得到每个所述深度图像帧的前景图像;利用各个所述前景图像,对所述人物视频中的人体目标进行跟踪估计,得到人体图像。3.根据权利要求1所述的方法,其特征在于,所述人物视频包括深度图像帧序列;所述深度图像帧序列包括各个深度图像帧;各个所述深度图像帧按照生成时间由早到晚的顺序进行排序;所述利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角,包括:对目标深度图像帧进行解析,得到深度距离;所述目标深度图像帧为:所述深度图像帧序列中序位为最后一位的深度图像帧;所述深度距离用于指示人体所在平面到所述深度摄像设备的距离;利用所述人体头部坐标和所述深度距离,计算得到人体头部的方位角和俯仰角。4.根据权利要求1所述的方法,其特征在于,所述将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性,包括:从预设数据表中,获取与俯仰角对应的麦克风坐标系俯仰角;其中,所述麦克风坐标系俯仰角,基于所述深度摄像头的预设空间位置和所述麦克风阵列的预设空间位置计算得到;将所述方位角、所述麦克风坐标系俯仰角作为指向性因数,计算得出波束形成的超指向性。5.根据权利要求1所述的方法,其特征在于,所述依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束,包括:对于每路所述音频信号,对所述音频信号进行预处理,得到目标信号;生成所述目标信号的对数谱,并计算所述目标信号的对数...

【专利技术属性】
技术研发人员:郝昊李骊
申请(专利权)人:北京华捷艾米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1