【技术实现步骤摘要】
视频通话方法及相关装置、设备和存储介质
[0001]本申请涉及视频通讯
,特别是涉及一种视频通话方法及相关装置、设备和存储介质。
技术介绍
[0002]随着电子信息技术的日益发展,视频通话已经在日常生活、商务办公等众多场景得到广泛应用。例如,在日常生活中,可以通过视频通话与异地亲人聊天;而在商务办公中,可以通过视频通话实现远程连线。
[0003]在视频通话过程中,对说话人进行定位是事关视频通话质量的关键因素之一。例如,基于精准定位可以进行噪声抑制,以提升说话人的语音质量,从而可以大大提升视频通话效果。有鉴于此,如何提升说话人定位精度成为亟待解决的问题。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种视频通话方法及相关装置、设备和存储介质,能够提升说话人定位精度。
[0005]为了解决上述技术问题,本申请第一方面提供了一种视频通话方法,包括:对视频通话设备当前时刻下的音频数据进行第一定位,得到当前时刻下说话人的第一方位,并对视频通话设备当前时刻下的待测图像进行第二定位,得到当前时刻下说话人的第二方位;其中,第一定位、第二定位中至少一者在执行过程中参考当前时刻之前若干历史时刻的定位结果,且定位结果包括历史时刻下说话人的第一方位和第二方位;结合第一方位和第二方位,得到当前时刻下说话人的最终方位;基于最终方位,通过视频通话设备进行视频通话。
[0006]为了解决上述技术问题,本申请第二方面提供了一种视频通话装置,包括:第一定位模块、第二定位模块、结合模块和通话模块, ...
【技术保护点】
【技术特征摘要】
1.一种视频通话方法,其特征在于,包括:对视频通话设备当前时刻下的音频数据进行第一定位,得到所述当前时刻下说话人的第一方位,并对所述视频通话设备所述当前时刻下的待测图像进行第二定位,得到所述当前时刻下所述说话人的第二方位;其中,所述第一定位、所述第二定位中至少一者在执行过程中参考所述当前时刻之前若干历史时刻的定位结果,且所述定位结果包括所述历史时刻下所述说话人的第一方位和第二方位;结合所述第一方位和所述第二方位,得到所述当前时刻下所述说话人的最终方位;基于所述最终方位,通过所述视频通话设备进行视频通话。2.根据权利要求1所述的方法,其特征在于,所述第一定位在执行过程中参考所述定位结果;所述对视频通话设备当前时刻下的音频数据进行第一定位,得到所述当前时刻下说话人的第一方位,包括:对于各个所述历史时刻,基于所述历史时刻下所述第一方位和所述第二方位之间的方位偏差,及所述历史时刻采集的通话音频的人声检测结果,得到对应所述历史时刻的融合权重;利用各个所述历史时刻的融合权重,将各个所述历史时刻下所述通话音频的互相关结果进行融合,得到所述当前时刻下的加权互相关结果;基于所述加权互相关结果,得到所述当前时刻下的第一方位。3.根据权利要求2所述的方法,其特征在于,所述基于所述历史时刻下所述第一方位和所述第二方位之间的方位偏差,及所述历史时刻采集的通话音频的人声检测结果,得到对应所述历史时刻的融合权重,包括:基于所述历史时刻下所述第一方位和所述第二方位之间的方位偏差,得到第一权重系数,并基于所述历史时刻采集的通话音频的人声检测结果,得到第二权重系数;其中,所述方位偏差与所述第一权重系数负相关;基于所述第一权重系数和所述第二权重系数,得到对应所述历史时刻的融合权重。4.根据权利要求3所述的方法,其特征在于,在所述第一方位处于所述第二方位的第一偏离范围的情况下,所述第一权重系数为第一数值,在所述第一方位超出所述第二方位的第一偏离范围的情况下,所述第一权重系数为第二数值,且所述第一数值大于所述第二数值。5.根据权利要求3所述的方法,其特征在于,在所述人声检测包括所述通话音频中检测到人声的情况下,所述第二权重系数为第三数值,在所述人声检测结果包括所述通话音频中未检测到人声的情况下,所述第二权重系数为第四数值,且所述第三数值大于所述第四数值。6.根据权利要求1所述的方法,其特征在于,所述第二定位在执行过程中参考所述定位结果;所述对所述视频通话设备所述当前时刻下的待测图像进行第二定位,得到所述当前时刻下所述说话人的第二方位,包括:基于TLD的跟踪器所确定的活动轨迹,提取若干候选正样本;利用所述历史时刻下所述说话人的第一方位筛选所述若干候选正样本,得到目标正样本;利用所述目标正样本训练所述TLD的检测器至收敛;
利用所述TLD对所述待测图像进行第二定位,得到所述当前时刻下的第二方位。7.根据权利要求6所述的方法,其特征在于,在所述利用所述目标正样本训练所述TLD的检测器至收敛之前,所述方法还包括:响应于所述当前时刻前一所述历史时刻下所述第一方位和所述第二方位之间的方位偏差满足第一条件,基于所述TLD的学习器,为各个所述目标正样本赋予学习权重;所述利用所述目标正样本训练所述TLD的检测器至收敛,包括:基于赋予所述学习权重的目标正样本,训练所述检测器至收敛。8.根据权利要求1所述的方法,其特征在于,所述结合所述第一方位和所述第二方位,得到所述当前时刻下所述说话人的最终方位,包括:对所述第一方位进行可靠性检测,得到所述第一方位的第一检测结果,并对所述第二方位进行可靠性检测,得到所...
【专利技术属性】
技术研发人员:张子洋,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。