视频通话方法及相关装置、设备和存储介质制造方法及图纸

技术编号:33084075 阅读:10 留言:0更新日期:2022-04-15 10:43
本申请公开了一种视频通话方法及相关装置、通话设备和存储介质,其中,视频通话方法包括:对视频通话设备当前时刻下的音频数据进行第一定位,得到当前时刻下说话人的第一方位,并对视频通话设备当前时刻下的待测图像进行第二定位,得到当前时刻下说话人的第二方位;其中,第一定位、第二定位中至少一者在执行过程中参考当前时刻之前若干历史时刻的定位结果,且定位结果包括历史时刻下说话人的第一方位和第二方位;结合第一方位和第二方位,得到当前时刻下说话人的最终方位;基于最终方位,通过视频通话设备进行视频通话。上述方案,能够在视频通话过程中,提升说话人定位精度。提升说话人定位精度。提升说话人定位精度。

【技术实现步骤摘要】
视频通话方法及相关装置、设备和存储介质


[0001]本申请涉及视频通讯
,特别是涉及一种视频通话方法及相关装置、设备和存储介质。

技术介绍

[0002]随着电子信息技术的日益发展,视频通话已经在日常生活、商务办公等众多场景得到广泛应用。例如,在日常生活中,可以通过视频通话与异地亲人聊天;而在商务办公中,可以通过视频通话实现远程连线。
[0003]在视频通话过程中,对说话人进行定位是事关视频通话质量的关键因素之一。例如,基于精准定位可以进行噪声抑制,以提升说话人的语音质量,从而可以大大提升视频通话效果。有鉴于此,如何提升说话人定位精度成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种视频通话方法及相关装置、设备和存储介质,能够提升说话人定位精度。
[0005]为了解决上述技术问题,本申请第一方面提供了一种视频通话方法,包括:对视频通话设备当前时刻下的音频数据进行第一定位,得到当前时刻下说话人的第一方位,并对视频通话设备当前时刻下的待测图像进行第二定位,得到当前时刻下说话人的第二方位;其中,第一定位、第二定位中至少一者在执行过程中参考当前时刻之前若干历史时刻的定位结果,且定位结果包括历史时刻下说话人的第一方位和第二方位;结合第一方位和第二方位,得到当前时刻下说话人的最终方位;基于最终方位,通过视频通话设备进行视频通话。
[0006]为了解决上述技术问题,本申请第二方面提供了一种视频通话装置,包括:第一定位模块、第二定位模块、结合模块和通话模块,第一定位模块,用于对视频通话设备当前时刻下的音频数据进行第一定位,得到当前时刻下说话人的第一方位;第二定位模块,用于对视频通话设备当前时刻下的待测图像进行第二定位,得到当前时刻下说话人的第二方位;其中,第一定位、第二定位中至少一者在执行过程中参考当前时刻之前若干历史时刻的定位结果,且定位结果包括历史时刻下说话人的第一方位和第二方位;结合模块,用于结合第一方位和第二方位,得到当前时刻下说话人的最终方位;通话模块,用于基于最终方位,通过视频通话设备进行视频通话。
[0007]为了解决上述技术问题,本申请第三方面提供了一种视频通话设备,包括屏幕、麦克风、摄像头、通信电路、存储器和处理器,屏幕、麦克风、摄像头、通信电路和存储器分别耦接至处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的视频通话方法。
[0008]为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的视频通话方法。
[0009]上述方案,对视频通话设备当前时刻下的音频数据进行第一定位,得到当前时刻下说话人的第一方位,并对视频通话设备当前时刻下的待测图像进行第二定位,得到当前时刻下说话人的第二方位,且第一方位、第二方位中至少一者在执行过程中参考当前时刻之前若干历史时刻的定位结果,所述定位结果包括历史时刻下说话人的第一方位和第二方位,在此基础上,再结合第一方位和第二方位,得到当前时刻下说话人的最终方位,并基于最终方位,通过视频通话设备进行视频通话,一方面在视频通话过程中,最终方位是声源定位和图像定位分别得到第一方位和第二方位结合得到的,相较于单一定位方式,有利于提升定位精度,另一方面在视频通话过程中,声源定位和图像定位中至少一者在定位过程中参考之前若干历史时刻的定位结果,有利于在时序连续的视频通话过程中,保持稳定定位。故此,能够提升说话人定位精度。
附图说明
[0010]图1是本申请视频通话方法一实施例的流程示意图;
[0011]图2是三维坐标系一实施例的示意图;
[0012]图3是本申请视频通话方法一实施例的过程示意图;
[0013]图4是本申请视频通话方法另一实施例的流程示意图;
[0014]图5是本申请视频通话装置一实施例的框架示意图;
[0015]图6是本申请视频通话设备一实施例的框架示意图;
[0016]图7是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0017]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0018]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0019]本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
[0020]请参阅图1,图1是本申请视频通话方法一实施例的流程示意图。
[0021]具体而言,可以包括如下步骤:
[0022]步骤S11:对视频通话设备当前时刻下的音频数据进行第一定位,得到当前时刻下说话人的第一方位,并对视频通话设备当前时刻下的待测图像进行第二定位,得到当前时刻下说话人的第二方位。
[0023]本公开实施例中,第一定位、第二定位中至少一者在执行过程中参考当前时刻之前若干历史时刻的定位结果,且定位结果包括历史时刻下说话人的第一方位和第二方位。需要说明的是,在视频通话过程中,说话人可以发生移动,如在商务办公场景中,讲述人可以有一边讲述一边走动的习惯,在此不再一一举例,故在每一视频帧的拍摄时刻,都可以执行本申请公开实施例中的步骤,以分别将各个视频帧的拍摄时刻作为当前时刻,进行说话人定位。此外,为了便于描述,可以将当前时刻记为t,则当前时刻之前若干历史时刻可以包
括:t

1时刻、t

2时刻、t

3时刻、

、t

T时刻等等,在此不做限定。进一步地,各个历史时刻的定位结果,也可以是通过本申请公开实施例中步骤得到的。例如,在t

i时刻,可以通过本申请公开实施例中步骤,参考第t

i

1时刻的定位结果,得到t

i时刻的第一方位和第二方位,则在第t

i+1时刻,可以通过本申请公开实施例中步骤,可以参考第t

i时刻的定位结果,得到第t

i+1时刻的第一方位和第二方位,以此类推,在此不再一一举例。
[0024]在一个实施场景中,本申请公开实施例中的视频通话设备可以集成有屏幕、麦克风和摄像头,以通过麦克风采集音频数据,通过摄像头拍摄图像数据,以及通过屏幕显示图像数据,具体可以参阅下述视频通话设备公开实施例中相关描述,在此暂不赘述。需要说明的是,为便于表示说话人方位,可以基于视频通话设备构建三维坐标系,并将说话人方位与三维坐标系原点的连线、三维坐标系的坐标轴两者之间的夹角,视为说话人方位。示例性地,请结合参阅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频通话方法,其特征在于,包括:对视频通话设备当前时刻下的音频数据进行第一定位,得到所述当前时刻下说话人的第一方位,并对所述视频通话设备所述当前时刻下的待测图像进行第二定位,得到所述当前时刻下所述说话人的第二方位;其中,所述第一定位、所述第二定位中至少一者在执行过程中参考所述当前时刻之前若干历史时刻的定位结果,且所述定位结果包括所述历史时刻下所述说话人的第一方位和第二方位;结合所述第一方位和所述第二方位,得到所述当前时刻下所述说话人的最终方位;基于所述最终方位,通过所述视频通话设备进行视频通话。2.根据权利要求1所述的方法,其特征在于,所述第一定位在执行过程中参考所述定位结果;所述对视频通话设备当前时刻下的音频数据进行第一定位,得到所述当前时刻下说话人的第一方位,包括:对于各个所述历史时刻,基于所述历史时刻下所述第一方位和所述第二方位之间的方位偏差,及所述历史时刻采集的通话音频的人声检测结果,得到对应所述历史时刻的融合权重;利用各个所述历史时刻的融合权重,将各个所述历史时刻下所述通话音频的互相关结果进行融合,得到所述当前时刻下的加权互相关结果;基于所述加权互相关结果,得到所述当前时刻下的第一方位。3.根据权利要求2所述的方法,其特征在于,所述基于所述历史时刻下所述第一方位和所述第二方位之间的方位偏差,及所述历史时刻采集的通话音频的人声检测结果,得到对应所述历史时刻的融合权重,包括:基于所述历史时刻下所述第一方位和所述第二方位之间的方位偏差,得到第一权重系数,并基于所述历史时刻采集的通话音频的人声检测结果,得到第二权重系数;其中,所述方位偏差与所述第一权重系数负相关;基于所述第一权重系数和所述第二权重系数,得到对应所述历史时刻的融合权重。4.根据权利要求3所述的方法,其特征在于,在所述第一方位处于所述第二方位的第一偏离范围的情况下,所述第一权重系数为第一数值,在所述第一方位超出所述第二方位的第一偏离范围的情况下,所述第一权重系数为第二数值,且所述第一数值大于所述第二数值。5.根据权利要求3所述的方法,其特征在于,在所述人声检测包括所述通话音频中检测到人声的情况下,所述第二权重系数为第三数值,在所述人声检测结果包括所述通话音频中未检测到人声的情况下,所述第二权重系数为第四数值,且所述第三数值大于所述第四数值。6.根据权利要求1所述的方法,其特征在于,所述第二定位在执行过程中参考所述定位结果;所述对所述视频通话设备所述当前时刻下的待测图像进行第二定位,得到所述当前时刻下所述说话人的第二方位,包括:基于TLD的跟踪器所确定的活动轨迹,提取若干候选正样本;利用所述历史时刻下所述说话人的第一方位筛选所述若干候选正样本,得到目标正样本;利用所述目标正样本训练所述TLD的检测器至收敛;
利用所述TLD对所述待测图像进行第二定位,得到所述当前时刻下的第二方位。7.根据权利要求6所述的方法,其特征在于,在所述利用所述目标正样本训练所述TLD的检测器至收敛之前,所述方法还包括:响应于所述当前时刻前一所述历史时刻下所述第一方位和所述第二方位之间的方位偏差满足第一条件,基于所述TLD的学习器,为各个所述目标正样本赋予学习权重;所述利用所述目标正样本训练所述TLD的检测器至收敛,包括:基于赋予所述学习权重的目标正样本,训练所述检测器至收敛。8.根据权利要求1所述的方法,其特征在于,所述结合所述第一方位和所述第二方位,得到所述当前时刻下所述说话人的最终方位,包括:对所述第一方位进行可靠性检测,得到所述第一方位的第一检测结果,并对所述第二方位进行可靠性检测,得到所...

【专利技术属性】
技术研发人员:张子洋
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1