System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 对发言人追踪拍摄的音视频选择方法及其系统技术方案_技高网

对发言人追踪拍摄的音视频选择方法及其系统技术方案

技术编号:40329391 阅读:8 留言:0更新日期:2024-02-09 14:22
本发明专利技术提供了一种对发言人追踪拍摄的音视频选择方法及其系统。其中所述方法包括:将多个音频设备与视频设备进行对应绑定;利用音视频设备进行采集;将多路音频数据进行首帧时间对齐,音频数据进行各自内部时间对齐,并且存入各自的缓存队列中;根据音频设备的优先级和/或音频参数从多路音频数据中选择最优音频数据,作为发言人音频数据;将与采集发言人音频数据的音频设备对应绑定的视频设备所采集的视频数据,作为发言人视频数据;将发言人音频数据和发言人视频数据发送给远端。本发明专利技术对发言人追踪拍摄的音视频选择方法有效实现了将多路音频数据按帧对齐储存,且无需进行复杂的发言人方位识别和调整,提高了整个音视频系统的效率。

【技术实现步骤摘要】

本专利技术涉及音视频通信,具体地,涉及对发言人追踪拍摄的音视频选择方法及其系统


技术介绍

1、基于互联网的音视频通信技术被广泛应用于工作和生活的视频会议场景。在视频会议任意一端有多个参会者的情况下,通常主设备中内置音频设备,如内置麦克风拾音能力有限,需要配合布置多个外置音频设备用于扩展声音范围或者声音效果。其中对于发言人追踪拍摄存在诸多关键性问题,例如,如何将多路音频数据进行时间对齐,如何从多个音频设备采集的多路音频数据中选择出发言人的最优音频数据发送给远端,以及如何选择出发言人的最优视频数据等。

2、现有技术中专利cn 110648678 a《一种用于具有多麦克风会议的场景识别方法和系统》公开了一种用于具有多麦克风会议的场景识别方法和系统。其中,包括响应于检测到多个麦克风通道的语音信号,按帧对齐储存;基于对齐后的语音信号,计算多个麦克风通道语音信号每一帧的语音能量;基于语音能量跟踪和场景识别,以识别到其中的单人说话的场景和多人同时说话的场景,从而进行麦克风输出通道切换。该方案有助于在单人说话的场景或多人同时说话的场景下综合语音能量,混响程度,噪声等情况下选择音质最好的麦克风语音信号输出通道。

3、上述现有技术将多个语音信号进行按帧对齐储存以便后续在同一时间选择音质最佳的语音信号,但其并未公开具体的对齐实施方法,以及视频数据的对应选择方法。

4、现有技术中专利cn 1620197a《通信设备和电视会议设备》公开了一种提供的通信设备和电视会议设备能自动并正确地为发言人拍摄图像。声音分析器正确地选择发言人。声波纹鉴别部分鉴别发言人的声波纹是否被登记。当发言人的选择和声波纹的鉴别相一致时,成像方向调整部分基于预先登记的条件驱动电视摄像机。

5、上述现有技术根据发言人的声音自动并正确地为发言人拍摄图像,但其采用的方法为成像方向调整部分基于预先登记的条件驱动电视摄像机,即根据发言人的声音调整摄像机的方向。并且还需要结合声波纹鉴别部分鉴别发言人的声波纹是否被登记,因此操作比较复杂。

6、现有技术中专利cn 111602414 a《视频会议期间控制音频信号聚焦说话者》公开了一种非暂时性计算机可读存储介质可以包括其上存储的指令。当所述指令由至少一个处理器执行时,所述指令可以被配置为使得计算系统确定视频系统正在瞄准多个人中的单个说话者,从多个麦克风接收音频信号,接收到的所述音频信号包括由所述单个说话者生成的音频信号,基于确定所述视频系统正在瞄准所述单个说话者,传送单声道信号,所述单声道信号是基于接收到的所述音频信号,确定所述视频系统没有正在瞄准所述单个说话者,以及基于确定所述视频系统没有正在瞄准所述单个说话者,传送立体声信号,所述立体声信号是基于接收到的所述音频信号。

7、和上述第二个专利cn 1620197a相同,专利cn 111602414 a中的视频系统也需要瞄准说话者,即需要调整摄像头的转动方向对说话者进行拍摄。具体地,视频系统还包括瞄准确定器202。瞄准确定器202可以确定摄像机108的瞄准和/或聚焦的方向。瞄准确定器202可以确定摄像机108正在瞄准和/或聚焦单个人类说话者,并且从摄像机108和/或麦克风110确定单个说话者的方向。摄像机108可以通过指向说话者的方向来瞄准和/或聚焦单个人类说话者,使得说话者位于或靠近由摄像机采集的图像的中间,和/或可以通过调整摄像机108的镜头来聚焦单个人类说话者,使得从说话者反射的光汇聚在摄像机108的传感器上。

8、总之,第二个专利和第三个专利都需要识别发言人的方向,并且转动摄像头进行瞄准,对摄像头的机械性能和计算能力要求较高,操作较复杂。为此本专利技术提供了一种简单易行的实现方式,能够低成本地实现相同的功能。


技术实现思路

1、本专利技术提供了一种对发言人追踪拍摄的音视频选择方法及其系统,将多个音频设备采集的至少两路音频数据进行首帧时间对齐,并且所述音频数据进行各自内部时间对齐,有效实现了将多路音频数据按帧对齐储存,确保音频数据在时间上保持一致,避免后续出现重音或数据减少问题;根据所述音频设备的优先级和/或音频参数从所述至少两路音频数据中自动选择最优音频数据作为发言人音频数据;并且直接自动将与采集所述发言人音频数据的所述音频设备对应绑定的所述视频设备所采集的视频数据,作为发言人视频数据,即将音频设备和视频设备对应绑定,无需基于发言人音频数据进行复杂的发言人方位识别和调整,简化了系统的配置和操作,并且提高了整个音视频系统的效率。

2、第一方面,本专利技术提供了一种对发言人追踪拍摄的音视频选择方法,其特征在于,所述方法包括:

3、将至少两个音频设备与至少两个视频设备进行对应绑定;

4、利用所述至少两个音频设备和所述至少两个视频设备进行音频采集和视频采集,获得至少两路音频数据和至少两路视频数据;

5、将所述至少两路音频数据进行首帧时间对齐,所述音频数据进行各自内部时间对齐,并且存入各自的缓存队列中;

6、根据所述音频设备的优先级和/或音频参数从所述至少两路音频数据中选择最优音频数据,作为发言人音频数据;

7、将与采集所述发言人音频数据的所述音频设备对应绑定的所述视频设备所采集的视频数据,作为发言人视频数据;

8、将所述发言人音频数据和所述发言人视频数据发送给远端。

9、第二方面,本专利技术还提供了一种对发言人追踪拍摄的音视频选择系统,其特征在于,所述系统包括:

10、至少两个音频设备与至少两个视频设备,其用于进行音频采集和视频采集,获得至少两路音频数据和至少两路视频数据;

11、绑定装置,其用于将所述至少两个音频设备与所述至少两个视频设备进行对应绑定;

12、对齐装置,将所述至少两路音频数据进行首帧时间对齐,所述音频数据进行各自内部时间对齐,并且存入各自的缓存队列中;

13、音频选择装置,其用于根据所述音频设备的优先级和/或音频参数从所述至少两路音频数据中选择最优音频数据,作为发言人音频数据;

14、视频选择装置,其用于将与采集所述发言人音频数据的所述音频设备对应绑定的所述视频设备所采集的视频数据,作为发言人视频数据;

15、发送装置,其用于将所述发言人音频数据和所述发言人视频数据发送给远端。

16、本专利技术提供的对发言人追踪拍摄的音视频选择方法及其系统,通过不同音频数据首帧时间对齐和同一路音频数据各自内部时间对齐,确保不同音频数据的音频帧在时间上是对齐的,有效实现了将多路音频数据按帧对齐储存,避免后续出现重音或数据减少问题;并且直接自动将与采集所述发言人音频数据的所述音频设备对应绑定的所述视频设备所采集的视频数据,作为发言人视频数据,即将音频设备和视频设备对应绑定,无需基于发言人音频数据进行复杂的发言人方位识别和调整,简化了系统的配置和操作,并且提高了整个音视频系统的效率。通过自动化时间对齐、音频数据选择和音视频设备绑定,本专利技术可以提高多本文档来自技高网...

【技术保护点】

1.一种对发言人追踪拍摄的音视频选择方法,其特征在于,所述方法包括:

2.根据权利要求1所述的对发言人追踪拍摄的音视频选择方法,其特征在于,将所述至少两路音频数据进行首帧时间对齐的步骤具体包括:

3.根据权利要求2所述的对发言人追踪拍摄的音视频选择方法,其特征在于,所述方法还包括:

4.根据权利要求2或3所述的对发言人追踪拍摄的音视频选择方法,其特征在于,将与采集所述发言人音频数据的所述音频设备对应绑定的所述视频设备所采集的视频数据,作为发言人视频数据的步骤之后还包括:

5.根据权利要求2或3所述的对发言人追踪拍摄的音视频选择方法,其特征在于,所述方法还包括:

6.根据权利要求1-3中的任一项所述的对发言人追踪拍摄的音视频选择方法,其特征在于,根据所述音频设备的优先级和/或音频参数从所述至少两路音频数据中选择最优音频数据,作为发言人音频数据的步骤之前,所述方法还包括:

7.根据权利要求6所述的对发言人追踪拍摄的音视频选择方法,其特征在于,根据所述音频设备的优先级和/或音频参数从所述至少两路音频数据中选择最优音频数据,作为发言人音频数据的步骤具体为:

8.根据权利要求1-3中的任一项所述的对发言人追踪拍摄的音视频选择方法,其特征在于,所述音频参数包括VAD、信噪比和/或音频能量。

9.根据权利要求1-3中的任一项所述的对发言人追踪拍摄的音视频选择方法,其特征在于,所述音频设备包括内置音频设备和外置音频设备;

10.一种对发言人追踪拍摄的音视频选择系统,其特征在于,所述系统包括:

...

【技术特征摘要】

1.一种对发言人追踪拍摄的音视频选择方法,其特征在于,所述方法包括:

2.根据权利要求1所述的对发言人追踪拍摄的音视频选择方法,其特征在于,将所述至少两路音频数据进行首帧时间对齐的步骤具体包括:

3.根据权利要求2所述的对发言人追踪拍摄的音视频选择方法,其特征在于,所述方法还包括:

4.根据权利要求2或3所述的对发言人追踪拍摄的音视频选择方法,其特征在于,将与采集所述发言人音频数据的所述音频设备对应绑定的所述视频设备所采集的视频数据,作为发言人视频数据的步骤之后还包括:

5.根据权利要求2或3所述的对发言人追踪拍摄的音视频选择方法,其特征在于,所述方法还包括:

6.根据权利要求1-3中的任一项所述的对发言人追踪拍摄的音视频选择方法,其...

【专利技术属性】
技术研发人员:胡芳赵兴国
申请(专利权)人:上海赛连信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1