发言人员音频及影像追踪系统技术方案

技术编号:24059025 阅读:21 留言:0更新日期:2020-05-07 17:32
本实用新型专利技术提供一种发言人员音频及影像追踪系统,主要设于例如一会议室的开放空间中,并包含一控制主机、一环景影像获取设备及一麦克风数组装置,其中,控制主机的一数据库预先加载数笔脸部动作特征信息,当会议室进行会议时,环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者,并分析出发言者的三维空间地址信息后,透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音,再进一步将发言者的脸部画面特写投影至会议室的一显示屏,以供其他与会者可立即得知目前谁在发言以及可清楚聆听发言人的发言。

Speaker audio and video tracking system

【技术实现步骤摘要】
发言人员音频及影像追踪系统
本技术涉及一种发言人员音频及影像追踪系统,尤指一种可清楚辨识会议中发言人的声音以及影像的发言人员音频及影像追踪系统。
技术介绍
传统视频会议系统可利用三个以上的摄影机来拍摄参与会议的人,同时使用麦克风数组来进行发言者的定位,并且将所定位的发言者放大于视频会议影像中,然而,传统作法仅执行声音定位来判断音源位置,并且认为该音源位置即是发言者的位置,进而将该位置的影像放大于视频会议影像中,因此,上述传统方法会因为环境噪音而导致准确度不足,无法精准地判断发言者的位置,又,一般传统式单收音麦克风系统具有下列缺点:(1)收音方向性限制,讲话的人没有对着麦克风的收音效果很差;(2)于会议环境使用时,当换人发言时,需将麦克风转交给下一发言人;(3)于家用智能家电设备使用时,收音效率极低。而传统式麦克风数组收音会议系统虽然因为采用全向性麦克风数组收音,有效提高了对使用环境内所有发言者的收音质量,但无法鉴别声音源是信号还是噪音,不利于背景噪声源的收音。
技术实现思路
有鉴于上述的问题,本申请人依据多年来从事会议视讯设备相关行业的经验,针对视讯中发言人的音源及影像定位进行研究及分析;缘此,本技术的主要目的在于提供一种可清楚辨识会议中发言人的声音以及影像的发言人员音频及影像追踪系统。为达上述的目的,本技术发言人员音频及影像追踪系统,其主要包括一控制主机、一环景影像获取设备以及一麦克风数组装置,其中,控制主机的一数据库预先加载数笔脸部动作特征信息,当会议室进行会议时,环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者,并分析出该发言者的三维空间地址信息后,透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音,再进一步将发言者的脸部画面特写投影至会议室的一显示屏上,以供其他与会者可清楚得知目前的发言人影像以及其发言内容。为使贵审查委员得以清楚了解本技术的目的、技术特征及其实施后的功效,兹以下列说明搭配图示进行说明,敬请参阅。附图说明图1为本技术的系统组成示意图;图2为本技术的实施示意图(一);图3为本技术的实施示意图(二);图4为本技术的实施示意图(三);图5为本技术的另一实施例(一);图6为本技术的实施例(一)实施示意图;图7为本技术的另一实施例(二);图8为实施例(二)的实施示意图。具体实施方式请参阅「图1」,图中所示为本技术的系统组成示意图,如图中所示的发言人员音频及影像追踪系统10,其主要包括一控制主机101、一环景影像获取设备102以及一麦克风数组装置103,其中,控制主机101可例如为一实体服务器或云端主机,且控制主机101具有一中央处理模块1011,所述的中央处理模块1011用以驱动各模块作动,并分别与一数据库1012、一信息接收发送模块1013以及一投影模块1014形成信息链接,且数据库1012中预先储存有数笔脸部动作特征信息F,所述的脸部动作特征信息F可例如为嘴部张开讲话时脸部肌肉的动作信息等,而信息接收发送模块1013用以接收或传送电子信息,且投影模块1014可用以将影像信息投影至一显示屏11(图中未绘示);环景影像获取设备102主要设置于例如会议室的一开放空间的中,其设有一影像分析模块1021,且影像分析模块1021中具有一脸部辨识单元1022,环景影像获取设备102可例如为环景摄影机或是深度摄影机(DepthCamera,亦可称立体摄影机)等,环景影像获取设备102可获取不同方向的影像信息,并且可进一步将各个影像信息合成为环景影像,使环景影像的影像范围可涵盖整个会议环境,且影像分析模块1021的脸部辨识单元1022可依据数据库1012中的数笔脸部动作特征信息F,辨识出开放空间内正在发言的一发言人,并获取及分析出该发言人的一脸部影像信息F1以及一三维空间地址信息F2(例如三维坐标),所述的脸部影像信息F1主要为该发言人的一脸部特写影像信息,所述的人脸动作辨识作业可透过机器学习或深度学习进行影像比对,例如可基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)进行人脸辨识训练,更进一步例如使用FasterRCNN(FasterRegion-basedConvolutionalNeuralNetwork)的卷积神经网络进行人脸辨识训练,并且可通过随机梯度下降算法(StochasticGradientDescent,SGD)进行迭代训练,而三维空间地址信息F2为该发言人在开放空间中的三维空间地址信息F2,可定位出发言人的位置,又,为进一步便于环景影像获取设备102进行现场环境的影像获取作业,可进一步在环景影像获取设备102的底部加装一转动基座(例如一万向转动基座,图中未绘示),便于环景影像获取设备102可以360度取景;麦克风数组装置103,具有一声源过滤模块1031,可设置于例如会议室的开放空间中,其可以为数组式麦克风(ArrayMicrophone),所述的麦克风数组装置103具有数个麦克风收音单元,可获取数个不同方向的环境音讯N,所述的环境音讯N中主要为一人声音源信息N1以及一环境噪音信息N2所组成,声源过滤模块1031可预先设定过滤参数,以将环境噪音信息N2过滤后只留下人声音源信息N1;又,环景影像获取设备102及麦克风数组装置103亦可以组设于控制主机101中,使环景影像获取设备102及麦克风数组装置103,同步获取环景影像及声音讯号。请参阅「图2」,图中所示为本技术的实施示意图(一),请搭配参阅「图1」,本技术于实施时,系预先将环景影像获取设备102以及麦克风数组装置103架设于一适当位置,例如一会议室12的一开放空间13中,常态下会议室12中所有与会人员的脸部表情均受到环景影像获取设备102的聚焦监控,当有人进行发言时,例如图中所示的一发言人A,环景影像获取设备102会依据数据库1012中的数笔脸部动作特征信息F,进一步针对发言人A的脸部表情进行辨识,以确定该人员是否正在发言,若是,则获取及分析出该发言人的一脸部影像信息F1以及一三维空间地址信息F2,并进一步传送至控制主机101的数据库1012储存;再请搭配参阅「图3」,图中所示为本技术的实施示意图(二),承「图2」所述,中央处理模块1011系进一步透过信息接收发送模块1013将三维空间地址信息F2传送至麦克风数组装置103,使麦克风数组装置103可依据三维空间地址信息F2屏蔽或关闭其他方向的麦克风收音单元,仅开启该地址方向的麦克风单元,以聚焦接收该方向的环境音讯N,并透过声源过滤模块1031将环境音频N过滤出人声音源信息N1,并进一步传送至控制主机101;再请搭配参阅「图4」,图中所示为本技术的实施示意图(三),承上所述,控制主机101可进一步将发言人A的脸部影像信息F1透过投影模块1014投影至会议室12的显示屏11上,以供会议室12的与会人员可透过投影幕11本文档来自技高网...

【技术保护点】
1.一种发言人员音频及影像追踪系统,其特征在于,所述发言人员音频及影像追踪系统可设于一开放空间中,其包括:/n一控制主机,具有一中央处理模块,所述中央处理模块分别与一数据库、一信息接收发送模块以及一投影模块形成信息链接,其中,所述数据库预先储存有数笔脸部动作特征信息;/n一环景影像获取设备,与所述控制主机形成信息链接,所述环景影像获取设备可依据所述数据库中的数笔该脸部动作特征信息,辨识出所述开放空间内正在发言的一发言人,并获取及分析出所述发言人的一脸部影像信息以及一三维空间地址信息,而所述脸部影像信息以及所述三维空间地址信息可分别经过所述信息接收发送模块传送至所述数据库储存;/n一麦克风数组装置,与所述控制主机形成信息链接,可供以接收所述三维空间地址信息,使所述麦克风数组装置可依据所述三维空间地址信息获取一环境音频,并过滤及分析出所述环境音讯中的一人声音源信息;以及/n所述人声音源信息可进一步传送至所述控制主机,并透过所述信息接收发送模块进行信息的传递进行信息的发送,而所述脸部影像信息则可透过所述投影模块投影至一显示屏中。/n

【技术特征摘要】
1.一种发言人员音频及影像追踪系统,其特征在于,所述发言人员音频及影像追踪系统可设于一开放空间中,其包括:
一控制主机,具有一中央处理模块,所述中央处理模块分别与一数据库、一信息接收发送模块以及一投影模块形成信息链接,其中,所述数据库预先储存有数笔脸部动作特征信息;
一环景影像获取设备,与所述控制主机形成信息链接,所述环景影像获取设备可依据所述数据库中的数笔该脸部动作特征信息,辨识出所述开放空间内正在发言的一发言人,并获取及分析出所述发言人的一脸部影像信息以及一三维空间地址信息,而所述脸部影像信息以及所述三维空间地址信息可分别经过所述信息接收发送模块传送至所述数据库储存;
一麦克风数组装置,与所述控制主机形成信息链接,可供以接收所述三维空间地址信息,使所述麦克风数组装置可依据所述三维空间地址信息获取一环境音频,并过滤及分析出所述环境音讯中的一人声音源信息;以及
所述人声音源信息可进一步传送至所述控制主机,并透过所述信息接收发送模块进行信息的传递进行信息的发送,而所述脸部影像信息则可透过所述投影模块投影至一显示屏中。


2.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述环景影像获取设备设有一转动基座。


3.如权利要求1所述的发言人员音频及影像追踪系统,其特征在于,所述环景影像获取设备设有一影像分析模块。


4.如权利要求3所述的发言...

【专利技术属性】
技术研发人员:薛乐山
申请(专利权)人:南京深视光点科技有限公司
类型:新型
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1