一种结合语音识别的身体轨迹实时跟踪方法及装置制造方法及图纸

技术编号:22689599 阅读:43 留言:0更新日期:2019-11-30 03:57
本发明专利技术涉及通信技术领域,特别涉及一种结合语音识别的身体轨迹实时跟踪方法及装置。该方法为:将第二时段采集的音频信号进行语音识别,确定第五说话对象及所述第五说话对象对应的音频帧;在确定所述第五说话对象为已关联对象时,将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧;所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象;确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。

A real-time tracking method and device of body track based on speech recognition

The invention relates to the field of communication technology, in particular to a body track real-time tracking method and device combined with speech recognition. The method is as follows: carry out speech recognition for the audio signal collected in the second period, determine the fifth speaking object and the audio frame corresponding to the fifth speaking object; when determining the fifth speaking object as the associated object, match the image frame of the video signal collected in the second period with the body image of the associated object, and collect the video signal from the second period An image frame including the associated object is determined in; the associated object is the object indicated in the correspondence established according to the audio signal collected in the first period and the video signal collected in the first period; the correspondence between the audio frame corresponding to the fifth speaking object and the image frame including the associated object collected in the second period is determined.

【技术实现步骤摘要】
一种结合语音识别的身体轨迹实时跟踪方法及装置
本专利技术涉及音频处理技术,特别涉及一种结合语音识别的身体轨迹实时跟踪方法及装置。
技术介绍
当今社会中,出于安防管理的需要,监控设备布满了街道、社区、楼宇等各种公共场合。在发生警情时,警务人员利用监控摄像搜捕嫌疑人。然而随着监控网络规模的扩大,视频数据海量增长。在出现警情时,基于嫌疑人的图像从海量图像中获取有用的信息或者情报越来越困难,不仅效率低,同时人力成本高。另外,出于会议场景的需要,尤其是远程会议场景的需要,会议中仅能显示视频,无法在显示界面显示说话人的语音识别结果,导致会议的效率不高,而且,针对会议中信息的记录也需要额外增加人力进行会议记录,导致耗费了大量的人力成本,无法提高业务效率。
技术实现思路
本专利技术实施例提供一种结合语音识别的身体轨迹实时跟踪方法及装置,用以提高监控场景或会议场景下的语音识别和图像识别的联合监控和语音的跟踪,提高监控或会议效率,以及会议场景下的语音识别和图像识别的联合显示,满足会议的业务需要。本专利技术实施例提供的具体技术方案如下:本专利技术实施例提供一种结合语音识别的身体轨迹实时跟踪方法,包括:将第二时段采集的音频信号进行语音识别,确定第五说话对象及所述第五说话对象对应的音频帧;在确定所述第五说话对象为已关联对象时,将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧;所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象;所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的;所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的;确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。本专利技术实施例中,通过将第二时段采集的音频信号进行语音识别,及所述第二时段采集的视频信号根据第一时段匹配的已关联对象与第二时段采集的音频信号进行语音识别的语音识别结果进行关联,确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系,以使监控场景或会议场景下,在获得已关联对象的人脸图像及身体图像的条件下,可以直接进行说话对象的关联,减少图像识别所带来的资源消耗,提高已关联对象的召回率,提高语音对象跟踪效率,及监控或会议效率,以适应更多的监控或会议环境。一种可能的实现方式,所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象,包括:将第一时段采集的音频信号进行语音识别,确定第二说话对象及所述第二说话对象对应的音频帧;将所述第一时段采集的视频信号进行人脸识别,确定第二说话对象及所述第二说话对象对应的图像帧;所述第二说话对象是根据所述第一时段采集的视频信号的图像帧中同一人脸的唇动特征确定的;建立所述第二说话对象对应的音频帧与所述第一说话对象对应的图像帧之间的所述对应关系,并将所述对应关系指示的对象确定为所述已关联对象。本专利技术实施例中,通过将第一时段采集的音频信号进行语音识别,及所述第一时段采集的视频信号进行人脸识别;确定第一说话对象及所述第一说话对象对应的图像帧;确定所述第二说话对象对应的音频帧与所述第一说话对象对应的图像帧的对应关系,以使监控场景或会议场景下,获得更多的待识别对象的监控信息,无需在离线过程中,再查找第一说话对象对应的语音识别结果,为安防提供更多的监控数据,提高监控或会议效率,以适应更多的监控或会议环境。一种可能的实现方式,所述将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧,包括:根据所述第一时段中所述已关联对象对应的图像帧中的第一说话对象的人脸图像,确定所述第一说话对象的第一身体图像;将所述第二时段采集的视频信号中的图像帧与所述第一身体图像进行匹配,从所述第二时段采集的视频信号中确定所述第二时段中所述已关联对象的图像帧。上述技术方案中,根据确定第一说话对象的人脸图像及第一身体图像,将第二时段中,将无法识别人脸图像但可以识别身体图像的图像帧进行关联,提高了监控和会议效果。一种可能的实现方式,所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的,包括:从所述第二说话对象对应的图像帧中确定所述第二说话对象的身体图像;关联所述第二说话对象的身体图像与所述第二说话对象的人脸图像。上述技术方案中,根据确定第一说话对象的人脸图像关联第一身体图像,提高了关联效果,进而实现在第二时段中进行身体图像的关联,提高监控和会议效果。一种可能的实现方式,将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配之前,还包括:在确定所述第五说话对象为已关联对象时,从所述第二时段采集的视频信号的图像帧中确定不存在与所述已关联对象的人脸图像匹配的图像帧。本专利技术实施例提供一种结合语音识别的身体轨迹实时跟踪装置,包括:音频处理模块,用于将第二时段采集的音频信号进行语音识别,确定第五说话对象及所述第五说话对象对应的音频帧;识别处理模块,用于在确定所述第五说话对象为已关联对象时,将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧;所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象;所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的;所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的;确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。一种可能的实现方式,所述音频处理模块,具体用于:将第一时段采集的音频信号进行语音识别,确定第一说话对象及所述第一说话对象对应的音频帧;所述装置还包括:图像处理模块,用于将所述第一时段采集的视频信号进行人脸识别,确定第二说话对象及所述第二说话对象对应的图像帧;所述第二说话对象是根据所述视频信号的图像帧中同一人脸的唇动特征确定的;所述识别处理模块,用于确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧之间的所述对应关系,并将所述对应关系中的对象确定为所述已关联对象。一种可能的实现方式,所述识别处理模块,用于:根据所述第一时段中所述已关联对象对应的图像帧中的第一说话对象的人脸图像,确定所述第一说话对象的第一身体图像;将所述第二时段采集的视频信号中的图像帧与所述第一身体图像进行匹配,从所述第二时段采集的视频信号中确定所述第二时段中所述已关联对象的图像帧。本专利技术实施例提供了一种存储介质,存储有用于语音识别的方法的程序,所述程序被处理器运行时,执行上述实施例中任一项所述的方法。本本文档来自技高网...

【技术保护点】
1.一种结合语音识别的身体轨迹实时跟踪方法,其特征在于,包括:/n将第二时段采集的音频信号进行语音识别,确定第五说话对象及所述第五说话对象对应的音频帧;/n在确定所述第五说话对象为已关联对象时,将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧;所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象;所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的;所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的;/n确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。/n

【技术特征摘要】
1.一种结合语音识别的身体轨迹实时跟踪方法,其特征在于,包括:
将第二时段采集的音频信号进行语音识别,确定第五说话对象及所述第五说话对象对应的音频帧;
在确定所述第五说话对象为已关联对象时,将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧;所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象;所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的;所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的;
确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。


2.如权利要求1所述的方法,其特征在于,所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象,包括:
将第一时段采集的音频信号进行语音识别,确定第二说话对象及所述第二说话对象对应的音频帧;
将所述第一时段采集的视频信号进行人脸识别,确定第二说话对象及所述第二说话对象对应的图像帧;所述第二说话对象是根据所述第一时段采集的视频信号的图像帧中同一人脸的唇动特征确定的;
建立所述第二说话对象对应的音频帧与所述第一说话对象对应的图像帧之间的所述对应关系,并将所述对应关系指示的对象确定为所述已关联对象。


3.如权利要求2所述的方法,其特征在于,所述将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧,包括:
根据所述第一时段中所述已关联对象对应的图像帧中的第一说话对象的人脸图像,确定所述第一说话对象的第一身体图像;
将所述第二时段采集的视频信号中的图像帧与所述第一身体图像进行匹配,从所述第二时段采集的视频信号中确定所述第二时段中所述已关联对象的图像帧。


4.如权利要求2所述的方法,其特征在于,所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的,包括:
从所述第二说话对象对应的图像帧中确定所述第二说话对象的身体图像;
关联所述第二说话对象的身体图像与所述第二说话对象的人脸图像。


5.如权利要求3所述的方法,其特征在于,将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配之前,还...

【专利技术属性】
技术研发人员:汪俊李索恒张志齐
申请(专利权)人:上海依图信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1