一种结合语音识别的身体轨迹实时跟踪方法及装置制造方法及图纸

技术编号：22689599 阅读：43 留言：0更新日期：2019-11-30 03:57

本发明专利技术涉及通信技术领域，特别涉及一种结合语音识别的身体轨迹实时跟踪方法及装置。该方法为：将第二时段采集的音频信号进行语音识别，确定第五说话对象及所述第五说话对象对应的音频帧；在确定所述第五说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。

A real-time tracking method and device of body track based on speech recognition

The invention relates to the field of communication technology, in particular to a body track real-time tracking method and device combined with speech recognition. The method is as follows: carry out speech recognition for the audio signal collected in the second period, determine the fifth speaking object and the audio frame corresponding to the fifth speaking object; when determining the fifth speaking object as the associated object, match the image frame of the video signal collected in the second period with the body image of the associated object, and collect the video signal from the second period An image frame including the associated object is determined in; the associated object is the object indicated in the correspondence established according to the audio signal collected in the first period and the video signal collected in the first period; the correspondence between the audio frame corresponding to the fifth speaking object and the image frame including the associated object collected in the second period is determined.

全部详细技术资料下载

【技术实现步骤摘要】
一种结合语音识别的身体轨迹实时跟踪方法及装置
本专利技术涉及音频处理技术，特别涉及一种结合语音识别的身体轨迹实时跟踪方法及装置。
技术介绍
当今社会中，出于安防管理的需要，监控设备布满了街道、社区、楼宇等各种公共场合。在发生警情时，警务人员利用监控摄像搜捕嫌疑人。然而随着监控网络规模的扩大，视频数据海量增长。在出现警情时，基于嫌疑人的图像从海量图像中获取有用的信息或者情报越来越困难，不仅效率低，同时人力成本高。另外，出于会议场景的需要，尤其是远程会议场景的需要，会议中仅能显示视频，无法在显示界面显示说话人的语音识别结果，导致会议的效率不高，而且，针对会议中信息的记录也需要额外增加人力进行会议记录，导致耗费了大量的人力成本，无法提高业务效率。
技术实现思路
本专利技术实施例提供一种结合语音识别的身体轨迹实时跟踪方法及装置，用以提高监控场景或会议场景下的语音识别和图像识别的联合监控和语音的跟踪，提高监控或会议效率，以及会议场景下的语音识别和图像识别的联合显示，满足会议的业务需要。本专利技术实施例提供的具体技术方案如下：本专利技术实施例提供一种结合语音识别的身体轨迹实时跟踪方法，包括：将第二时段采集的音频信号进行语音识别，确定第五说话对象及所述第五说话对象对应的音频帧；在确定所述第五说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时...

【技术保护点】
1.一种结合语音识别的身体轨迹实时跟踪方法，其特征在于，包括：/n将第二时段采集的音频信号进行语音识别，确定第五说话对象及所述第五说话对象对应的音频帧；/n在确定所述第五说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的；/n确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。/n

【技术特征摘要】
1.一种结合语音识别的身体轨迹实时跟踪方法，其特征在于，包括：
将第二时段采集的音频信号进行语音识别，确定第五说话对象及所述第五说话对象对应的音频帧；
在确定所述第五说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的；
确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。

2.如权利要求1所述的方法，其特征在于，所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象，包括：
将第一时段采集的音频信号进行语音识别，确定第二说话对象及所述第二说话对象对应的音频帧；
将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧；所述第二说话对象是根据所述第一时段采集的视频信号的图像帧中同一人脸的唇动特征确定的；
建立所述第二说话对象对应的音频帧与所述第一说话对象对应的图像帧之间的所述对应关系，并将所述对应关系指示的对象确定为所述已关联对象。

3.如权利要求2所述的方法，其特征在于，所述将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧，包括：
根据所述第一时段中所述已关联对象对应的图像帧中的第一说话对象的人脸图像，确定所述第一说话对象的第一身体图像；
将所述第二时段采集的视频信号中的图像帧与所述第一身体图像进行匹配，从所述第二时段采集的视频信号中确定所述第二时段中所述已关联对象的图像帧。

4.如权利要求2所述的方法，其特征在于，所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的，包括：
从所述第二说话对象对应的图像帧中确定所述第二说话对象的身体图像；
关联所述第二说话对象的身体图像与所述第二说话对象的人脸图像。

5.如权利要求3所述的方法，其特征在于，将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配之前，还...

【专利技术属性】
技术研发人员：汪俊，李索恒，张志齐，
申请(专利权)人：上海依图信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人