唇语训练数据的提取方法及装置制造方法及图纸

技术编号:26482601 阅读:31 留言:0更新日期:2020-11-25 19:29
公开了一种唇语训练数据的提取方法、装置、计算机可读存储介质及电子设备,方法包括:从目标视频中提取视频片段,所述视频片段的每一帧视频图像均携带字幕;从所述视频片段中解析出视频图像序列及语音信息;从所述视频图像序列中的每一帧视频图像提取唇部图像;根据各个所述唇部图像得到唇动信息,并将所述语音信息及所述唇动信息作为唇语训练数据输出。根据本公开的技术方案,可更为快速的实现从视频中提取唇语训练数据。

【技术实现步骤摘要】
唇语训练数据的提取方法及装置
本申请涉及多模数据处理领域,尤其涉及唇语训练数据的提取方法及装置。
技术介绍
在训练唇语语音识别系统的过程中,需要使用大量的唇语训练数据。目前,为了满足唇语语音识别系统的训练需求,经常需要从已经发布的视频中提取语音信息及其对应的唇动信息,提取的语音信息及其对应的唇动信息即可作为用于训练唇语语音识别系统的唇语训练数据。
技术实现思路
从已经发布的视频中提取唇语训练数据时,需要对该视频的每一帧视频图像依次进行人脸检测,人脸检测开销较大,需要消耗较长的时间才能实现从视频中提取唇语训练数据。为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种唇语训练数据的提取方法、装置、计算机可读存储介质及电子设备,可更为快速的实现从视频中提取唇语训练数据。根据本申请的第一方面,提供了一种唇语训练数据的提取方法,包括:从目标视频中提取视频片段,所述视频片段的每一帧视频图像均携带字幕;从所述视频片段中解析出视频图像序列及语音信息;从所述视频图像序列中的每一帧视频图像提取唇部图像;根据各个所述唇部图像得到唇动信息,并将所述语音信息及所述唇动信息作为唇语训练数据输出。根据本申请的第二方面,提供了一种存储训练数据的提取装置,包括:视频提取模块,用于从目标视频中提取视频片段,所述视频片段的每一帧视频图像均携带字幕;解析处理模块,用于从所述视频片段中解析出视频图像序列及语音信息;图像提取模块,用于从所述解析处理模块解析得到的所述视频图像序列中的每一帧视频图像提取唇部图像;聚合处理模块,用于根据所述图像提取模块提取的各个所述唇部图像得到唇动信息。根据本申请的第三方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面中所述的唇语训练数据的提取方法。根据本申请的第四方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述第一方面中所述的唇语训练数据的提取方法。与现有技术相比,采用根据本申请提供的唇语训练数据的提取方法、装置、计算机可读存储介质及电子设备,可以从目标视频中提取每一帧视频图像均携带字幕的视频片段,然后从所述视频片段中解析出视频图像序列及语音信息,进一步从解析的所述视频图像序列中的每一帧视频图像提取唇部图像之后,即可根据各个所述唇部图像得到唇动信息,进而将所述语音信息及所述唇动信息作为唇语训练数据输出。综上可见,采用本申请提供的技术方案,无需对视频的每一帧视频图像进行开销较大的人脸检测,可更为快速的实现从视频中提取唇语训练数据。附图说明通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是本申请一示例性实施例提供的唇语训练数据的提取方法的流程示意图。图2是本申请一示例性实施例提供的唇语训练数据的提取方法中视频片段提取步骤的流程示意图。图3是本申请一示例性实施例提供的唇语训练数据的提取方法中字幕检测步骤的流程示意图。图4是本申请一示例性实施例提供的包括时序校正步骤的唇语训练数据的提取方法的流程示意图。图5是本申请一示例性实施例提供的唇语训练数据的提取方法中光学字符识别步骤的流程示意图。图6是本申请一示例性实施例提供的包括场景切换检测步骤的唇语训练数据的提取方法的流程示意图。图7是本申请一示例性实施例提供的唇语训练数据的提取方法中场景切换检测步骤的流程示意图。图8是本申请一示例性实施例提供的包括人脸抽检步骤的一种唇语训练数据的提取方法的流程示意图。图9是本申请一示例性实施例提供的包括人脸抽检步骤的另一种唇语训练数据的提取方法的流程示意图。图10是本申请一示例性实施例提供的包括唇动抽检步骤的唇语训练数据的提取方法的流程示意图。图11是本申请一示例性实施例提供的唇语训练数据的提取方法中唇动检测步骤的流程示意图。图12是本申请一示例性实施例提供的另一种唇语训练数据的提取方法的流程示意图。图13是本申请一示例性实施例提供的唇语训练数据的提取方法中唇部图像提取步骤的流程示意图。图14是本申请一示例性实施例提供的一种唇语训练数据的提取装置的结构示意图。图15是本申请一示例性实施例提供的另一种唇语训练数据的提取装置的结构示意图。图16是本申请一示例性实施例提供的电子设备的结构示意图。具体实施方式下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。申请概述唇语训练数据是由唇动信息及其对应的语音信息构成的多模数据。公开发布的视频通常可以分离为视频数据以及与其在时序上相互对应的音频数据,视频数据所指示的视频图像序列中,如果一个视频片段(若干帧连续的视频图像所构成的视频图像序列)内相同人物图像的唇部图像区域发生变化(即发生唇动),即可根据该视频片段得到相应的唇动信息,根据该视频片段的时序从音频数据中对应解析出语音信息,即可得到一组由唇动信息及语音信息构成的唇语训练数据。一般的,当一个视频片段内相同人物图像的唇部图像区域发生变化(即发生唇动)时,组成该视频片段的每一帧连续的视频图像中则会携带能够直接表达该视频片段所对应的语音信息的字幕。有鉴于此,针对上述需要消耗较长时间才能实现从视频中提取唇语训练数据的技术问题,本申请的基本构思是提出了一种唇语训练数据的提取方法、装置、计算机可读存储介质及电子设备,具体地,可以从目标视频中提取每一帧视频图像均携带字幕的视频片段,然后从所述视频片段中解析出视频图像序列及语音信息,进一步从解析的所述视频图像序列中的每一帧视频图像提取唇部图像之后,即可根据各个所述唇部图像得到唇动信息,进而将所述语音信息及所述唇动信息作为唇语训练数据输出。基于该基本构思的本申请的各个实施例,无需对视频的每一帧视频图像进行开销较大的人脸检测,可更为快速的实现从视频中提取唇语训练数据。在介绍本申请的基本构思之后,下面将结合附图来具体介绍本申请所述提供技术方案的各种非限制性实施例。示例性方法图1是本申请一示例性实施例提供的唇语训练数据的提取方法的流程示意图。本实施例可应用在电子设备上,具体可以应用于服务器或一般计算机上。如图1所示,本申请一示例性实施例提供的唇语训练数据的提取方法至少包括如下步骤101~步骤104:步骤101,从目标视频中提取视频片段,所述视频片段的每一帧视频图像均携本文档来自技高网...

【技术保护点】
1.一种唇语训练数据的提取方法,包括:/n从目标视频中提取视频片段,所述视频片段的每一帧视频图像均携带字幕;/n从所述视频片段中解析出视频图像序列及语音信息;/n从所述视频图像序列中的每一帧视频图像提取唇部图像;/n根据各个所述唇部图像得到唇动信息,并将所述语音信息及所述唇动信息作为唇语训练数据输出。/n

【技术特征摘要】
1.一种唇语训练数据的提取方法,包括:
从目标视频中提取视频片段,所述视频片段的每一帧视频图像均携带字幕;
从所述视频片段中解析出视频图像序列及语音信息;
从所述视频图像序列中的每一帧视频图像提取唇部图像;
根据各个所述唇部图像得到唇动信息,并将所述语音信息及所述唇动信息作为唇语训练数据输出。


2.根据权利要求1所述的方法,
所述从目标视频中提取视频片段,包括:
获取所述目标视频的字幕位置;
根据所述字幕位置从所述目标视频中提取字幕区域视频;
针对所述字幕区域视频的每一帧字幕区域图像,检测所述字幕区域图像是否携带字幕,并记录所述字幕区域图像的状态参数,其中,所述状态参数指示了所述字幕区域图像是否携带字幕;
根据所述字幕区域图像的状态参数,从所述目标视频中提取视频片段。


3.根据权利要求2所述的方法,
所述检测所述字幕区域图像是否携带字幕,包括:
检测所述字幕区域图像的各个边缘点;
根据各个所述边缘点计算所述字幕区域图像中长度为第一设定值的水平线的第一数量,以及根据各个所述边缘点计算所述字幕区域图像中长度为所述第一设定值的垂直线的第二数量;
根据各个所述边缘点的总量、所述第一数量及所述第二数量,确定所述字幕区域图像是否携带字幕。


4.根据权利要求1所述的方法,
所述从所述视频片段中解析出视频图像序列及语音信息之前,还包括:对所述视频片段的视频数据及音频数据进行时序校正。


5.根据权利要求1所述的方法,
在所述从所述视频片段中解析出视频图像序列及语音信息之前,还包括:
从所述视频片段中提取至少一帧第一检测图像;
针对每一帧所述第一检测图像,对所述第一检测图像进行光学字符识别以确定所述第一检测图像是否携带文字信息;
当每一帧所述第一检测图像均携带文字信息时,执行所述从所述视频片段中解析出视频图像序列及语音信息。


6.根据权利要求1所述的方法,
在所述从所述视频片段中解析出视频图像序列及语音信息之前,还包括:
检测所述视频片段是否发生场景切换,如果否,则执行所述从所述视频片段中解析出视频图像序列及语音信息。


7.根据权利要求6所述的方法,
所述检测所述视频片段是否发生场景切换,包括:
统计所述视频片段的每一帧所述视频图像的第一颜色直方图;
针对所述视频片段中每两帧相邻的所述视频图像,根据相邻的两帧所述视频图像的所述第一颜色直方图,计算相邻的两帧所述视频图像在各个指定颜色通道上分别对应的第一色彩变化值;
根据各个所述第一色彩变化值确定所述视频片段是否发生场景切换。


8.根据权利要求1所述的方法,
在所述从所述视频片段中解析出视频图像序列及语音信息之前,还包括:
从所述视频片段中提取至少一帧第二检测图像;
检测每一帧所述第二检测图像中是否均仅包括一张人脸图像,如果是,则执行所述从所述视频片段...

【专利技术属性】
技术研发人员:宫一尘
申请(专利权)人:北京地平线机器人技术研发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1