唇语训练数据的提取方法及装置制造方法及图纸

技术编号：26482601 阅读：35 留言：0更新日期：2020-11-25 19:29

公开了一种唇语训练数据的提取方法、装置、计算机可读存储介质及电子设备，方法包括：从目标视频中提取视频片段，所述视频片段的每一帧视频图像均携带字幕；从所述视频片段中解析出视频图像序列及语音信息；从所述视频图像序列中的每一帧视频图像提取唇部图像；根据各个所述唇部图像得到唇动信息，并将所述语音信息及所述唇动信息作为唇语训练数据输出。根据本公开的技术方案，可更为快速的实现从视频中提取唇语训练数据。

全部详细技术资料下载

【技术实现步骤摘要】
唇语训练数据的提取方法及装置
本申请涉及多模数据处理领域，尤其涉及唇语训练数据的提取方法及装置。
技术介绍
在训练唇语语音识别系统的过程中，需要使用大量的唇语训练数据。目前，为了满足唇语语音识别系统的训练需求，经常需要从已经发布的视频中提取语音信息及其对应的唇动信息，提取的语音信息及其对应的唇动信息即可作为用于训练唇语语音识别系统的唇语训练数据。
技术实现思路
从已经发布的视频中提取唇语训练数据时，需要对该视频的每一帧视频图像依次进行人脸检测，人脸检测开销较大，需要消耗较长的时间才能实现从视频中提取唇语训练数据。为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种唇语训练数据的提取方法、装置、计算机可读存储介质及电子设备，可更为快速的实现从视频中提取唇语训练数据。根据本申请的第一方面，提供了一种唇语训练数据的提取方法，包括：从目标视频中提取视频片段，所述视频片段的每一帧视频图像均携带字幕；从所述视频片段中解析出视频图像序列及语音信息；从所述视频图像序...

【技术保护点】
1.一种唇语训练数据的提取方法，包括：/n从目标视频中提取视频片段，所述视频片段的每一帧视频图像均携带字幕；/n从所述视频片段中解析出视频图像序列及语音信息；/n从所述视频图像序列中的每一帧视频图像提取唇部图像；/n根据各个所述唇部图像得到唇动信息，并将所述语音信息及所述唇动信息作为唇语训练数据输出。/n

【技术特征摘要】
1.一种唇语训练数据的提取方法，包括：
从目标视频中提取视频片段，所述视频片段的每一帧视频图像均携带字幕；
从所述视频片段中解析出视频图像序列及语音信息；
从所述视频图像序列中的每一帧视频图像提取唇部图像；
根据各个所述唇部图像得到唇动信息，并将所述语音信息及所述唇动信息作为唇语训练数据输出。

2.根据权利要求1所述的方法，
所述从目标视频中提取视频片段，包括：
获取所述目标视频的字幕位置；
根据所述字幕位置从所述目标视频中提取字幕区域视频；
针对所述字幕区域视频的每一帧字幕区域图像，检测所述字幕区域图像是否携带字幕，并记录所述字幕区域图像的状态参数，其中，所述状态参数指示了所述字幕区域图像是否携带字幕；
根据所述字幕区域图像的状态参数，从所述目标视频中提取视频片段。

3.根据权利要求2所述的方法，
所述检测所述字幕区域图像是否携带字幕，包括：
检测所述字幕区域图像的各个边缘点；
根据各个所述边缘点计算所述字幕区域图像中长度为第一设定值的水平线的第一数量，以及根据各个所述边缘点计算所述字幕区域图像中长度为所述第一设定值的垂直线的第二数量；
根据各个所述边缘点的总量、所述第一数量及所述第二数量，确定所述字幕区域图像是否携带字幕。

4.根据权利要求1所述的方法，
所述从所述视频片段中解析出视频图像序列及语音信息之前，还包括：对所述视频片段的视频数据及音频数据进行时序校正。

5.根据权利要求1所述的方法，
在所述从所述视频片段中解析出视频图像序列及语音信息之前，还包括：
从所述视频片段中提取至少一帧第一检测图像；
针对每一帧所述第一检测图像，对所述第一检测图像进行光学字符识别以确定所述第一检测图像是否携带文字信息；
当每一帧所述第一检测图像均携带文字信息时，执行所述从所述视频片段中解析出视频图像序列及语音信息。

6.根据权利要求1所述的方法，
在所述从所述视频片段中解析出视频图像序列及语音信息之前，还包括：
检测所述视频片段是否发生场景切换，如果否，则执行所述从所述视频片段中解析出视频图像序列及语音信息。

7.根据权利要求6所述的方法，
所述检测所述视频片段是否发生场景切换，包括：
统计所述视频片段的每一帧所述视频图像的第一颜色直方图；
针对所述视频片段中每两帧相邻的所述视频图像，根据相邻的两帧所述视频图像的所述第一颜色直方图，计算相邻的两帧所述视频图像在各个指定颜色通道上分别对应的第一色彩变化值；
根据各个所述第一色彩变化值确定所述视频片段是否发生场景切换。

8.根据权利要求1所述的方法，
在所述从所述视频片段中解析出视频图像序列及语音信息之前，还包括：
从所述视频片段中提取至少一帧第二检测图像；
检测每一帧所述第二检测图像中是否均仅包括一张人脸图像，如果是，则执行所述从所述视频片段...

【专利技术属性】
技术研发人员：宫一尘，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人