处理视频数据的方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：24863762 阅读：61 留言：0更新日期：2020-07-10 19:14

本申请涉及一种处理视频数据的方法、装置、计算机设备和存储介质。所述方法包括：对当前视频中当前帧进行文本检测得到当前帧的文本区域；获取当前视频的台词区域，当前视频的台词区域根据当前视频的多个视频序列帧文本区域确定；获取文本区域与台词区域的重叠区域的区域信息；分别计算重叠区域的高度与对应的文本区域和台词区域的高度的比值得到第一比值和第二比值；当第一比值和第二比值中任意一个比值大于预设比值，将该文本区域作为台词区域。不同视频的台词区域存在差异，根据同一视频中多个视频帧自适应确定的台词区域，对该视频的视频帧的文本区域与自适应的台词区域的重叠区域的高度比值直接定位出台词区域，提高了定位的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
处理视频数据的方法、装置、计算机设备和存储介质
本申请涉及计算机
，尤其涉及一种处理视频数据的方法、装置、计算机设备和存储介质。
技术介绍
在文本搜索，文本翻译等应用场景中，需要首先对视频中的台词区域的文本区域进行提取，以便后续进行ocr识别和翻译。目前的文本检测算法是通过直接检测预先设置的视频区域中的文本信息，将处于该位置上的文本信息作为目标文本，但是，视频中除了目标文本所在区域外，还会有多处文本区域，文本检测算法直接检测出文本，会导致检测出来的区域可能包含非台词区域的文本信息，从而降低检测结果的准确度。
技术实现思路
为了解决上述技术问题，本申请提供了一种处理视频数据的方法、装置、计算机设备和存储介质。第一方面，本申请提供了一种处理视频数据的方法，包括：获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域；获取当前视频的台词区域，当前视频的台词区域是根据当前视频的多个视频序列帧的文本区域确定的；获取每个文本区域与台词区域的重叠区域的区域信息，...

【技术保护点】
1.一种处理视频数据的方法，其特征在于，所述方法包括：/n获取当前视频中的当前帧，对所述当前帧进行文本检测，得到所述当前帧的至少一个文本区域；/n获取所述当前视频的台词区域，所述当前视频的台词区域是根据当前视频的多个视频序列帧的文本区域确定的；/n获取每个所述文本区域与所述台词区域的重叠区域的区域信息，所述区域信息包括高度；/n分别计算各个所述重叠区域的高度与对应的所述文本区域和所述台词区域的高度的比值，得到第一比值和第二比值；/n当所述第一比值和所述第二比值中的任意一个比值大于第一预设阈值，将所述文本区域的区域信息作为当前台词区域的区域信息。/n

【技术特征摘要】
1.一种处理视频数据的方法，其特征在于，所述方法包括：
获取当前视频中的当前帧，对所述当前帧进行文本检测，得到所述当前帧的至少一个文本区域；
获取所述当前视频的台词区域，所述当前视频的台词区域是根据当前视频的多个视频序列帧的文本区域确定的；
获取每个所述文本区域与所述台词区域的重叠区域的区域信息，所述区域信息包括高度；
分别计算各个所述重叠区域的高度与对应的所述文本区域和所述台词区域的高度的比值，得到第一比值和第二比值；
当所述第一比值和所述第二比值中的任意一个比值大于第一预设阈值，将所述文本区域的区域信息作为当前台词区域的区域信息。

2.根据权利要求1所述的方法，其特征在于，所述获取当前视频中的当前帧之前，还包括：
获取所述当前视频对应的多个原始视频序列帧，对各个所述原始视频序列帧进行文本检测得到对应的视频序列帧，各个所述视频序列帧的文本区域和非文本区域的像素值分别为1和0；
对各个所述视频序列帧进行累加，得到热图；
二值化所述热图，得到二值图像，所述二值图像中包含至少一个封闭区域，所述封闭区域的像素值为1，所述封闭区域为交叉区域或非交叉区域；
当所述封闭区域中包含交叉区域时，按照预设划分规则对所述交叉区域进行区域划分得到非交叉区域，直至所述封闭区域均为非交叉区域；
按照预设台词区域约束规则对所述非交叉区域进行区域筛选，得到所述台词区域。

3.根据权利要求2所述的方法，其特征在于，所述按照预设台词区域约束规则对所述非交叉区域进行区域筛选，得到所述台词区域，包括：
判断各个所述非交叉区域的高度是否小于预设高度阈值，当所述非交叉区域的高度小于所述预设高度阈值时，将所述非交叉区域的区域标识设置为第一标识；
判断各个所述非交叉区域的宽度是否小于第一预设宽度阈值，或是否大于第二预设宽度阈值，所述第二预设宽度阈值大于所述第一预设宽度阈值，当所述非交叉区域的宽度小于所述第一预设宽度阈值，或大于第二预设宽度阈值时，将所述非交叉区域的区域标识设置为所述第一标识；判断各个所述非交叉区域的起始像素是否位于预设位置的右边，当所述非交叉区域的起始像素位于所述预设位置的右边时，将所述非交叉区域的区域标识设置为所述第一标识；
当所述二值图像对应的非交叉区域中的剩余非交叉区域的区域标识设置为第二标识，提取所述第二标识对应的非交叉区域的区域特征，并根据所述区域特征确定所述非交叉区域的格式类型，所述格式类型包括左对齐、中心对称；
当所述第一标识对应的非交叉区域的数量为0时，根据所述第二标识对应的非交叉区域的格式类型筛选出所述台词区域。

4.根据权利要求3所述的方法，其特征在于，当所述第一标识对应的非交叉区域的数量为0时，所述根据所述第二标识对应的非交叉区域的格式类型筛选出台词区域，包括：
当所述第二标识对应的非交叉区域的台词格式中包含左对齐或中心对称中的任意一个台词格式，将所述台词格式为左对齐或中心对应的非交叉区域作为所述台词区域；
当所述第二标识对应的非交叉区域中包含左对齐或中心对称中的任意一个台词格式的非交叉区域和不属于所述左对齐或中心对称中的任意一个台词格式的非交叉区域时，将不属于所述左对齐或中心对称中的任意一个台词格式的非交叉区域中的像素值置0；
当所述第二标识对应的非交叉区域的台词格式不属于所述左对齐或中心对称中的任意一个格式，且所述非交叉区域的数量大于1时，计算各个所述第二标识对应的非交叉区域的区域方差，将所述区域方差中的最大值对应的非交叉区域作为所述台词区域。

5.根据权利要求3所述的方法，其特征在于，所述提取所述第二标识对应的非交叉区域的区域特征，并根据所述区域特征确定所述非交...

【专利技术属性】
技术研发人员：王晨旭，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人