一种识别图像中PPT边框的方法及相关设备技术

技术编号:22502373 阅读:18 留言:0更新日期:2019-11-09 02:40
本发明专利技术提供了一种识别图像中PPT边框的方法及相关设备,通过获取含有PPT文档的多个图像帧;将所述多个图像帧输入卷积层中进行图像帧特征层的提取将提取出特征图输入到RPN候选区域提取网络中进行矩形区域候选框的提取;将提取出的所述特征图输入到所述预设神经网络模型中的深度卷积神经网络中进行图像语义分割,输出分割出的PPT区域;根据提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。本发明专利技术所提供的方法及设备,可以实现快捷的从视频文件中识别出PPT文档的边框,为从PPT文档中准确的提取PPT信息提供了前提,为用户从图像文件或者视频文件中提取PPT信息提供便利。

A method of recognizing ppt frame in image and related equipment

The invention provides a method and related equipment for recognizing the PPT frame in an image, by acquiring a plurality of image frames containing the PPT document, inputting the plurality of image frames into the convolution layer for extracting the image frame feature layer, inputting the extracted feature map into the RPN candidate area extraction network for extracting the rectangular area candidate frame, inputting the extracted feature map into the preset In the depth convolution neural network of the neural network model, image semantic segmentation is carried out, and the PPT region is output; according to the extracted rectangular region candidate frame and the PPT region segmented, the PPT frame is obtained. The method and the device provided by the invention can quickly recognize the border of a PPT document from a video file, provide a premise for accurately extracting PPT information from a PPT document, and provide convenience for users to extract PPT information from an image file or a video file.

【技术实现步骤摘要】
一种识别图像中PPT边框的方法及相关设备
本专利技术涉及信息处理
,尤其涉及的是一种识别图像中PPT边框的方法及相关设备。
技术介绍
目前,在大型会议还是内部讨论会中,参会者都会利用PPT文档进行报告。演讲者通过将PPT投影到投影幕或显示器上来将演讲主要内容呈现给观众。观众主要是通过呈现出来的PPT文档和演讲者口头汇报的内容来获知PPT文档的信息,因此在会议中最主要内容是PPT文档内容和演讲中口诉内容。目前,观众或者主办方会利用录像设备来对会议中PPT文档内容、演讲者口头语言内容进行采集。这种视频录制方法能够有效地记录演讲者的PPT演示内容和口头演讲内容,但是针对录制好的视频文件可能会含有大量与PPT文档及其讲解不相关的内容,若未能参加现场会议的用户需要基于整个视频文件获取PPT文档的信息,则可能会因视频文件中含有的信息量大,并非是单一的关于PPT文档信息的视频文件,导致花费大量不必要的时间。而现有技术中,还未公开用于提取视频文件中的PPT文档内容或者演讲中的语言文字内容的方法,也未公开如何在提取视频文件中的PPT文档时准确识别其边框,从而实现准确的PPT画面的提取,因此如何快速的从图像帧中提取PPT文档相关信息的问题是亟待需要解决的问题。因此,现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处,本专利技术的目的在于为用户提供一种识别图像中PPT边框的方法及相关设备,克服现有技术中无法实现自动快速的从图像帧中识别出PPT边框的缺陷。本专利技术提供了一种识别图像中PPT边框的方法,其中,包括步骤:A、获取含有PPT文档的多个图像帧;B、将所述多个图像帧输入预设神经网络模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图;C、将各个所述特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图;D、将所述提取到矩形区域候选框的特征图输入到所述神经网络模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;E、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。可选的,所述卷积层为VGGnet网络结构,其中插入有若干层Dropout层。可选的,所述步骤C还包括:C1、对所述RPN候选区域提取网络中提取出的矩形区域候选框进行二分类,获取含有矩形区域候选框的特征图。可选的,所述步骤C1之后,还包括:步骤C2、利用若干个回归模型对所述图像帧中的矩形区域候选框进行位置和大小的调整。可选的,所述步骤C2之后,还包括:C3、将所述特征图输入到全连接层中,输出图像特征向量;C4、利用softmax函数对所述图像特征向量进行分类,分类出矩形区域候选框所属图像特征向量,并利用边框回归算法对分类出的所述图像特征向量对应的边框位置进行调整。可选的,所述步骤D中图像语义分割包括:D1、对所述图像上的每个像素值进行分类检测,将属于PPT区域分类的像素进行掩码。可选的,所述深度卷积神经网络的结构依次包括:卷积层、激活层、若干个卷积层-归一化层-激活层和卷积层。可选的,所述步骤A之前,还包括:A0、基于条件随机场算法构建所述深度卷积神经网络。在上述方法的基础上,本专利技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现所述方法的步骤。在上述方法的基础上,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述的方法的步骤。有益效果,本专利技术提供了一种识别图像中PPT边框的方法及相关设备,通过识获取含有PPT文档的多个图像帧;将所述多个图像帧输入已训练的用于识别PPT边框的预设神经网络模型的卷积层中进行图像帧特征层的提取,得到提取出的特征图;将提取出特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取;将提取出的所述特征图输入到所述预设神经网络模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;根据提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。本专利技术所提供的方法及设备,可以实现快捷的从图像帧中识别出PPT文档的边框,为从PPT文档中准确的提取PPT信息提供了前提,为用户获取PPT信息提供便利。附图说明图1是本专利技术提供的所述方法具体实施例的步骤流程图;图2是本专利技术提供的所述方法的具体应用实施例步骤流程图;图3是本专利技术提供的所述计算机设备的原理结构示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。本专利技术提供了一种识别图像中PPT边框的方法,如图1所示,本专利技术所述方法包括:步骤S1、获取含有PPT文档的一系列的多个图像帧。本步骤中首先获取到含有PPT文档的一系列的多个图像帧,所述图像帧可以为对视频文件进行分帧处理得到的。将视频文件分割成处于同一时间轴序列的一系列图像帧,该一系列图像帧形成序列图库。具体的,对视频文件做分帧处理一般需要获取该视频文件的总时长,根据预定时间为间隔,将视频文件分割成独立的原始图像帧。其中,预设时间越小,则视频文件中分割出原始图像帧越多,非常视频文件中分割出的原始图像帧就越少。所述原始图像帧分割出的越多,则相似度高的图像帧就会越多,相邻图像帧之间的相似度就会越大,因此本步骤中视频文件的总时长,以及分割时间的设置均对分割出的图像帧个数及相邻图像帧之间的相似度有影响。该图像帧也可以是拍摄出的含有PPT画面的一系列图像,将拍摄出的一系列图像按照时间顺序进行排列,得到一系列的多个图像帧。根据分割出的多个图像帧存储到一个新建图库,得到由多个图像帧组成的一序列图像帧。步骤S2、将所述多个图像帧输入预设神经网络模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图。结合图2所示,将上述步骤S1中得到的一系列图像帧输入卷积层中进行特征提取,得到图片特征层,也即所述特征图。本步骤中较佳的所述预设神经网络模型的卷积层为预训练好的VGGnet网络结构,通过将图像帧输入VGGnet网络,输出与各个图像帧相对应的特征图。较佳的,为了防止过拟合,在所述VGGnet网络结构的中间插入了几层Dropout层,所述Dropout层以0.6的概率进行节点丢弃。所述Dropout层为了实现在对神经网络模型训练的时候,避免验证集的拟合程度很差的情况出现。其原理为在每次迭代的更新网络参数时,按照一定的概率对网络参数层的参数进行随机采集,实现对参数的扩展,迭代出的子网络不重复,从而实现防止卷积层过拟合。步骤S3、将各个所述特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图。本步骤中利用RPN候选区域提取网络进行特征图中矩形区域候选框的提取。具体的,将提取出的一系列图像帧所对应的多个特征图输入到训练完成的RPN候选区域提取网络中,所述RPN候选区域提取网络输出所述特征图中识别出的矩形区域候选框。进一步的,所述步骤S3还包括:步骤S31、对所述RPN候选区域提本文档来自技高网...

【技术保护点】
1.一种识别图像中PPT边框的方法,其特征在于,包括步骤:A、获取含有PPT文档的多个图像帧;B、将所述多个图像帧输入预设神经网络模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图;C、将各个所述特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图;D、将所述提取到矩形区域候选框的特征图输入到所述神经网络模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;E、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。

【技术特征摘要】
1.一种识别图像中PPT边框的方法,其特征在于,包括步骤:A、获取含有PPT文档的多个图像帧;B、将所述多个图像帧输入预设神经网络模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图;C、将各个所述特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图;D、将所述提取到矩形区域候选框的特征图输入到所述神经网络模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;E、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。2.根据权利要求1所述的识别图像中PPT边框的方法,其特征在于,所述卷积层为VGGnet网络结构,其中插入有若干层Dropout层。3.根据权利要求1所述的识别图像中PPT边框的方法,其特征在于,所述步骤C还包括:C1、对所述RPN候选区域提取网络中提取出的矩形区域候选框进行二分类,获取含有矩形区域候选框的特征图。4.根据权利要求3所述的识别图像中PPT边框的方法,其特征在于,所述步骤C1之后,还包括:步骤C2、利用若干个回归模型对所述图像帧中的矩形区域候选框进行位置和大小的调整。5.根据权利要求4所...

【专利技术属性】
技术研发人员:管明雷汪驰升
申请(专利权)人:深圳市容会科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1