The invention provides a method and related equipment for recognizing the PPT frame in an image, by acquiring a plurality of image frames containing the PPT document, inputting the plurality of image frames into the convolution layer for extracting the image frame feature layer, inputting the extracted feature map into the RPN candidate area extraction network for extracting the rectangular area candidate frame, inputting the extracted feature map into the preset In the depth convolution neural network of the neural network model, image semantic segmentation is carried out, and the PPT region is output; according to the extracted rectangular region candidate frame and the PPT region segmented, the PPT frame is obtained. The method and the device provided by the invention can quickly recognize the border of a PPT document from a video file, provide a premise for accurately extracting PPT information from a PPT document, and provide convenience for users to extract PPT information from an image file or a video file.
【技术实现步骤摘要】
一种识别图像中PPT边框的方法及相关设备
本专利技术涉及信息处理
,尤其涉及的是一种识别图像中PPT边框的方法及相关设备。
技术介绍
目前,在大型会议还是内部讨论会中,参会者都会利用PPT文档进行报告。演讲者通过将PPT投影到投影幕或显示器上来将演讲主要内容呈现给观众。观众主要是通过呈现出来的PPT文档和演讲者口头汇报的内容来获知PPT文档的信息,因此在会议中最主要内容是PPT文档内容和演讲中口诉内容。目前,观众或者主办方会利用录像设备来对会议中PPT文档内容、演讲者口头语言内容进行采集。这种视频录制方法能够有效地记录演讲者的PPT演示内容和口头演讲内容,但是针对录制好的视频文件可能会含有大量与PPT文档及其讲解不相关的内容,若未能参加现场会议的用户需要基于整个视频文件获取PPT文档的信息,则可能会因视频文件中含有的信息量大,并非是单一的关于PPT文档信息的视频文件,导致花费大量不必要的时间。而现有技术中,还未公开用于提取视频文件中的PPT文档内容或者演讲中的语言文字内容的方法,也未公开如何在提取视频文件中的PPT文档时准确识别其边框,从而实现准确的PPT画面的提取,因此如何快速的从图像帧中提取PPT文档相关信息的问题是亟待需要解决的问题。因此,现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处,本专利技术的目的在于为用户提供一种识别图像中PPT边框的方法及相关设备,克服现有技术中无法实现自动快速的从图像帧中识别出PPT边框的缺陷。本专利技术提供了一种识别图像中PPT边框的方法,其中,包括步骤:A、获取含有PPT文档的多个图像帧;B ...
【技术保护点】
1.一种识别图像中PPT边框的方法,其特征在于,包括步骤:A、获取含有PPT文档的多个图像帧;B、将所述多个图像帧输入预设神经网络模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图;C、将各个所述特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图;D、将所述提取到矩形区域候选框的特征图输入到所述神经网络模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;E、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。
【技术特征摘要】
1.一种识别图像中PPT边框的方法,其特征在于,包括步骤:A、获取含有PPT文档的多个图像帧;B、将所述多个图像帧输入预设神经网络模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图;C、将各个所述特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图;D、将所述提取到矩形区域候选框的特征图输入到所述神经网络模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;E、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。2.根据权利要求1所述的识别图像中PPT边框的方法,其特征在于,所述卷积层为VGGnet网络结构,其中插入有若干层Dropout层。3.根据权利要求1所述的识别图像中PPT边框的方法,其特征在于,所述步骤C还包括:C1、对所述RPN候选区域提取网络中提取出的矩形区域候选框进行二分类,获取含有矩形区域候选框的特征图。4.根据权利要求3所述的识别图像中PPT边框的方法,其特征在于,所述步骤C1之后,还包括:步骤C2、利用若干个回归模型对所述图像帧中的矩形区域候选框进行位置和大小的调整。5.根据权利要求4所...
【专利技术属性】
技术研发人员:管明雷,汪驰升,
申请(专利权)人:深圳市容会科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。