一种基于神经网络的PPT边框识别方法及相关设备技术

技术编号:22502374 阅读:16 留言:0更新日期:2019-11-09 02:40
本发明专利技术提供了一种基于神经网络的PPT边框识别方法及相关设备,通过将含有PPT文档信息的图片输入所述特征提取层中进行特征提取,得到所述特征提取层输出的图片的特征图;将所述图片的特征图输入到所述轮廓分割层,得到所述轮廓分割层输出的轮廓分割图像;将所述轮廓分割图像输入到角点定位层,得到所述角点定位层输出的PPT边框的四个角点的位置信息;将所述角点位置信息输入角点回归层得到角点位置修正信息;根据所述四个角点的位置信息识别出所述PPT边框。本发明专利技术所提供的方法及设备,可以实现快捷的从图片文件中识别出PPT文档的边框,为从PPT文档中准确的提取PPT信息提供了前提,为用户从视频文件中提取PPT信息提供便利。

A method of PPT frame recognition based on neural network and related equipment

The invention provides a PPT frame recognition method and related equipment based on neural network. By inputting a picture containing PPT document information into the feature extraction layer for feature extraction, the feature map of the picture outputted by the feature extraction layer is obtained; inputting the feature map of the picture into the contour segmentation layer, the contour segmentation image outputted by the contour segmentation layer is obtained; Input the contour segmentation image to the corner positioning layer to obtain the position information of the four corners of the PPT frame output by the corner positioning layer; input the corner position information to the corner regression layer to obtain the corner position correction information; identify the PPT frame according to the position information of the four corners. The method and the device provided by the invention can quickly recognize the border of the PPT document from the picture file, provide a premise for accurately extracting the PPT information from the PPT document, and provide convenience for the user to extract the PPT information from the video file.

【技术实现步骤摘要】
一种基于神经网络的PPT边框识别方法及相关设备
本专利技术涉及信息处理
,尤其涉及的是一种基于神经网络的PPT边框识别方法及相关设备。
技术介绍
目前,在大型会议还是内部讨论会中,参会者都会利用PPT文档进行报告。演讲者通过将PPT投影到投影幕或显示器上来将演讲主要内容呈现给观众。观众主要是通过呈现出来的PPT文档和演讲者口头汇报的内容来获知PPT文档的信息,因此在会议中最主要内容是PPT文档内容和演讲中口诉内容。目前,观众或者主办方会利用录像设备来对会议中PPT文档内容、演讲者口头语言内容进行采集。这种视频录制方法能够有效地记录演讲者的PPT演示内容和口头演讲内容,但是针对录制好的视频文件可能会含有大量与PPT文档及其讲解不相关的内容,若未能参加现场会议的用户需要基于整个视频文件获取PPT文档的信息,则可能会因视频文件中含有的信息量大,并非是单一的关于PPT文档信息的视频文件,导致花费大量不必要的时间。而现有技术中,还未公开用于提取视频文件中的PPT文档内容或者演讲中的语言文字内容的方法,也未公开如何在提取视频文件中的PPT文档时准确识别其边框,从而实现准确的PPT画面的提取,因此如何快速的从视频文件中提取PPT文档相关信息的问题是亟待需要解决的问题。因此,现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处,本专利技术的目的在于为用户提供一种基于神经网络的PPT边框识别方法及相关设备,克服现有技术中存在的技术还不含有从图片文件中获取PPT文档方法的缺陷。本专利技术提供了一种基于神经网络的PPT边框识别方法,其中,所述神经网络包括:特征提取层、轮廓分割层和角点定位层:所述PPT边框识别方法包括:将含有PPT文档信息的图片输入所述特征提取层中进行特征提取,得到所述特征提取层输出的图片的特征图;将所述图片的特征图输入到所述轮廓分割层,得到所述轮廓分割层输出的轮廓分割图像;将所述轮廓分割图像输入到角点定位层,得到所述角点定位层输出的PPT边框的四个角点的位置信息;根据所述四个角点的位置信息识别出所述PPT边框。可选的,所述特征提取层包括:第一卷积层和反卷积层;所述含有PPT文档信息的图片输入所述第一卷积层,所述第一卷积层输出所述图片所对应的图片特征层;将所述图片特征层输入所述反卷积层,所述反卷积层输出所述图片特征层所对应的特征图。可选的,所述轮廓分割层包括:第一卷积核;所述特征图输入所述卷积核,经过卷积操作后,输出轮廓分割图像。可选的,所述角点定位层包括:第二卷积核;将所述轮廓分割图像依次输入所述第二卷积核,重复四次,分别得到四次卷积操作后输出的所述四个角点的位置信息。可选的,所述神经网络还包括:全连接层;所述方法还包括:根据所述四个角点的位置信息,从特征图中提取出其所对应的特征向量;将所述特征向量输入若干个全连接层,得到输出的四个角点在图片上的角点位置修正信息。可选的,所述方法还包括:对一系列含有PPT文档信息的图片进行预处理,将其缩放为尺寸的图片后,再输入到特征提取层。可选的,所述特征提取层为已训练的Mobilenetv2网络结构和所述反卷积层的组成,或者所述特征提取层为编码-解码网络结构。在上述方法的基础上,本专利技术还提供了一种基于神经网络的PPT边框识别装置,其中,所述神经网络包括:特征提取层、轮廓分割层和角点定位层:所述PPT边框识别装置包括:特征提取模块,用于将含有PPT文档信息的图片输入所述特征提取层中进行特征提取,得到所述特征提取层输出的图片的特征图;轮廓分割模块,用于将所述一系列图片的特征图输入到所述轮廓分割层,得到所述轮廓分割层输出的轮廓分割图像;角点定位模块,用于将所述轮廓分割图像输入到角点定位层,得到所述角点定位层输出的PPT边框的四个角点的位置信息;边框识别模块,用于根据所述四个角点的位置信息识别出所述PPT边框。在上述方法的基础上,本专利技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现任一项所述方法的步骤。在上述方法的基础上,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述的方法的步骤。有益效果,本专利技术提供了一种基于神经网络的PPT边框识别方法及相关设备,通过将含有PPT文档信息的图片输入所述特征提取层中进行特征提取,得到所述特征提取层输出的图片的特征图;将所述图片的特征图输入到所述轮廓分割层,得到所述轮廓分割层输出的轮廓分割图像;将所述轮廓分割图像输入到角点定位层,得到所述角点定位层输出的PPT边框的四个角点的位置信息;根据所述四个角点的位置信息识别出所述PPT边框。本专利技术所提供的方法及设备,可以实现快捷的从图片文件中识别出PPT文档的边框,为从PPT文档中准确的提取PPT信息提供了前提,为用户从视频文件中提取PPT信息提供便利。附图说明图1是本专利技术所述方法具体实施例的步骤流程图;图2是本专利技术所述方法的具体应用实施例步骤流程图;图3是本专利技术所述方法识别出所述边框的示意图;图4是本专利技术所述装置的原理结构框图;图5是本专利技术所述计算机设备的硬件结构示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。本专利技术提供了一种基于神经网络的PPT边框识别方法,所述神经网络包括:特征提取层、轮廓分割层和角点定位层。本专利技术所述方法利用神经网络对含有PPT边框的图片进行处理,分别通过特征提取、轮廓分割和PPT四个角点的定位实现从图片中识别出PPT边框。具体的,如图1所示,所述PPT边框识别方法包括:步骤S1、将一系列含有PPT文档信息的图片输入所述特征提取层中进行特征提取,得到所述特征提取层输出的一系列图片的特征图。本步骤中首先获取的含有PPT文档信息的图片,可以通过从视频文件中获取,或者拍摄图像得到,以及其他可以获取到含有PPT文档信息的图片的方式。可以想到是,对于第一种方式,所述图片可以为对视频文件进行分帧处理得到的。将视频文件分割成处于同一时间轴序列的一系列图像帧,该一系列图像帧形成序列图库。可以想到的是,对视频文件做分帧处理一般需要获取该视频文件的总时长,根据预定时间为间隔,将视频文件分割成独立的原始图像帧。其中,预设时间越小,则视频文件中分割出原始图像帧越多,预设时间越大,则视频文件中分割出的原始图像帧就越少。而所述原始图像帧分割出的越多,则相似度高的图片就会越多,相邻图像帧之间的相似度就会越大,因此本步骤中视频文件的总时长,以及分割时间的设置均对分割出的图像帧个数及相邻图像帧之间的相似度有影响。针对第二种,该一系列图片也可以是拍摄出的含有PPT画面的一系列图像,将拍摄出的一系列图像按照时间顺序进行排列,得到一系列的信息图像组成的图片集。当获取到一系列含有PPT文档信息的图片后,利用神经网络的特征提取层提取各个图片的特征图。具体的,所述特征提取层包括:第一卷积层和反卷积层;所述一系列含有PPT文档信息的图片输入所述第一卷积层,所述第一卷积层输出所述图片所对应的图片特征层;将所述图片特征层输入所述反卷积层,所述反卷积层输出本文档来自技高网...

【技术保护点】
1.一种基于神经网络的PPT边框识别方法,其特征在于,所述神经网络包括:特征提取层、轮廓分割层和角点定位层:所述PPT边框识别方法包括:将含有PPT文档信息的图片输入所述特征提取层中进行特征提取,得到所述特征提取层输出的图片的特征图;将所述图片的特征图输入所述轮廓分割层,得到所述轮廓分割层输出的轮廓分割图像;将所述轮廓分割图像输入所述角点定位层,得到所述角点定位层输出的PPT边框的四个角点的位置信息;根据所述四个角点的位置信息识别出所述PPT边框。

【技术特征摘要】
1.一种基于神经网络的PPT边框识别方法,其特征在于,所述神经网络包括:特征提取层、轮廓分割层和角点定位层:所述PPT边框识别方法包括:将含有PPT文档信息的图片输入所述特征提取层中进行特征提取,得到所述特征提取层输出的图片的特征图;将所述图片的特征图输入所述轮廓分割层,得到所述轮廓分割层输出的轮廓分割图像;将所述轮廓分割图像输入所述角点定位层,得到所述角点定位层输出的PPT边框的四个角点的位置信息;根据所述四个角点的位置信息识别出所述PPT边框。2.根据权利要求1所述的基于神经网络的PPT边框识别方法,其特征在于,所述特征提取层包括:第一卷积层和反卷积层;所述含有PPT文档信息的图片输入所述第一卷积层,所述第一卷积层输出所述图片所对应的图片特征层;将所述图片特征层输入所述反卷积层,所述反卷积层输出所述图片特征层所对应的特征图。3.根据权利要求2所述的基于神经网络的PPT边框识别方法,其特征在于,所述轮廓分割层包括:第一卷积核;所述特征图输入所述卷积核,经过卷积操作后,输出轮廓分割图像。4.根据权利要求3所述的基于神经网络的PPT边框识别方法,其特征在于,所述角点定位层包括:第二卷积核;将所述轮廓分割图像依次输入所述第二卷积核,重复四次,分别得到四次卷积操作后输出的所述四个角点的位置信息。5.根据权利要求4所述的基于神经网络的PPT边框识别方法,其特征在于,所述神经网络还包括:全连接层;所述方法还包括:根据所述四个角点的位置信息,从特征图中提取出其...

【专利技术属性】
技术研发人员:管明雷汪驰升
申请(专利权)人:深圳市容会科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1