文本版心识别方法、电子设备及计算机存储介质技术

技术编号:16216950 阅读:36 留言:0更新日期:2017-09-15 23:12
本发明专利技术公开了一种文本版心识别方法、电子设备及计算机存储介质,其方法包括:从文本中择取预设页数的页面,分为奇数页面组和偶数页面组;分别对每个页面的文字以行为单位进行识别,得到对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理;根据矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对矩形文本对象进行过滤处理,得到该页面组的投影页面的有效矩形文本对象,确定该页面组的版心。本发明专利技术提供的方法,识别效率高。

Text type identification method, electronic equipment and computer storage medium

The invention discloses a text type identification method, electronic equipment and computer storage medium, the method comprises: selecting preset pages from the text page, the page is divided into odd groups and even page group; each page of text recognition in units of the rectangle corresponding to each object; page group, odd page groups and even page group were treated on the page: the page completely overlapped groups, perpendicular to the direction of the projection direction page were projected on the web page group, will in the projection direction with intersecting rectangle text object region merging based on rectangle position data processing; the size of rectangular and rectangular object text data and / or rectangular text object text information, the rectangular text object is filtered, the page group Effective rectangular page text object projection, determine the page type group. The method provided by the invention has high recognition efficiency.

【技术实现步骤摘要】
文本版心识别方法、电子设备及计算机存储介质
本专利技术涉及软件领域,具体涉及一种文本版心识别方法、电子设备及计算机存储介质。
技术介绍
随着网络和移动终端设备的发展,电子书与传统的纸质书相比,从阅读方式、携带等各方面而言,都更加便利。因此,越来越多的用户选择阅读电子书。电子书的文本有时会比较错乱,需要对其文本进行再排版等操作。在执行这些操作时,首先需要获取文本的版心。版心即文本每个页面中主要内容所在的区域,位于每个页面版面正中的位置,包括了页面中正文的部分。现有技术在获取文本的版心时,一般采用如下方法:通过Photoshop等图像处理工具对版心位置进行定位,但这种方法需要人工操作,其处理速度慢且获取的版心准确度较低;还可以通过预设的模块对整个版心进行识别,这种方法虽然较前一种方法速度稍快,但对整个版心识别的准确度较低,有时还需要人工再进行调整。因此,需要一种效率高且准确度高的文本版心识别方法。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本版心识别方法、电子设备及计算机存储介质。根据本专利技术的一个方面,提供了一种文本版心识别方法,其包括:从文本中择取预设页数的页面,将预设页数的页面按照页码分为奇数页面组和偶数页面组;分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含合并处理后的矩形文本对象的该页面组的投影页面;根据该页面组的投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对矩形文本对象进行过滤处理,得到该页面组的投影页面的有效矩形文本对象;根据该页面组的投影页面的有效矩形文本对象,确定该页面组的版心。根据本专利技术的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:从文本中择取预设页数的页面,将预设页数的页面按照页码分为奇数页面组和偶数页面组;分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含合并处理后的矩形文本对象的该页面组的投影页面;根据该页面组的投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对矩形文本对象进行过滤处理,得到该页面组的投影页面的有效矩形文本对象;根据该页面组的投影页面的有效矩形文本对象,确定该页面组的版心。根据本专利技术的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:从文本中择取预设页数的页面,将预设页数的页面按照页码分为奇数页面组和偶数页面组;分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含合并处理后的矩形文本对象的该页面组的投影页面;根据该页面组的投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对矩形文本对象进行过滤处理,得到该页面组的投影页面的有效矩形文本对象;根据该页面组的投影页面的有效矩形文本对象,确定该页面组的版心。根据本专利技术提供的文本版心识别方法、电子设备及计算机存储介质,从文本中择取预设页数的页面,按照页码分为奇数页面组和偶数页面组。分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到其中每行文字对应的矩形文本对象;在针对奇数页面组和偶数页面组中的每一页面组,进行处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含合并处理后的矩形文本对象的该页面组的投影页面。根据该页面组的投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对矩形文本对象进行过滤处理,得到该页面组的投影页面的有效矩形文本对象。根据该页面组的投影页面的有效矩形文本对象,确定该页面组的版心。通过对择取的每个页面以行为单位识别出的矩形文本对象,并将页面组的页面完全重叠设置后进行投影、合并等处理,得到包含合并处理后的矩形文本对象的该页面组的投影页面。对投影页面中的矩形文本对象进一步过滤,得到有效矩形文本对象,从而可以准确的确定页面组的版心。与现有技术相比,本专利技术以行为单位依次进行处理,得到的版心的准确度更精确,且整个完全不需要人工的参与,更快速高效。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术实施例一的文本版心识别方法的流程图;图2示出了根据本专利技术实施例二的文本版心识别方法的流程图;图3示出了本专利技术实施例二中过滤处理的流程图;图4示出了本专利技术实施例二中在页面建立x轴和y轴的示意图;图5示出了根据本专利技术实施例四的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一图1示出了根据本专利技术实施例一的文本版心识别方法的流程图,如图1所示,文本版心识别方法具体包括如下步骤:步骤S101,从文本中择取预设页数的页面,将预设页数的页面按照页码分为奇数页面组和偶数页面组。在从文本中择取预设页数的页面时,预设页面的数量可以根据文本自身的页数多少来设置。再将择取的页面按照各个页面上的页码分为奇数页面组和偶数页面组两组页面。如择取了页码为11-20共10页页面,按照页码分为11、13、15、17、19奇数页面组和12、14、16、18、20偶数页面组。为使版心识别的准确度和识别效率更高,优选的可设置预设页数为20页,以便择取多个不同页面进行版心识别,同时也控制页面数量也不会过多以造成版心识别时间较长等问题。在从文本中择本文档来自技高网...
文本版心识别方法、电子设备及计算机存储介质

【技术保护点】
一种文本版心识别方法,其包括:从文本中择取预设页数的页面,将所述预设页数的页面按照页码分为奇数页面组和偶数页面组;分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含所述合并处理后的矩形文本对象的该页面组的投影页面;根据该页面组的所述投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对所述矩形文本对象进行过滤处理,得到该页面组的所述投影页面的有效矩形文本对象;根据该页面组的所述投影页面的有效矩形文本对象,确定该页面组的版心。

【技术特征摘要】
1.一种文本版心识别方法,其包括:从文本中择取预设页数的页面,将所述预设页数的页面按照页码分为奇数页面组和偶数页面组;分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含所述合并处理后的矩形文本对象的该页面组的投影页面;根据该页面组的所述投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对所述矩形文本对象进行过滤处理,得到该页面组的所述投影页面的有效矩形文本对象;根据该页面组的所述投影页面的有效矩形文本对象,确定该页面组的版心。2.根据权利要求1所述的方法,其中,在所述从文本中择取预设页数的页面之后,所述将预设页数的页面按照页码分为奇数页面组和偶数页面组之前,所述方法进一步包括:根据各页面中文字的字体和/或字号判断页面是否为包含正文的页面,若否,则去除该页面。3.根据权利要求1所述的方法,其中,所述对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含所述合并处理后合的矩形文本对象的该页面组的投影页面进一步包括:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象按照包括这些矩形文本对象的最小范围进行合并处理,得到包含所述合并处理后合的矩形文本对象的该页面组的投影页面。4.根据权利要求1所述的方法,其中,所述根据该页面组的所述投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对所述矩形文本对象进行过滤处理,得到该页面组的所述投影页面的有效矩形文本对象进一步包括:以该页面组的所述投影页面的左下角为原点,设置页面横向为x轴,页面纵向为y轴;按照所述矩形文本对象的矩形位置数据在y轴方向上投影值由大到小排序,依照排序依次对矩形文本对象进行y轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在y轴方向的第一有效矩形文本对象;按照所述矩形文本对象的矩形位置数据在y轴方向上投影值由小到大排序,依照排序依次对矩形文本对象进行y轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在y轴方向的第二有效矩形文本对象;按照所述矩形文本对象的矩形位置数据在x轴方向上投影值由小到大排序,依照排序依次对矩形文本对象进行x轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在x轴方向的第三有效矩形文本对象;按照所述矩形文本对象的矩形位置数据在x轴方向上投影值由大到小排序,依照排序依次对矩形文本对象进行x轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在x轴方向的第四有效矩形文本对象。5.根据权利要求4所述的方法,其中,所述依照排序依次对矩形文本对象进行y轴过滤处理进一步包括:判断所述矩形文本对象的文字信息中包含重复文字内容的重复率是否达到预设重复率,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的文字信息中包含的文字内容是否均为数字,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的矩形高度是否小于预设高度,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的矩形宽度是否小于预设宽度,若是,则过滤所述矩形文本对象。6.根据权利要求4所述的方法,其中,所述依照排序依次对矩形文本对象进行x轴过滤处理进一步包括:判断所述矩形文本对象的文字信息中包含重复文字内容的重复率是否达到预设重复率,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的文字信息中包含的文字内容是否均为数字,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的矩形宽度是否小于预设宽度,若是,则过滤所述矩形文本对象。7.根据权利要求4所述的方法,其中,在所述得到该页面组的所述投影页面的有效矩形文本对象之后,所述方法还包括:分别获取奇数页面组和偶数页面组的投影页面的有效边距值y11、y12、x11、x12、y21、y22、x21和x22;其中,y11为奇数页面组的投影页面的第一有效矩形文本对象的上边距在y轴方向上的投影值;y12为奇...

【专利技术属性】
技术研发人员:张恒孙上斌
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1