The invention discloses a text type identification method, electronic equipment and computer storage medium, the method comprises: selecting preset pages from the text page, the page is divided into odd groups and even page group; each page of text recognition in units of the rectangle corresponding to each object; page group, odd page groups and even page group were treated on the page: the page completely overlapped groups, perpendicular to the direction of the projection direction page were projected on the web page group, will in the projection direction with intersecting rectangle text object region merging based on rectangle position data processing; the size of rectangular and rectangular object text data and / or rectangular text object text information, the rectangular text object is filtered, the page group Effective rectangular page text object projection, determine the page type group. The method provided by the invention has high recognition efficiency.
【技术实现步骤摘要】
文本版心识别方法、电子设备及计算机存储介质
本专利技术涉及软件领域,具体涉及一种文本版心识别方法、电子设备及计算机存储介质。
技术介绍
随着网络和移动终端设备的发展,电子书与传统的纸质书相比,从阅读方式、携带等各方面而言,都更加便利。因此,越来越多的用户选择阅读电子书。电子书的文本有时会比较错乱,需要对其文本进行再排版等操作。在执行这些操作时,首先需要获取文本的版心。版心即文本每个页面中主要内容所在的区域,位于每个页面版面正中的位置,包括了页面中正文的部分。现有技术在获取文本的版心时,一般采用如下方法:通过Photoshop等图像处理工具对版心位置进行定位,但这种方法需要人工操作,其处理速度慢且获取的版心准确度较低;还可以通过预设的模块对整个版心进行识别,这种方法虽然较前一种方法速度稍快,但对整个版心识别的准确度较低,有时还需要人工再进行调整。因此,需要一种效率高且准确度高的文本版心识别方法。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本版心识别方法、电子设备及计算机存储介质。根据本专利技术的一个方面,提供了一种文本版心识别方法,其包括:从文本中择取预设页数的页面,将预设页数的页面按照页码分为奇数页面组和偶数页面组;分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合 ...
【技术保护点】
一种文本版心识别方法,其包括:从文本中择取预设页数的页面,将所述预设页数的页面按照页码分为奇数页面组和偶数页面组;分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含所述合并处理后的矩形文本对象的该页面组的投影页面;根据该页面组的所述投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对所述矩形文本对象进行过滤处理,得到该页面组的所述投影页面的有效矩形文本对象;根据该页面组的所述投影页面的有效矩形文本对象,确定该页面组的版心。
【技术特征摘要】
1.一种文本版心识别方法,其包括:从文本中择取预设页数的页面,将所述预设页数的页面按照页码分为奇数页面组和偶数页面组;分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含所述合并处理后的矩形文本对象的该页面组的投影页面;根据该页面组的所述投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对所述矩形文本对象进行过滤处理,得到该页面组的所述投影页面的有效矩形文本对象;根据该页面组的所述投影页面的有效矩形文本对象,确定该页面组的版心。2.根据权利要求1所述的方法,其中,在所述从文本中择取预设页数的页面之后,所述将预设页数的页面按照页码分为奇数页面组和偶数页面组之前,所述方法进一步包括:根据各页面中文字的字体和/或字号判断页面是否为包含正文的页面,若否,则去除该页面。3.根据权利要求1所述的方法,其中,所述对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含所述合并处理后合的矩形文本对象的该页面组的投影页面进一步包括:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象按照包括这些矩形文本对象的最小范围进行合并处理,得到包含所述合并处理后合的矩形文本对象的该页面组的投影页面。4.根据权利要求1所述的方法,其中,所述根据该页面组的所述投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对所述矩形文本对象进行过滤处理,得到该页面组的所述投影页面的有效矩形文本对象进一步包括:以该页面组的所述投影页面的左下角为原点,设置页面横向为x轴,页面纵向为y轴;按照所述矩形文本对象的矩形位置数据在y轴方向上投影值由大到小排序,依照排序依次对矩形文本对象进行y轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在y轴方向的第一有效矩形文本对象;按照所述矩形文本对象的矩形位置数据在y轴方向上投影值由小到大排序,依照排序依次对矩形文本对象进行y轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在y轴方向的第二有效矩形文本对象;按照所述矩形文本对象的矩形位置数据在x轴方向上投影值由小到大排序,依照排序依次对矩形文本对象进行x轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在x轴方向的第三有效矩形文本对象;按照所述矩形文本对象的矩形位置数据在x轴方向上投影值由大到小排序,依照排序依次对矩形文本对象进行x轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在x轴方向的第四有效矩形文本对象。5.根据权利要求4所述的方法,其中,所述依照排序依次对矩形文本对象进行y轴过滤处理进一步包括:判断所述矩形文本对象的文字信息中包含重复文字内容的重复率是否达到预设重复率,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的文字信息中包含的文字内容是否均为数字,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的矩形高度是否小于预设高度,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的矩形宽度是否小于预设宽度,若是,则过滤所述矩形文本对象。6.根据权利要求4所述的方法,其中,所述依照排序依次对矩形文本对象进行x轴过滤处理进一步包括:判断所述矩形文本对象的文字信息中包含重复文字内容的重复率是否达到预设重复率,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的文字信息中包含的文字内容是否均为数字,若是,则过滤所述矩形文本对象;和/或,判断所述矩形文本对象的矩形宽度是否小于预设宽度,若是,则过滤所述矩形文本对象。7.根据权利要求4所述的方法,其中,在所述得到该页面组的所述投影页面的有效矩形文本对象之后,所述方法还包括:分别获取奇数页面组和偶数页面组的投影页面的有效边距值y11、y12、x11、x12、y21、y22、x21和x22;其中,y11为奇数页面组的投影页面的第一有效矩形文本对象的上边距在y轴方向上的投影值;y12为奇...
【专利技术属性】
技术研发人员:张恒,孙上斌,
申请(专利权)人:掌阅科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。