文档图像中的无边框表格解析技术制造技术

技术编号：22467618 阅读：42 留言：0更新日期：2019-11-06 11:26

本发明专利技术涉及一种文档图像中的无边框表格解析方法，所述方法包括步骤：识别出无边框表格区域部分；将所述位置范围内的文本进行合并；根据无边框表格区域和区域内文本相关数据，将文本块进行分行，并获取每一行的文本块数量，将区域中含有最多文本块的行提取出来，并根据顺序切分为列，并根据每列的文本块位置信息获取列的取值范围；计算获取当前列文本块横轴位置数值的最大值、最小值、方差、变动范围、25到75百分位的变动范围。根据上述计算得到的数据判断列中文本的对齐类型；对第一列的左边界值设为0，依次将其右边的所有列的横轴位置坐标相对第一列进行修正，同时进行横向和纵向单元格合并的情况判定和处理。

Analysis technology of borderless table in document image

全部详细技术资料下载

【技术实现步骤摘要】
文档图像中的无边框表格解析技术
本专利技术涉及数据处理
，特别涉及一种文档图像中无边框表格解析方法
技术介绍
随着电脑的不断普及，无纸化办公得到越来越多的应用，各种各样的文档也大量的出现在用户的面前。以可移植文档格式(PortableDocumentFormat，PDF)、office文档为例，PDF文件格式以其卓越的特性成为在Internet上进行电子文档发行和格式化信息传播的理想文件格式，在将PDF格式的文档转换office格式的文档时，面临较多的困难。譬如PDF格式文档中的表象为表格的对象，在其内部是由很多彼此无任何逻辑关系的线条或多边形组成的。在将PDF转换为其他格式的文档，特别转换为office类的文档时，由于PDF没有表格元素，很难跟office类文档兼容，使转换出的文档的排版、及编辑效果都很差。在将诸如PDF格式文档等原文档中的表格转换为其他文档格式的表格时，如何提高转换出的文档的排版及编辑效果，是文档应用领域研究的方向之一。
技术实现思路
一种文档图像中的无边框表格解析方法，包括以下步骤利用预先得到的页面中元素位置信息，检测出无边框表格的潜在区域；利用预先得到的页面中文本及其位置信息，对文本进行行内，行之间的合并与标记；检测标记结果，针对标记类型，将相邻的文本行合并为文本行块；针对所有合并后的文本行块，尝试对其合并得到无边框表格在页面中的高度值范围；附图说明为了更清楚地说明本专利技术实施例的技术方案，下面将对实施例中所需要使用的附图做简单的介绍，应当理解，以下附图仅展示出了本专利技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普...

【技术保护点】
1.一种文档图像中的无边框表格解析方法，其特征在于，包括以下步骤：(1)利用预先得到的页面中元素位置信息，检测出无边框表格的潜在区域；(2)利用预先得到的页面中文本及其位置信息，对文本进行行内，行之间的合并与标记；(3)检测标记结果，针对标记类型，将相邻的文本行合并为文本行块；(4)针对所有合并后的文本行块，尝试对其合并得到无边框表格在页面中的高度值范围；(5)确定无边框表格区域；(6)利用上述的无边框表格区域数据、文本行数据、文本块数据，获取无边框表格区域内文本行所能包含的文本块的最大数量；(7)根据上述数据将无边框表格区域切分为列，并通过列内的文本块位置信息计算得到每列的横轴位置范围、列宽、列内文本横轴位置数据方差、列内文本横轴位置数据25到75百分位差值；(8)利用上述计算结果，判断每列文本的对齐类型，同时获取相邻两列间空白区域的横向中线值；(9)将无边框表格区域内第一列的横向左边界位置值设为0，并将其余每列相对前一列的横轴位置数据根绝两列的文本对齐类型进行位置修正，根据每列及其右相邻列的横向位置数据、上述获取的相邻列间空白区域中线值和每列及其右相邻列的对齐类型，计算待定跨列区域...

【技术特征摘要】
1.一种文档图像中的无边框表格解析方法，其特征在于，包括以下步骤：(1)利用预先得到的页面中元素位置信息，检测出无边框表格的潜在区域；(2)利用预先得到的页面中文本及其位置信息，对文本进行行内，行之间的合并与标记；(3)检测标记结果，针对标记类型，将相邻的文本行合并为文本行块；(4)针对所有合并后的文本行块，尝试对其合并得到无边框表格在页面中的高度值范围；(5)确定无边框表格区域；(6)利用上述的无边框表格区域数据、文本行数据、文本块数据，获取无边框表格区域内文本行所能包含的文本块的最大数量；(7)根据上述数据将无边框表格区域切分为列，并通过列内的文本块位置信息计算得到每列的横轴位置范围、列宽、列内文本横轴位置数据方差、列内文本横轴位置数据25到75百分位差值；(8)利用上述计算结果，判断每列文本的对齐类型，同时获取相邻两列间空白区域的横向中线值；(9)将无边框表格区域内第一列的横向左边界位置值设为0，并将其余每列相对前一列的横轴位置数据根绝两列的文本对齐类型进行位置修正，根据每列及其右相邻列的横向位置数据、上述获取的相邻列间空白区域中线值和每列及其右相邻列的对齐类型，计算待定跨列区域值，同时与同行的文本块位置数据进行比对，判断是否为横向合并单元格；(10)针对每一行文本，根据行内所有的文本块位置数据对文本行的纵向位置数据进行统一，同时进行纵向合并单元格的判断与处理。2.根据权利要求1所述的方法，其特征在于，利用预先得到的页面中文本及其位置信息，对文本进行行内，行之间的合并与标记的步骤包括：(1)针对页面中的每一行(文本高度值差值小于一定值)，将每个文本元素合并为文本块；(2)检测合并后相邻文本行其所包含的文本块数量并进行标记。3.根据权利要求2所述的方法，其特征在于，针对页面中的每一行(文本高度值取整后相等)，将每个文本元素合并为文本块的步骤包括：针对同一高度值的每个文本元素，若其本身与相邻的文本元素在x轴上的距离小于一定值，则将其合并为一个文本块，同一行文本因无边框表格的存在，可能出现多个文本块。4.根据权利要求2所述的方法，其特征在于，检测合并后相邻文本行其所包含的文本块数量并进行标记的步骤包括：针...

【专利技术属性】
技术研发人员：徐茂龙，杨鸿健，程晨，
申请(专利权)人：南京智录信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人