一种自动提取二维图纸中表格数据的方法及系统技术方案

技术编号:36420863 阅读:13 留言:0更新日期:2023-01-20 22:28
本发明专利技术提出了一种自动提取二维图纸中表格数据的方法及系统,属于表格数据提取技术领域,通过对二维图纸中的直线线段和文字实体元素进行自动提取、分类,然后根据构建表格的需要将各直线线段实体进行匹配,得到能够构建得到表格的表格线段集并建立空白的表格,进一步通过空白表格中各单元格的覆盖区域和各文字实体的坐标,确定每个单元格内的文字,并进行绑定,最终得到包含文字数据的表格;实现了对二维图纸中表格数据的自动提取,之后可以通过其他方式将表格数据的内容直接存放在数据管理系统中,减少了设计师需要在数据管理系统中再重新制作表格、填充数据的工作量。填充数据的工作量。填充数据的工作量。

【技术实现步骤摘要】
一种自动提取二维图纸中表格数据的方法及系统


[0001]本专利技术涉及表格数据提取
,特别是涉及一种自动提取二维图纸中表格数据的方法及系统。

技术介绍

[0002]随着工业化的快速发展,在一些工程项目上经常通过电子图纸代替纸质版图纸,而一般图纸设计师会把一些技术参数附录在图纸上,以方便加工时可以直观的看到加工相关参数信息,如尺寸,规格等信息。但随着数字化的推进,图纸上的技术信息不仅仅需要在图纸上呈现,还需要同步输入到一些数据管理系统如ERP,SAP等。同时一些历史的图纸数据也需要人工提取数据并录入数据管理系统中,工作量异常庞大,如果均让设计师将数据手动再录入数据管理系统中,无疑会大大增加设计师的工作量。

技术实现思路

[0003]本专利技术的目的是提供一种自动提取二维图纸中表格数据的方法及系统,实现了对二维图纸中表格数据的自动提取,减少了设计师需要在数据管理系统中再重新制作表格、填充数据的工作量。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种自动提取二维图纸中表格数据的方法,包括:
[0006]提取二维图纸中的直线线段实体和文字实体,得到直线线段集合和文字集合;
[0007]将直线线段集合中的所有直线线段实体按照延展方向进行分组,得到水平线段集合和垂直线段集合;
[0008]将水平线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个水平线段子集;水平延展的直线线段实体的起点为最左侧的点;
[0009]将垂直线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个垂直线段子集;垂直延展的直线线段实体的起点为最上侧的点;
[0010]根据各水平线段子集和各垂直线段子集,确定能够组成表格的若干个直线线段实体,得到表格线段集;
[0011]根据所述表格线段集构建得到空白表格;所述空白表格中包括多个空白单元格;
[0012]根据所述文字集合中各文字实体的坐标和所述空白表格中各空白单元格的覆盖区域,将各文字实体绑定到对应的空白单元格中,得到包含数据的表格。
[0013]可选地,在所述提取二维图纸中的直线线段实体和文字实体之前,所述自动提取二维图纸中表格数据的方法还包括:
[0014]判断获取的实体是否为最小实体,得到最小实体判断结果;所述最小实体为线段实体或文字实体;所述线段实体包括直线线段实体和曲线线段实体;
[0015]若所述最小实体判断结果为是,则无需对所述实体进行进一步处理;
[0016]若所述最小实体判断结果为否,则对所述实体进行爆炸处理,直到将所述实体转化为多个最小实体。
[0017]可选地,在所述将直线线段集合中的所有直线线段实体按照延展方向进行分组,得到水平线段集合和垂直线段集合之后,所述自动提取二维图纸中表格数据的方法还包括:
[0018]在水平线段集合中,针对任一直线线段实体,判断所述直线线段实体的终点坐标与其他直线线段实体的起点坐标的距离是否小于阈值,若是,则将两个直线线段实体衔接为一个直线线段实体;水平延展的直线线段实体的终点为最右侧的点;
[0019]在垂直线段集合中,针对任一直线线段实体,判断所述直线线段实体的终点坐标与其他直线线段实体的起点坐标的距离是否小于阈值,若是,则将两个直线线段实体衔接为一个直线线段实体;垂直延展的直线线段实体的终点为最下侧的点。
[0020]可选地,所述将水平线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个水平线段子集,具体包括:
[0021]将所述水平线段集合中起点y轴坐标相同且长度相同的多个直线线段实体作为一个水平线段子集,得到若干个水平线段子集。
[0022]可选地,所述将垂直线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个垂直线段子集,具体包括:
[0023]将所述垂直线段集合中起点x轴坐标相同且长度相同的多个直线线段实体作为一个垂直线段子集,得到若干个垂直线段子集。
[0024]可选地,所述根据各水平线段子集和各垂直线段子集,获取能够组成表格的若干个直线线段实体,得到表格线段集,具体包括:
[0025]在各垂直线段子集中,确定直线线段实体平均长度值最大的垂直线段子集,为初始表格线段集;
[0026]遍历各水平线段子集,将与所述初始表格线段集内直线线段实体有交叉的直线线段实体添加到所述初始表格线段集内,得到中间表格线段集;
[0027]遍历各垂直线段子集,将与所述中间表格线段集内直线线段实体有交叉的直线线段实体添加到所述中间表格线段集内,得到表格线段集。
[0028]可选地,所述根据各水平线段子集和各垂直线段子集,获取能够组成表格的若干个直线线段实体,得到表格线段集,具体包括:
[0029]在各水平线段子集中,确定直线线段实体平均长度值最大的水平线段子集,为初始表格线段集;
[0030]遍历各垂直线段子集,将与所述初始表格线段集内直线线段实体有交叉的直线线段实体添加到所述初始表格线段集内,得到中间表格线段集;
[0031]遍历各水平线段子集,将与所述中间表格线段集内直线线段实体有交叉的直线线段实体添加到所述中间表格线段集内,得到表格线段集。
[0032]可选地,所述根据所述文字集合中各文字实体的坐标和所述空白表格中各空白单元格的区域大小,将各文字实体绑定到对应的空白单元格中,得到包含数据的表格,具体包括:
[0033]针对任一空白单元格,根据所述空白单元格的对角线两点坐标,确定所述空白单元格的覆盖区域;
[0034]根据各文字实体的坐标和所述空白单元格的覆盖区域,确定位于所述空白单元格中的文字实体。
[0035]对应于前述的自动提取二维图纸中表格数据的方法,本专利技术还提供了一种自动提取二维图纸中表格数据的系统,包括:
[0036]实体提取模块,用于提取二维图纸中的直线线段实体和文字实体,得到直线线段集合和文字集合;
[0037]线段分组模块,用于将直线线段集合中的所有直线线段实体按照延展方向进行分组,得到水平线段集合和垂直线段集合;将水平线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个水平线段子集;水平延展的直线线段实体的起点为最左侧的点;将垂直线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个垂直线段子集;垂直延展的直线线段实体的起点为最上侧的点;
[0038]表格线段集确定模块,用于根据各水平线段子集和各垂直线段子集,确定能够组成表格的若干个直线线段实体,得到表格线段集;
[0039]空白表格构建模块,用于根据所述表格线段集构建得到空白表格;所述空白表格中包括多个空白单元格;
[0040]文字绑定模块,用于根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动提取二维图纸中表格数据的方法,其特征在于,所述自动提取二维图纸中表格数据的方法包括:提取二维图纸中的直线线段实体和文字实体,得到直线线段集合和文字集合;将直线线段集合中的所有直线线段实体按照延展方向进行分组,得到水平线段集合和垂直线段集合;将水平线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个水平线段子集;水平延展的直线线段实体的起点为最左侧的点;将垂直线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个垂直线段子集;垂直延展的直线线段实体的起点为最上侧的点;根据各水平线段子集和各垂直线段子集,确定能够组成表格的若干个直线线段实体,得到表格线段集;根据所述表格线段集构建得到空白表格;所述空白表格中包括多个空白单元格;根据所述文字集合中各文字实体的坐标和所述空白表格中各空白单元格的覆盖区域,将各文字实体绑定到对应的空白单元格中,得到包含数据的表格。2.根据权利要求1所述的自动提取二维图纸中表格数据的方法,其特征在于,在所述提取二维图纸中的直线线段实体和文字实体之前,所述自动提取二维图纸中表格数据的方法还包括:判断获取的实体是否为最小实体,得到最小实体判断结果;所述最小实体为线段实体或文字实体;所述线段实体包括直线线段实体和曲线线段实体;若所述最小实体判断结果为是,则无需对所述实体进行进一步处理;若所述最小实体判断结果为否,则对所述实体进行爆炸处理,直到将所述实体转化为多个最小实体。3.根据权利要求1所述的自动提取二维图纸中表格数据的方法,其特征在于,在所述将直线线段集合中的所有直线线段实体按照延展方向进行分组,得到水平线段集合和垂直线段集合之后,所述自动提取二维图纸中表格数据的方法还包括:在水平线段集合中,针对任一直线线段实体,判断所述直线线段实体的终点坐标与其他直线线段实体的起点坐标的距离是否小于阈值,若是,则将两个直线线段实体衔接为一个直线线段实体;水平延展的直线线段实体的终点为最右侧的点;在垂直线段集合中,针对任一直线线段实体,判断所述直线线段实体的终点坐标与其他直线线段实体的起点坐标的距离是否小于阈值,若是,则将两个直线线段实体衔接为一个直线线段实体;垂直延展的直线线段实体的终点为最下侧的点。4.根据权利要求1所述的自动提取二维图纸中表格数据的方法,其特征在于,所述将水平线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个水平线段子集,具体包括:将所述水平线段集合中起点y轴坐标相同且长度相同的多个直线线段实体作为一个水平线段子集,得到若干个水平线段子集。5.根据权利要求1所述的自动提取二维图纸中表格数据的方法,其特征在于,所述将垂
直线段集合中的所有直线线段实体按照直线线段实体的起点坐标和直线线段实体的长度进行分组,得到若干个垂直线段子集,具体包括:将所述垂直线段集合中起点x轴坐标相同且长度相同的多个直线线段实体作为一个垂直线段子集,得到若干个垂直线段子集。6.根据权利要求1所述的自动提取二维图纸中表格数据的方法,其特征在于,所述根据各水平线段子集和各垂直线段子集,获取能够组成表格的若干个直线线段实体,得到表...

【专利技术属性】
技术研发人员:伍林彭维
申请(专利权)人:杭州新迪数字工程系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1