图纸中的目录提取方法技术

技术编号:39662592 阅读:10 留言:0更新日期:2023-12-11 18:25
本申请涉及一种图纸中的目录提取方法

【技术实现步骤摘要】
图纸中的目录提取方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,尤其涉及一种图纸中的目录提取方法

装置

电子设备和存储介质


技术介绍

[0002]表格是文本的常见内容

工作中常需要将图片中的表格转化为可编辑的文件格式

手动输入是最简单的方法,但这一方法在处理大量表格时效率很低,而且较容易出错

[0003]相关技术中,在识别图纸目录时常用的方法是,使用图像获取设备获取表格图像后,对每个表格图像进行
ocr
识别和直线检测,进而利用线段特征计算提取单元格及内部文本,以进行表格识别的方法

[0004]但是,上述识别方式,不仅识别工作量大,而且过度依赖线段和单元格信息,无法兼容非标准表格和不规范情况


技术实现思路

[0005]本申请提供了一种图纸中的目录提取方法

装置

电子设备和存储介质,用以解决现有技术中,识别工作量大,而且过度依赖线段和单元格信息,无法兼容非标准表格和不规范情况的问题

[0006]第一方面,本申请实施例提供了一种图纸中的目录提取方法,包括:
[0007]确定待识别图纸中的属于图纸目录的目标表格;
[0008]判断所述目标表格中是否存在线段信息;
[0009]若不存在,提取所述目标表格中的第一文本信息;
[0010]对所述第一文本信息进行分类,得到至少一个分类结果;
[0011]基于所述分类结果,对所述第一文本信息进行纵向分组和横向分组,得到分组结果;
[0012]基于所述分组结果确定所述目标表格的表格结构;
[0013]基于所述表格结构和所述第一文本信息对所述目标表格进行提取,得到所述目标表格

[0014]可选的,所述确定待识别图纸中的属于图纸目录的目标表格,包括:
[0015]确定所述待识别图纸中的初始表格;
[0016]提取所述初始表格中的第二文本信息和坐标信息;
[0017]基于所述第二文本信息和坐标信息确定所述初始表格中的目标表格

[0018]可选的,所述对所述第一文本信息进行分类,得到至少一个分类结果,包括:
[0019]将所述第一文本信息输入文本分类模型中,通过所述文本分类模型,输出每个所述第一文本信息所述的分类,得到所述分类结果

[0020]可选的,所述基于所述分类结果,对所述第一文本信息进行纵向分组和横向分组,得到分组结果,包括:
[0021]确定每个所述第一文本信息的第一位置信息;
[0022]根据所述第一位置信息,对所述第一文本信息进行纵向分组和横向分组

[0023]可选的,所述判断所述目标表格中是否存在线段信息之后,还包括:
[0024]若存在所述线段信息,对所述目标目录包括的线段信息进行整合,得到目标线段信息;
[0025]基于所述目标线段信息确定所述图纸目录的表格结构

[0026]可选的,对所述目标目录包括的线段信息进行整合,得到目标线段信息,包括:
[0027]基于所述线段信息判断任意两线段是否相对重合;
[0028]若重合,将重合的所述两线段一端的第一端点合并,以使所述两线段合并,得到所述目标线段信息;和
/
或,
[0029]基于所述线段信息判断任意两线段的第二端点之间的距离是否在预设范围内;
[0030]若是,将所述第二端点合并,得到所述目标线段信息

[0031]可选的,基于所述表格结构和所述第一文本信息对所述目标表格进行提取,得到所述目标表格之后,还包括:
[0032]确定所述第一文本信息中的序号信息;
[0033]若所述序号信息不连续,确定缺失的序号,并在所述目标表格中补充缺失的序号

[0034]第二方面,本申请实施例提供了一种图纸中的目录提取装置,包括:
[0035]获取模块,用于确定待识别图纸中的属于图纸目录的目标表格;
[0036]判断模块,用于判断所述目标表格中是否存在线段信息;
[0037]第一提取模块,用于若不存在,提取所述目标表格中的第一文本信息;
[0038]分类模块,用于对所述第一文本信息进行分类,得到至少一个分类结果;
[0039]分组模块,用于基于所述分类结果,对所述第一文本信息进行纵向分组和横向分组,得到分组结果;
[0040]确定模块,用于基于所述分组结果确定所述目标表格的表格结构;
[0041]第二提取模块,用于基于所述表格结构和所述第一文本信息对所述目标表格进行提取,得到所述目标表格

[0042]第三方面,本申请实施例提供了一种电子设备,包括:处理器

通信接口

存储器和通信总线,其中,处理器

通信接口和存储器通过通信总线完成相互间的通信;
[0043]所述存储器,用于存储计算机程序;
[0044]所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的图纸中的目录提取方法

[0045]第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的图纸中的目录提取方法

[0046]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过确定待识别图纸中的属于图纸目录的目标表格;判断所述目标表格中是否存在线段信息;若不存在,提取所述目标表格中的第一文本信息;对所述第一文本信息进行分类,得到至少一个分类结果;基于所述分类结果,对所述第一文本信息进行纵向分组和横向分组,得到分组结果;基于所述分组结果确定所述目标表格的表格结构;基于所述表格结构和所述第一文本信息对所述目标表格进行提取,得到所述目标表格

如此,通过先确
定待识别图纸中属于图纸目录的目标表格后,在对目标表格进行提取,能够避免对所有表格都提取再确定图纸目录造成的计算量大的问题

另外,通过对目标表格中的第一文本信息进行处理,即可确定目标表格的表格结构,从而利用表格结构和第一文本信息提取得到目标表格,无需依赖线段也能够实现目标表格的提取,能够兼容非标准表格和不规范情况的问题

附图说明
[0047]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理

[0048]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种图纸中的目录提取方法,其特征在于,包括:确定待识别图纸中的属于图纸目录的目标表格;提取所述目标表格中的第一文本信息;判断所述目标表格中是否存在线段信息;若不存在,对所述第一文本信息进行分类,得到至少一个分类结果;基于所述分类结果,对所述第一文本信息进行纵向分组和横向分组,得到分组结果;基于所述分组结果确定所述目标表格的表格结构;基于所述表格结构和所述第一文本信息对所述目标表格进行提取,得到所述目标表格
。2.
根据权利要求1所述的图纸中的目录提取方法,其特征在于,所述确定待识别图纸中的属于图纸目录的目标表格,包括:确定所述待识别图纸中的初始表格;提取所述初始表格中的第二文本信息和坐标信息;基于所述第二文本信息和坐标信息确定所述初始表格中的目标表格
。3.
根据权利要求1所述的图纸中的目录提取方法,其特征在于,所述对所述第一文本信息进行分类,得到至少一个分类结果,包括:将所述第一文本信息输入文本分类模型中,通过所述文本分类模型,输出每个所述第一文本信息所述的分类,得到所述分类结果
。4.
根据权利要求1所述的图纸中的目录提取方法,其特征在于,所述基于所述分类结果,对所述第一文本信息进行纵向分组和横向分组,得到分组结果,包括:确定每个所述第一文本信息的第一位置信息;根据所述第一位置信息,对所述第一文本信息进行纵向分组和横向分组
。5.
根据权利要求1所述的图纸中的目录提取方法,其特征在于,所述判断所述目标表格中是否存在线段信息之后,还包括:若存在所述线段信息,对所述目标目录包括的线段信息进行整合,得到目标线段信息;基于所述目标线段信息确定所述图纸目录的表格结构
。6.
根据权利要求5所述的图纸中的目录提取方法,其特征在于,对所述目标目录包括的线段信息进行整合,得到目标线段信息,包括:基于所述线段信息判断任意...

【专利技术属性】
技术研发人员:王宇涵袁松岭刘绍福
申请(专利权)人:深圳市万翼数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1