System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据采集,尤其是一种层次数据采集方法、装置、设备及存储介质。
技术介绍
1、层次数据是指具有一定层次结构或分支结构的数据,通常表示为树状图形式,例如组织机构、学科专业、图书分类、职务分类和民族分类。目前,非入侵式的层次数据采集方法,通常是将层次数据显示在数据采集界面,供用户采集层次数据的层次结构和数据内容。
2、然而,层次数据普遍具有复杂的层次结构和庞大的数据内容,非入侵式的层次数据采集方法所需的用户操作比较繁琐,容易引入人为错误,无法准确地还原层次数据的层次结构和数据内容。
技术实现思路
1、本申请的目的是提供一种层次数据采集方法、装置、设备及存储介质,旨在实现对层次数据的非入侵式采集,提高采集效率和采集精度。
2、本申请实施例提供一种层次数据采集方法,包括:
3、对待采集的层次数据进行图像采集处理,得到原始结构图;
4、在层次结构维度和文本结构维度,对所述原始结构图进行图像信息提取处理,得到层次结构图和文本结构图;
5、根据所述层次结构图中的层次结构的形状、颜色和坐标,对所述层次结构进行结构特征提取处理,得到层次结构提取结果;
6、根据所述文本结构图中的文本结构的坐标,对所述文本结构进行文本特征提取处理,得到文本结构提取结果;
7、对所述层次结构提取结果和所述文本结构提取结果进行位置匹配处理,以重构所述层次结构和所述文本结构的层次匹配关系。
8、在一些实施例中,所述在层次结
9、对所述原始结构图进行颜色识别处理,得到第一颜色识别结果;
10、根据所述第一颜色识别结果,从所述原始结构图中提取包含层次结构的图层,得到所述层次结构图,从所述原始结构图中提取包含文本内容的图层,得到所述文本结构图。
11、在一些实施例中,所述根据所述层次结构图中的层次结构的形状、颜色和坐标,对所述层次结构进行结构特征提取处理,得到层次结构提取结果,包括:
12、确定所述层次结构的根节点以及所述根节点的坐标;
13、以所述根节点为起点,根据所述根节点之后的像素点的像素颜色和像素坐标,识别出所述根节点引出的连接线;
14、以所述所述根节点引出的连接线为起点进行线体追踪和像素点类型识别,以识别出所述层次结构的各个层级的子节点以及所述子节点的坐标;
15、输出所述根节点、所述子节点、所述根节点的坐标和所述子节点的坐标,得到所述层次结构提取结果。
16、在一些实施例中,所述确定所述层次结构的根节点以及所述根节点的坐标,包括:
17、沿根节点识别方向,对所述层次结构图的第一组未识别的像素点进行颜色识别处理,得到第二颜色识别结果;所述根节点识别方向为自所述层次结构图最靠近所述根节点的边缘逼近所述根节点的方向;
18、根据所述第二颜色识别结果,判断当前识别的像素点的像素颜色是否在预设的根节点颜色区间内;
19、若否,确定当前识别的像素点不属于根节点;返回沿根节点识别方向,对所述层次结构图的第一组未识别的像素点进行颜色识别处理,得到第二颜色识别结果的步骤;
20、若是,确定当前识别的像素点属于根节点,根据所述根节点的像素点确定所述根节点的坐标。
21、在一些实施例中,所述以所述所述根节点引出的连接线为起点进行线体追踪和像素点类型识别,以识别出所述层次结构的各个层级的子节点以及所述子节点的坐标,包括:
22、沿当前层级的连接线的长度方向,对所述当前层级的连接线的第一组待识别像素点进行颜色识别处理,得到第三颜色识别结果;
23、根据所述第三颜色识别结果,判断当前的所述待识别像素点是否为分支;
24、若不是分支,确定为未识别到下一层级的子节点;返回沿当前层级的连接线的长度方向,对所述当前层级的连接线的第一组待识别像素点进行颜色识别处理,得到第三颜色识别结果的步骤;
25、若是分支,对所述当前层级的连接线在当前分支方向上的像素点进行颜色识别处理,以识别出所述下一层级的子节点以及所述下一层级的子节点的坐标;
26、判断所述下一层级的子节点是否具有更低层级的子节点;
27、若具有,以所述下一层级的子节点引出的连接线作为所述当前层级的连接线;返回沿当前层级的连接线的长度方向,对所述当前层级的连接线的第一组待识别像素点进行颜色识别处理,得到第三颜色识别结果的步骤;
28、若不具有,以所述下一层级的子节点的上一层级的连接线作为所述当前层级的连接线;返回沿当前层级的连接线的长度方向,对所述当前层级的连接线的第一组待识别像素点进行颜色识别处理,得到第三颜色识别结果的步骤。
29、在一些实施例中,所述根据所述文本结构图中的文本结构的坐标,对所述文本结构进行文本特征提取处理,得到文本结构提取结果,包括:
30、对所述文本结构图进行图像分割处理,得到多组文本结构子图;
31、对所述文本结构子图进行文本识别处理,得到节点文本;
32、根据所述节点文本在所述文本结构子图中的坐标以及所述文本结构子图在所述文本结构图中的位置,确定所述节点文本的坐标;
33、输出所述节点文本和所述节点文本的坐标,得到所述文本结构提取结果。
34、在一些实施例中,所述对所述层次结构提取结果和所述文本结构提取结果进行位置匹配处理,以重构所述层次结构和所述文本结构的层次匹配关系,包括:
35、将所述层次结构提取结果和所述文本结构提取结果导入至预设采集模板,使所述层次结构中的节点和所述文本结构的文本内容根据坐标关联,得到层次数据采集结果,将所述层次数据采集结果存储至数据库。
36、本申请实施例还提供一种层次数据采集装置,包括:
37、第一模块,用于对待采集的层次数据进行图像采集处理,得到原始结构图;
38、第二模块,用于在层次结构维度和文本结构维度,对所述原始结构图进行图像信息提取处理,得到层次结构图和文本结构图;
39、第三模块,用于根据所述层次结构图中的层次结构的形状、颜色和坐标,对所述层次结构进行结构特征提取处理,得到层次结构提取结果;
40、第四模块,用于根据所述文本结构图中的文本结构的坐标,对所述文本结构进行文本特征提取处理,得到文本结构提取结果;
41、第五模块,用于对所述层次结构提取结果和所述文本结构提取结果进行位置匹配处理,以重构所述层次结构和所述文本结构的层次匹配关系。
42、本申请实施例还提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的层次数据采集方法。
43、本申请实施例还提供一种计算机可读存储介质,所述计算机本文档来自技高网...
【技术保护点】
1.一种层次数据采集方法,其特征在于,包括:
2.根据权利要求1所述的层次数据采集方法,其特征在于,所述在层次结构维度和文本结构维度,对所述原始结构图进行图像信息提取处理,得到层次结构图和文本结构图,包括:
3.根据权利要求1所述的层次数据采集方法,其特征在于,所述根据所述层次结构图中的层次结构的形状、颜色和坐标,对所述层次结构进行结构特征提取处理,得到层次结构提取结果,包括:
4.根据权利要求3所述的层次数据采集方法,其特征在于,所述确定所述层次结构的根节点以及所述根节点的坐标,包括:
5.根据权利要求3所述的层次数据采集方法,其特征在于,所述以所述所述根节点引出的连接线为起点进行线体追踪和像素点类型识别,以识别出所述层次结构的各个层级的子节点以及所述子节点的坐标,包括:
6.根据权利要求1所述的层次数据采集方法,其特征在于,所述根据所述文本结构图中的文本结构的坐标,对所述文本结构进行文本特征提取处理,得到文本结构提取结果,包括:
7.根据权利要求1所述的层次数据采集方法,其特征在于,所述对所述层次结构提取
8.一种层次数据采集装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的层次数据采集方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的层次数据采集方法。
...【技术特征摘要】
1.一种层次数据采集方法,其特征在于,包括:
2.根据权利要求1所述的层次数据采集方法,其特征在于,所述在层次结构维度和文本结构维度,对所述原始结构图进行图像信息提取处理,得到层次结构图和文本结构图,包括:
3.根据权利要求1所述的层次数据采集方法,其特征在于,所述根据所述层次结构图中的层次结构的形状、颜色和坐标,对所述层次结构进行结构特征提取处理,得到层次结构提取结果,包括:
4.根据权利要求3所述的层次数据采集方法,其特征在于,所述确定所述层次结构的根节点以及所述根节点的坐标,包括:
5.根据权利要求3所述的层次数据采集方法,其特征在于,所述以所述所述根节点引出的连接线为起点进行线体追踪和像素点类型识别,以识别出所述层次结构的各个层级的子节点以及所述子节点的坐标,包括:
6.根据权...
【专利技术属性】
技术研发人员:赵景学,张涛,张松甫,严晗,陈一鑫,丁鹏飞,张邦旭,张超甫,张帅,
申请(专利权)人:中铁建工集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。