System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种文档数据提取系统及其方法。
技术介绍
1、文档处理是人们日常生活工作中的通常会面临的事项,然而为了美观以及便于查看,目前大多数的文档是以不可编辑的形式存在的,例如,图片形式、扫描文件形式等,这就导致文档的提取十分困难,文档信息的电子化难度较大。
2、目前,对不可编辑文档中文档的提取、信息的录入、校对等事项多由人工进行,而这不可避免的会耗费大量的时间精力,并且还存在较大操作风险。基于此,自动化文档数据提取方式应运而生,但是,当下的文档数据提取方法无法适应于结构多样、形式多变的文档,其兼容性较差,无法对各种类型的文档进行提取,效果往往也堪忧。
技术实现思路
1、本申请提供一种文档数据提取系统及其方法,用以解决现有技术中文档数据提取方法兼容性差,无法适应于形式多变的文档,提取效果不佳的缺陷,跳出文档类型的限制,实现各种类型的文档数据提取,保证了提取效果。
2、第一方面,本申请一种文档数据提取系统,包括图像获取单元、文本检测单元、腐蚀膨胀单元、文档数据提取单元和数据管理中台;数据管理中台分别与图像获取单元、文本检测单元、腐蚀膨胀单元和文档数据提取单元连接,对所有单元进行控制管理;
3、图像获取单元用于:获取待提取的文档图像;
4、文本检测单元用于:对文档图像进行文本检测,得到文档图像中的文本区域,以及各文本区域的角点坐标;
5、腐蚀膨胀单元,用于基于各文本区域的角点坐标,生成文档图像的掩码图,并对掩
6、文档数据提取单元用于:基于各文本区域的角点坐标、各文档单元格的角点坐标,以及各文本区域的文本内容,确定文档图像对应的文档数据。
7、第二方面,本申请提供一种文档数据提取方法,包括:
8、获取待提取的文档图像;
9、对文档图像进行文本检测,得到文档图像中的文本区域,以及各文本区域的角点坐标;
10、基于各文本区域的角点坐标,生成文档图像的掩码图,对掩码图进行腐蚀膨胀,得到文档图像中文档单元格的角点坐标;
11、基于各文本区域的角点坐标、各文档单元格的角点坐标,以及各文本区域的文本内容,确定文档图像对应的文档数据。
12、第三方面,本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上述第二方面任一种的文档数据提取方法。
13、第四方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第二方面任一种的文档数据提取方法。
14、第五方面,本申请还提供一种计算机产品,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第二方面任一种的文档数据提取方法。
15、本申请提供的文档数据提取系统及其方法,通过文档图像中文本区域的角点坐标生成掩码图,对掩码图进行腐蚀膨胀,得到各文档单元格的角点坐标,打破了文档类型对于文档数据提取的限制,实现了各类文档的文档单元格提取,在此基础上结合各文本区域的角点坐标,对各文本区域的文本内容进行回填,得到文档图像对应的文档数据,克服了传统方案中文档数据提取方法兼容性差,无法适应于形式多变的文档,提取效果不佳的缺陷,实现了各种类型的文档数据提取,提升了提取准确性和提取效率,并且易于实现和部署、具备极强的实用性和较好的兼容性。
本文档来自技高网...【技术保护点】
1.一种文档数据提取系统,其特征在于,所述文档数据提取系统包括图像获取单元、文本检测单元、腐蚀膨胀单元、文档数据提取单元和数据管理中台;所述数据管理中台分别与所述图像获取单元、所述文本检测单元、所述腐蚀膨胀单元和所述文档数据提取单元连接,对所有单元进行控制管理;
2.一种文档数据提取方法,其特征在于,包括:
3.根据权利要求2所述的文档数据提取方法,其特征在于,所述基于所述各文本区域的角点坐标,生成所述文档图像的掩码图,对所述掩码图进行腐蚀膨胀,得到所述文档图像中文档单元格的角点坐标,包括:
4.根据权利要求2所述的文档数据提取方法,其特征在于,所述基于所述各文本区域的角点坐标、各文档单元格的角点坐标,以及所述各文本区域的文本内容,确定所述文档图像对应的文档数据,包括:
5.根据权利要求4所述的文档数据提取方法,其特征在于,任一文本区域与文档单元格之间的对应关系基于如下步骤确定:
6.根据权利要求2至5中任一项所述的文档数据提取方法,其特征在于,所述获取待提取的文档图像,包括:
7.根据权利要求6所述的文档数
8.根据权利要求2至5中任一项所述的文档数据提取方法,其特征在于,所述确定所述文档图像对应的文档数据,之后还包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求2至8任一项所述的文档数据提取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求2至8任一项所述的文档数据提取方法。
...【技术特征摘要】
1.一种文档数据提取系统,其特征在于,所述文档数据提取系统包括图像获取单元、文本检测单元、腐蚀膨胀单元、文档数据提取单元和数据管理中台;所述数据管理中台分别与所述图像获取单元、所述文本检测单元、所述腐蚀膨胀单元和所述文档数据提取单元连接,对所有单元进行控制管理;
2.一种文档数据提取方法,其特征在于,包括:
3.根据权利要求2所述的文档数据提取方法,其特征在于,所述基于所述各文本区域的角点坐标,生成所述文档图像的掩码图,对所述掩码图进行腐蚀膨胀,得到所述文档图像中文档单元格的角点坐标,包括:
4.根据权利要求2所述的文档数据提取方法,其特征在于,所述基于所述各文本区域的角点坐标、各文档单元格的角点坐标,以及所述各文本区域的文本内容,确定所述文档图像对应的文档数据,包括:
5.根据权利要求4所述的文档数据提取方法,其特征在于,任一文本区域与...
【专利技术属性】
技术研发人员:李哲洙,李洪金,
申请(专利权)人:沈阳哲航信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。