一种基于人工智能技术的电子单证的数据处理系统技术方案

技术编号:26971702 阅读:21 留言:0更新日期:2021-01-06 00:02
本发明专利技术涉及数据处理领域,公开了一种基于人工智能技术的电子单证的数据处理系统,其技术方案要点是包括输入端、选取端、预处理端、文字集成端和后处理端,输入端配置有输入单元,输入单元输入电子单证数据并生成动态数据库,选取端配置有常用数据库,常用数据库内存储有常用数据,常用数据包括位置数据和特征数据,预处理单元根据特征数据从数据集基础库调取与特征数据对应的图像,并根据图像确定特征数据在电子单证数据中的位置,可以准确的定位电子单证的版面尺寸,以此来切割版面,减少了版面切割的误差,进而提高字符切割后字符的完整性,更容易被OCR识别模型所识别,并提高识别准确度。

【技术实现步骤摘要】
一种基于人工智能技术的电子单证的数据处理系统
本专利技术涉及数据处理领域,更具体的说是涉及一种基于人工智能技术的电子单证的数据处理系统。
技术介绍
电子装箱单是根据国家交通部规定格式,结合本港业务运作情况制定的出口装箱单电子单证,出口装箱单电子单证上存在有字符不变的特征字符,若干个特征字符形成特征数据;为对电子单证上的数据进行更加有效的存储和分析,需要提取电子单证上的数据,一般在对电子单证上的数据进行提取的过程中,电子单证数据以PDF或图片形式输入,会有一定的倾斜,需要对电子单证数据进行角度矫正。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于提供一种基于人工智能技术的电子单证的数据处理系统,用于对电子单证数据进行角度矫正。为实现上述目的,本专利技术提供了如下技术方案:一种基于人工智能技术的电子单证的数据处理系统,包括输入端、选取端、预处理端、文字集成端和后处理端,所述输入端配置有输入单元,所述输入单元输入电子单证数据并生成动态数据库;所述选取端配置有常用数据库,所述常用数据库内存储有常用数据,所述常用数据包括位置数据和特征数据,所述位置数据表征了特征字符在标准电子单证上的位置;所述预处理端配置有版面数据库和预处理单元,所述版面数据库内存储有版面数据,所述版面数据表征了标准电子单证的版面尺寸;所述预处理单元从所述常用数据库调取所述常用数据,并从所述动态数据库调取电子单证数据;所述文字集成端配置有集成单元,所述集成单元根据字符生成对应的图像,并根据图像为每个字符建立对应的图像映射关系表,根据图像映射关系表建立数据集基础库;所述预处理单元根据所述特征数据从所述数据集基础库调取与所述特征数据对应的图像,并根据图像确定所述特征数据在所述电子单证数据中的位置,根据所述位置数据对所述电子单证数据中的每一个字符进行切割并存储于识别数据库中;所述后处理端配置有矫正单元和识别单元,矫正单元包括检查策略和矫正策略,所述识别单元从所述识别数据库中调取字符,并通过OCR识别模型对字符进行识别,得到字符识别结果,所述检查策略用以检查所述字符识别结果中字符的组合逻辑,所述矫正单元用以矫正所述字符识别结果中字符的组合逻辑。在本专利技术中,优选的,所述预处理单元包括角度矫正策略,所述角度矫正策略根据确定的所述特征数据在所述电子单证数据中的位置,通过预设的角度矫正算法得到所述特征数据在水平位置上的角度偏差,并根据角度偏差计算得出所述电子单证数据中版面所处的位置,对所述电子单证数据中版面水平的角度进行调整。在本专利技术中,优选的,所述预处理单元还包括分析策略,所述分析策略用以检测所述电子单证数据中的页眉和页脚信息,根据页眉和页脚信息中字符的朝向来判断所述电子单证数据中的文本朝向,所述页眉和页脚信息包括页眉区域的长宽和页脚区域的长宽,所述分析策略包括分析算法,所述分析算法通过所述页眉区域的长宽和所述页脚区域的长宽得到所述电子单证数据中版面的长宽,获得所述电子单证数据版面位置并选取所述电子单证数据版面。在本专利技术中,优选的,所述分析算法根据页眉和页脚信息中字符的朝向得出所述电子单证数据版面的偏向角度,所述分析策略根据所述偏向角度对所述电子单证数据中版面的水平角度进行调整。在本专利技术中,优选的,所述预处理单元根据确定的所述特征数据在所述电子单证数据中的位置和所述位置数据得到所述电子单证数据中各个版块的起始位置和结束位置,根据预设的位置算法计算得出所述电子单证数据中各个版块的长宽尺寸,并根据所述电子单证数据中各个版块的长宽尺寸对各个版块进行切割并生成版块数据存储于版块数据库中。在本专利技术中,优选的,所述预处理单元根据版块的起始位置和结束位置,采用图像水平投影方式,得到各个版块内每一行字符的上界限和下界限,完成每行字符的切割并生成行数据存储与行数据库中。在本专利技术中,优选的,所述预处理单元采用垂直投影方式,得到每行字符中单个字符的边界,并进行单个字符的切割。在本专利技术中,优选的,还包括搜寻端,所述搜寻端配置有搜寻单元和调整单元,所述搜寻单元从所述常用数据库中调取特征数据,并从所述版块数据库中调取版块数据,所述预处理单元对所述特征数据中的每个字符进行分割,并从所述数据集基础库调取与字符对应的图像,生成分解图像信息存储于搜寻数据库中,所述搜寻单元从所述搜寻数据库中调取所述分解图像信息,并确定各个所述分解图像信息在所述版块数据中的位置,所述调整单元根据各个所述分解图像信息在所述版块数据中的位置,对所述版块数据中的版块水平角度进行调整。在本专利技术中,优选的,所述搜寻单元从所述行数据库中调取行数据,所述调整单元根据各个所述分解图像信息在所述行数据中的位置,对所述行数据的水平角度进行调整。在本专利技术中,优选的,所述矫正单元根据所述分解图像信息从所述识别数据库中检索出与所述分解图像信息相对应的字符,所述检查策略省略对该字符的检查。本专利技术的有益效果:本专利技术中预处理单元根据特征数据从数据集基础库调取与特征数据对应的图像,并根据图像确定特征数据在电子单证数据中的位置,可以准确的定位电子单证的版面尺寸,以此来切割版面,减少了版面切割的误差,进而提高字符切割后字符的完整性,更容易被OCR识别模型所识别,并提高识别准确度。附图说明图1是本专利技术的结构框图。附图标记:1、输入端;2、选取端;3、预处理端;4、文字集成端;5、后处理端。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,当组件被称为“固定于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。请同时参见图1,本实施例的一种基于人工智能技术的电子单证的数据处理系统,包括输入端1、选取端2、预处理端3、文字集成端4和后处理端5,输入端1配置有输入单元,输入单元输入电子单证数据并生成动态数据库;选取端2配置有常用数据库,常用数据库内存储有常用数据,常用数据包括位置数据和特征数据,位置数据表征了特征字符在标准电子单证上的位置;以装箱单为例,特征数据可以为装箱单字符本文档来自技高网
...

【技术保护点】
1.一种基于人工智能技术的电子单证的数据处理系统,包括输入端、选取端、预处理端、文字集成端和后处理端,其特征在于:/n所述输入端配置有输入单元,所述输入单元输入电子单证数据并生成动态数据库;/n所述选取端配置有常用数据库,所述常用数据库内存储有常用数据,所述常用数据包括位置数据和特征数据,所述位置数据表征了特征字符在标准电子单证上的位置;/n所述预处理端配置有版面数据库和预处理单元,所述版面数据库内存储有版面数据,所述版面数据表征了标准电子单证的版面尺寸;所述预处理单元从所述常用数据库调取所述常用数据,并从所述动态数据库调取电子单证数据;/n所述文字集成端配置有集成单元,所述集成单元根据字符生成对应的图像,并根据图像为每个字符建立对应的图像映射关系表,根据图像映射关系表建立数据集基础库;/n所述预处理单元根据所述特征数据从所述数据集基础库调取与所述特征数据对应的图像,并根据图像确定所述特征数据在所述电子单证数据中的位置,根据所述位置数据对所述电子单证数据中的每一个字符进行切割并存储于识别数据库中;/n所述后处理端配置有矫正单元和识别单元,矫正单元包括检查策略和矫正策略,所述识别单元从所述识别数据库中调取字符,并通过OCR识别模型对字符进行识别,得到字符识别结果,所述检查策略用以检查所述字符识别结果中字符的组合逻辑,所述矫正单元用以矫正所述字符识别结果中字符的组合逻辑。/n...

【技术特征摘要】
1.一种基于人工智能技术的电子单证的数据处理系统,包括输入端、选取端、预处理端、文字集成端和后处理端,其特征在于:
所述输入端配置有输入单元,所述输入单元输入电子单证数据并生成动态数据库;
所述选取端配置有常用数据库,所述常用数据库内存储有常用数据,所述常用数据包括位置数据和特征数据,所述位置数据表征了特征字符在标准电子单证上的位置;
所述预处理端配置有版面数据库和预处理单元,所述版面数据库内存储有版面数据,所述版面数据表征了标准电子单证的版面尺寸;所述预处理单元从所述常用数据库调取所述常用数据,并从所述动态数据库调取电子单证数据;
所述文字集成端配置有集成单元,所述集成单元根据字符生成对应的图像,并根据图像为每个字符建立对应的图像映射关系表,根据图像映射关系表建立数据集基础库;
所述预处理单元根据所述特征数据从所述数据集基础库调取与所述特征数据对应的图像,并根据图像确定所述特征数据在所述电子单证数据中的位置,根据所述位置数据对所述电子单证数据中的每一个字符进行切割并存储于识别数据库中;
所述后处理端配置有矫正单元和识别单元,矫正单元包括检查策略和矫正策略,所述识别单元从所述识别数据库中调取字符,并通过OCR识别模型对字符进行识别,得到字符识别结果,所述检查策略用以检查所述字符识别结果中字符的组合逻辑,所述矫正单元用以矫正所述字符识别结果中字符的组合逻辑。


2.根据权利要求1所述的一种基于人工智能技术的电子单证的数据处理系统,其特征在于:所述预处理单元包括角度矫正策略,所述角度矫正策略根据确定的所述特征数据在所述电子单证数据中的位置,通过预设的角度矫正算法得到所述特征数据在水平位置上的角度偏差,并根据角度偏差计算得出所述电子单证数据中版面所处的位置,对所述电子单证数据中版面水平的角度进行调整。


3.根据权利要求2所述的一种基于人工智能技术的电子单证的数据处理系统,其特征在于:所述预处理单元还包括分析策略,所述分析策略用以检测所述电子单证数据中的页眉和页脚信息,根据页眉和页脚信息中字符的朝向来判断所述电子单证数据中的文本朝向,所述页眉和页脚信息包括页眉区域的长宽和页脚区域的长宽,所述分析策略包括分析算法,所述分析算法通过所述页眉区域的长宽和所述页脚区域的长宽得到所述电子单证数据中版面的长宽,获得所述电子单证数据版面位置并选取所述电子单证数据版面。


4.根据权...

【专利技术属性】
技术研发人员:徐明孟宁龙启斌
申请(专利权)人:万汇链智能科技苏州有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1