基于XML的多页文档处理方法、装置、计算机设备及介质制造方法及图纸

技术编号:27743382 阅读:32 留言:0更新日期:2021-03-19 13:37
本发明专利技术涉及表单数据处理领域,公开了一种基于XML的多页文档处理方法、装置、计算机设备及介质,其方法包括:通过光学字符识别程序处理包含表单的多页文档,生成XML数据;根据XML数据构建二维矩阵;根据预设分类识别算法处理二维矩阵和多页文档,生成若干表单分页数据和表单结构信息,一个表单分页数据对应一个表单结构信息;通过自然语言处理模型处理表单单元数据,生成若干表单字段数据;根据表单结构信息和表单字段数据合成目标表单。本发明专利技术解决了海关报关系统的制单流程处理效率低、处理成本高的问题。

【技术实现步骤摘要】
基于XML的多页文档处理方法、装置、计算机设备及介质
本专利技术涉及表单数据处理领域,尤其涉及一种基于XML的多页文档处理方法、装置、计算机设备及介质。
技术介绍
目前,在海关报关系统中,制单流程涉及大量的字段数据变动,需要消耗大量人工成本。因而,需要寻找一种高效的基于XML的多页文档处理方法,提高表单处理能力,减少人工成本。
技术实现思路
基于此,有必要针对上述技术问题,提供一种基于XML的多页文档处理方法、装置、计算机设备及介质,以解决海关报关系统的制单流程处理效率低、处理成本高的问题。一种基于XML的多页文档处理方法,包括:通过光学字符识别程序处理包含表单的多页文档,生成XML数据;根据所述XML数据构建二维矩阵;根据预设分类识别算法处理所述二维矩阵和所述多页文档,生成若干表单分页数据和表单结构信息,一个表单分页数据对应一个表单结构信息;通过自然语言处理模型处理所述表单单元数据,生成若干表单字段数据;根据所述表单结构信息和所述表单字段数据合成目标表单。一种基于XML的多页文档处理装置,包括:光学字符识别模块,用于通过光学字符识别程序处理包含表单的多页文档,生成XML数据;矩阵构建模块,用于根据所述XML数据构建二维矩阵;分页模块,用于根据预设分类识别算法处理所述二维矩阵和所述多页文档,生成若干表单分页数据和表单结构信息,一个表单分页数据对应一个表单结构信息;字段数据提取模块,用于通过自然语言处理模型处理所述表单单元数据,生成若干表单字段数据;合成表单模块,用于根据所述表单结构信息和所述表单字段数据合成目标表单。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述基于XML的多页文档处理方法。一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述基于XML的多页文档处理方法。上述基于XML的多页文档处理方法、装置、计算机设备及存储介质,解决了海关报关系统的制单流程处理效率低、处理成本高的问题。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中基于XML的多页文档处理方法的一应用环境示意图;图2是本专利技术一实施例中基于XML的多页文档处理方法的一流程示意图;图3是本专利技术一实施例的XML数据;图4是本专利技术一实施例排序后的二维矩阵;图5是本专利技术一实施例表头定位算法的流程示意图;图6是本专利技术一实施例中多页文档中的一原始单证;图7是本专利技术一实施例中对原始单证进行表头定位、表底定位后的效果图;图8是本专利技术一实施例中表底定位算法的流程示意图;图9是本专利技术一实施例中表头定位算法的流程示意图;图10是本专利技术一实施例中虚拟划线算法的流程示意图;图11是本专利技术一实施例中虚拟划线算法还原表格的示意图;图12是本专利技术一实施例中生成的表格数据(表体数据)和表底数据;图13是本专利技术一实施例中目标表单的效果图;图14是本专利技术一实施例中基于XML的多页文档处理装置的一结构示意图;图15是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例提供的基于XML的多页文档处理方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种基于XML的多页文档处理方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤。S10、通过光学字符识别程序处理包含表单的多页文档,生成XML数据。可理解地,光学字符识别程序(OCR,opticalcharacterrecognition)是一种常用的字符识别工具,可以从图像文件中提取出文字信息。多页文档可以是若干海关报关报表的扫描件。在多页文档中,一般包含了多个需要识别的表单。在此处,多页文档指的是文档的页数在两页或两页以上。XML(ExtensibleMarkupLanguage,可扩展标记语言)数据可以是以xml格式保存的数据。在本实施例中的XML数据,每一字符单独成块(block)。如图3所示,图3为一实施例的XML数据。S20、根据所述XML数据构建二维矩阵。对XML数据中的各个块进行自上而下、自左而右地排序,生成二维矩阵。该二维矩阵有若干行和若干列。如图4所示,图4为一实施例排序后的二维矩阵。S30、根据预设分类识别算法处理所述二维矩阵和所述多页文档,生成若干表单分页数据和表单结构信息,一个表单分页数据对应一个表单结构信息。预设分类识别算法可由若干子算法组成,用于将二维矩阵分解为若干表单分页数据,同时从多页文档中提取出表单结构信息。每个表单分页数据包含了某一表单的内容。表单结构信息则为表单中各个单元格的排布状况,包括单元格的大小、坐标(在表单的位置)等。S40、通过自然语言处理模型处理所述表单单元数据,生成若干表单字段数据。自然语言处理模型(NLP,NaturalLanguageProcessing)是一种基于自然语言处理算法构建的模型,可以基于自然语义将表单单元数据分割为若干个表单字段数据。每个表单字段数据代表独立的词语单元。S50、根据所述表单结构信息和所述表单字段数据合成目标表单。可理解地,在表单结构信息中,划分了若干个单元格。可以将提取出的表单字段数据依次填充进单元格中,形成目标表单。可选的,所述预设分类识别算法包括Key字典匹配算法和预设分页算法,步骤S30,即所述根据预设分类识别算法处理所述二维矩阵和所述多页文档,生成若干表单分页数据和表单结构信息,包括:S301、通过所述Key字典匹配算法处理所述二维矩阵,判断所述二维矩阵对应的页面是否为多页;S302、若所述二维矩阵对应的页面为多页,按所述预设分页算法处理所述二维矩阵和所述多页文档,生成若干所述表单分页数据和所述表单结构信息。Key字典匹配算法指的是,预先存储若干表头(title)的键值(Key),根据该键值判断相邻的若干个块本文档来自技高网...

【技术保护点】
1.一种基于XML的多页文档处理方法,其特征在于,包括:/n通过光学字符识别程序处理包含表单的多页文档,生成XML数据;/n根据所述XML数据构建二维矩阵;/n根据预设分类识别算法处理所述二维矩阵和所述多页文档,生成若干表单分页数据和表单结构信息,一个表单分页数据对应一个表单结构信息;/n通过自然语言处理模型处理所述表单单元数据,生成若干表单字段数据;/n根据所述表单结构信息和所述表单字段数据合成目标表单。/n

【技术特征摘要】
1.一种基于XML的多页文档处理方法,其特征在于,包括:
通过光学字符识别程序处理包含表单的多页文档,生成XML数据;
根据所述XML数据构建二维矩阵;
根据预设分类识别算法处理所述二维矩阵和所述多页文档,生成若干表单分页数据和表单结构信息,一个表单分页数据对应一个表单结构信息;
通过自然语言处理模型处理所述表单单元数据,生成若干表单字段数据;
根据所述表单结构信息和所述表单字段数据合成目标表单。


2.如权利要求1所述的基于XML的多页文档处理方法,其特征在于,所述预设分类识别算法包括Key字典匹配算法和预设分页算法;
所述根据预设分类识别算法处理所述二维矩阵和所述多页文档,生成若干表单分页数据和表单结构信息,包括:
通过所述Key字典匹配算法处理所述二维矩阵,判断所述二维矩阵对应的页面是否为多页;
若所述二维矩阵对应的页面为多页,按所述预设分页算法处理所述二维矩阵和所述多页文档,生成若干所述表单分页数据和所述表单结构信息。


3.如权利要求2所述的基于XML的多页文档处理方法,其特征在于,所述通过所述Key字典匹配算法处理所述二维矩阵,判断所述二维矩阵对应的页面是否为多页之后,还包括:
若所述二维矩阵对应的页面为单页,则通过自然语言处理模型处理所述二维矩阵。


4.如权利要求2所述的基于XML的多页文档处理方法,其特征在于,所述若所述二维矩阵对应的页面为多页,按所述预设分页算法处理所述二维矩阵,生成若干所述表单分页数据和所述表单结构信息,包括:
通过表头定位算法确定所述表单分页数据的表头及其坐标;
通过表底定位算法确定所述表单分页数据的表底及其坐标;
通过表头设置算法更新所有所述表单分页数据的表头内容;
通过虚拟划线算法解析所述多页文档,生成单元格划分信息。


5.如权利要求4所述的基于XML的多页文档处理方法,其特征在于,所述根据所述表单结构信息和所述表单字段数据合成目标表单,包括:
根据所述表头和所述单元格划分信息生成表头数据;
根据所述表底和所述单...

【专利技术属性】
技术研发人员:庄志强施光辉陆承丰王鹤
申请(专利权)人:信号旗智能科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1