一种文档解析方法、装置、设备及介质制造方法及图纸

技术编号:36965769 阅读:9 留言:0更新日期:2023-03-22 19:26
本说明书实施例公开了一种文档解析的方法、装置、设备及介质,解决现有技术中根据神经网络模型预测,即建立在统计基础上,针对差异化大的文本在处理效率上存在不足的问题。方法包括:接收文档解析请求,以基于文档解析请求下载对应的待解析文档;对待解析文档进行预处理,获得预处理文档;获取预处理文档中与预设语法规则文件相对应的结构,以将预设处理文档转换为与所述结构相对应的格式,获得待解析文档的中间文档;基于预设语法规则文件与中间文档,生成待解析文件的解析树;通过遍历所述解析树实现对待解析文档的解析提取,实现了对于待解析文档的高效提取。待解析文档的高效提取。待解析文档的高效提取。

【技术实现步骤摘要】
一种文档解析方法、装置、设备及介质


[0001]本说明书涉及数据处理
,尤其涉及一种文档解析方法、装置、设备及介质。

技术介绍

[0002]文本,是指书面语言的表现形式,文本在计算机中以文档进行存储,用于记载和储存信息。常见的文本文档的扩展名有.txt、.doc.、.docx、.wps等。随着大数据时代的到来,数据的处理和分析都需依赖于文档中存储的数据,因此文档解析是当前数据处理分析的一个重要环节。
[0003]当前,对于具有固定格式要求的文书来说,不仅需要提取出同类型文档的结构化特征,以整体梳理相关的信息,还需要针对用户自行填写或者补充的信息进行获取和识别,才能清晰识别每一份文档的特征。现有技术中基于神经网络模型对于文档中的不同类型结构的数据进行分类提取,然而这种建立在统计基础上的文档解析提取方式,在针对差异化大且文本内容不同的文档时,其处理效率与处理准确度较低。

技术实现思路

[0004]本说明书一个或多个实施例提供了一种文档解析方法、装置、设备及介质,用于解决如下技术问题:如何提供一种高效准确的文档解析方法。
[0005]本说明书一个或多个实施例采用下述技术方案:
[0006]本说明书一个或多个实施例提供一种文档解析方法,方法包括:
[0007]接收文档解析请求,以基于所述文档解析请求下载对应的待解析文档;
[0008]对所述待解析文档进行预处理,获得预处理文档;
[0009]获取预处理文档中与预设语法规则文件相对应的结构,以将所述预设处理文档转换为与所述结构相对应的格式,获得待解析文档的中间文档;
[0010]基于所述预设语法规则文件与所述中间文档,生成所述待解析文件的解析树;
[0011]通过遍历所述解析树实现对所述待解析文档的解析提取。
[0012]可选地,在本说明书一个或多个实施例中,对所述待解析文档进行预处理,获得预处理文档,具体包括:
[0013]对所述待解析文档进行图像文字检测,以确定所述待解析文档中的文字区域;
[0014]对所述文字区域进行文字识别与段落识别,以将所述文字区域内的图像信息转换为文字信息;
[0015]将所述文字信息与所述段落的标识进行关联,以获得预处理文档。
[0016]可选地,在本说明书一个或多个实施例中,获取预处理文件中与预设语法规则文件相对应的结构之前,所述方法还包括:
[0017]获取各类型的特定格式文档,并获取各类型的特定格式文档中各信息的结构信息;其中,所述结构信息包括:段落格式信息、文本类型信息、各类文本的位置信息;
[0018]定义描述所述特定格式文档的结构信息的结构化模板语言,并将所述结构化模板语言作为所述预设语法规则文件。
[0019]可选地,在本说明书一个或多个实施例中,获取预处理文档中与预设语法规则文件相对应的结构,具体包括:
[0020]获取所述预处理文档中各段落的标识,确定所述预处理文档中所述各段落的文字信息;
[0021]基于正则表达式对所述各段落的文字信息依次进行判断,以确定各所述段落的文字信息与预设语法规则文件的格式是否相同,以获取预处理文件中与预设语法规则文件相对应的结构。
[0022]可选地,在本说明书一个或多个实施例中,基于所述预设语法规则文件与所述中间文档,生成所述待解析文件的解析树,具体包括:
[0023]将所述中间文档作为待建立解析树的对象参数;
[0024]基于所述预设语法规则文件中的词法分析类与语法分析类,对所述对象参数进行词法分析与语法分析,以生成所述中间文档的解析树;其中,所述预设语法规则文件基于Antlr4进行定义。
[0025]可选地,在本说明书一个或多个实施例中,通过遍历所述解析树实现对所述待解析文档的解析提取,具体包括:
[0026]基于所述文档解析请求确定所述待解析文档所对应的多个实体类;
[0027]遍历所述解析树,通过解析所述解析树中的节点,将所述节点的属性进行提取;
[0028]将所述节点的属性替换为所述预设语法规则文件中对应的结构化数据,并将所述结构化数据存储于对应的所述实体类中,获得解析结果;
[0029]基于预设数据库将所述解析结果所对应的实体类进行存储,以实现所述待解析文档解析结果的结构化存储。
[0030]可选地,在本说明书一个或多个实施例中,接收文档解析请求,以基于所述文档解析请求下载对应的待解析文档,具体包括:
[0031]基于下载任务队列中的下载任务,依次调用对应的线程获取与所述下载任务相对应的文档解析请求;
[0032]基于所述文档解析请求获取所述待解析文档的下载地址,以基于下载存储地址下载所述待解析文档。
[0033]本说明书一个或多个实施例提供一种文档解析装置,装置包括:
[0034]接收单元,用于接收文档解析请求,以基于所述文档解析请求下载对应的待解析文档;
[0035]预处理单元,用于对所述待解析文档进行预处理,获得预处理文档;
[0036]转换单元,用于获取预处理文档中与预设语法规则文件相对应的结构,以将所述预设处理文档转换为与所述结构相对应的格式,获得待解析文档的中间文档;
[0037]生成单元,用于基于所述预设语法规则文件与所述中间文档,生成所述待解析文件的解析树;
[0038]解析单元,用于通过遍历所述解析树实现对所述待解析文档的解析提取。
[0039]本说明书一个或多个实施例提供一种文档解析设备,设备包括:
[0040]至少一个处理器;以及,
[0041]与所述至少一个处理器通信连接的存储器;其中,
[0042]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0043]接收文档解析请求,以基于所述文档解析请求下载对应的待解析文档;
[0044]对所述待解析文档进行预处理,获得预处理文档;
[0045]获取预处理文档中与预设语法规则文件相对应的结构,以将所述预设处理文档转换为与所述结构相对应的格式,获得待解析文档的中间文档;
[0046]基于所述预设语法规则文件与所述中间文档,生成所述待解析文件的解析树;
[0047]通过遍历所述解析树实现对所述待解析文档的解析提取。
[0048]本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0049]接收文档解析请求,以基于所述文档解析请求下载对应的待解析文档;
[0050]对所述待解析文档进行预处理,获得预处理文档;
[0051]获取预处理文档中与预设语法规则文件相对应的结构,以将所述预设处理文档转换为与所述结构相对应的格式,获得待解析文档的中间文档;
[0052]基于所述预设语法规则文件与所述中间文档,生成所述待解析文件的解析树本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档解析的方法,其特征在于,所述方法包括:接收文档解析请求,以基于所述文档解析请求下载对应的待解析文档;对所述待解析文档进行预处理,获得预处理文档;获取预处理文档中与预设语法规则文件相对应的结构,以将所述预设处理文档转换为与所述结构相对应的格式,获得待解析文档的中间文档;基于所述预设语法规则文件与所述中间文档,生成所述待解析文件的解析树;通过遍历所述解析树实现对所述待解析文档的解析提取。2.根据权利要求1所述的一种文档解析的方法,其特征在于,所述对所述待解析文档进行预处理,获得预处理文档,具体包括:对所述待解析文档进行图像文字检测,以确定所述待解析文档中的文字区域;对所述文字区域进行文字识别与段落识别,以将所述文字区域内的图像信息转换为文字信息;将所述文字信息与所述段落的标识进行关联,以获得预处理文档。3.根据权利要求1所述的一种文档解析的方法,其特征在于,所述获取预处理文件中与预设语法规则文件相对应的结构之前,所述方法还包括:获取各类型的特定格式文档,并获取各类型的特定格式文档中各信息的结构信息;其中,所述结构信息包括:段落格式信息、文本类型信息、各类文本的位置信息;定义描述所述特定格式文档的结构信息的结构化模板语言,并将所述结构化模板语言作为所述预设语法规则文件。4.根据权利要求2所述的一种文档解析的方法,其特征在于,所述获取预处理文档中与预设语法规则文件相对应的结构,具体包括:获取所述预处理文档中各段落的标识,确定所述预处理文档中所述各段落的文字信息;基于正则表达式对所述各段落的文字信息依次进行判断,以确定各所述段落的文字信息与预设语法规则文件的格式是否相同,以获取预处理文件中与预设语法规则文件相对应的结构。5.根据权利要求1所述的一种文档解析的方法,其特征在于,所述基于所述预设语法规则文件与所述中间文档,生成所述待解析文件的解析树,具体包括:将所述中间文档作为待建立解析树的对象参数;基于所述预设语法规则文件中的词法分析类与语法分析类,对所述对象参数进行词法分析与语法分析,以生成所述中间文档的解析树;其中,所述预设语法规则文件基于Antlr4进行定义。6.根据权利要求1所述的一种文档解析的方法,其特征在于,所述通过遍历所述解析树实现对所述待解析文档的解析提取,具体包括:基于所述文档解析请求确定所述待解析文档所对应的多个实体类;遍历所述解析树,通过解析所述解析树中的节点,将所述节点的属性进...

【专利技术属性】
技术研发人员:李华崔尚于静倪志荣
申请(专利权)人:浪潮工业互联网股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1