文档处理方法、系统及相关设备技术方案

技术编号:39324543 阅读:15 留言:0更新日期:2023-11-12 16:03
本申请公开了文档处理方法、系统及相关设备,该方法包括:解析得到初始文档的目录信息、段落信息和各字符坐标;根据目标文本所在段落的前向目录项的信息,配置目标文本的内容定位规则;执行内容定位规则,以确定出目标文本在初始文档中的位置。其中,可利用图像边界识别算法解析PDF文档的段落及目录等结构信息,进而根据这些结构信息配置出通用性强、简洁的内容定位规则,使得通过该规则便可确定目标文本在文档中的坐标,有效减少编写和维护规则的工作量,并增强对文档内容的解析和定位效果。此外,文档解析出的中间信息表能通用于不同的下游处理逻辑;本方法还可以高保真显示原文,并支持拓展出目录和批注等内容在文档中的前端阅览效果。阅览效果。阅览效果。

【技术实现步骤摘要】
文档处理方法、系统及相关设备


[0001]本申请实施例涉及互联网
,尤其涉及文档处理方法、系统及相关设备。

技术介绍

[0002]如PDF等的文档格式,因其在不同平台环境下渲染效果的高度一致性,成为很多重要文档事实上的标准格式。
[0003]实际应用中,用户常需在PDF文档中查找到关键内容。然而目前对PDF文档内容的定位,往往采用直接编码的方式,这使得每一次定位就需要编写一份匹配代码,且效率比较低,致使面对大量的定位需求就需相应地编写大量的匹配代码。
[0004]针对于此,相关技术并未提供有效的解决方案。

技术实现思路

[0005]本申请实施例提供了文档处理方法、系统及相关设备,用于通过通用的定位规则满足不同内容的定位需求。
[0006]本申请实施例第一方面提供一种文档处理方法,包括:
[0007]解析初始文档,以得到所述初始文档的目录信息、段落信息和各字符坐标,所述初始文档包含PDF格式文档;
[0008]根据目标文本所在段落的前向目录项的信息,配置所述目标文本的内容定位规则;其中,所述前向目录项指处于所述所在段落上文的目录项;
[0009]执行所述内容定位规则,以确定所述目标文本在所述初始文档中的位置。
[0010]本申请第一方面所述的方法在具体实施时可采用本申请第二方面所述的内容实现。
[0011]本申请实施例第二方面提供一种文档处理系统,包括:
[0012]解析单元,用于解析初始文档,以得到所述初始文档的目录信息、段落信息和各字符坐标,所述初始文档包含PDF格式文档;
[0013]处理单元,用于根据目标文本所在段落的前向目录项的信息,配置所述目标文本的内容定位规则;其中,所述前向目录项指处于所述所在段落上文的目录项;
[0014]所述处理单元,还用于执行所述内容定位规则,以确定出所述目标文本在所述初始文档中的位置。
[0015]本申请实施例第三方面提供一种电子设备,包括:
[0016]中央处理器,存储器以及输入输出接口;
[0017]所述存储器为短暂存储存储器或持久存储存储器;
[0018]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。
[0019]本申请实施例第四方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方
式所描述的方法。
[0020]本申请实施例第五方面提供一种包含指令或计算机程序的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。
[0021]从以上技术方案可以看出,本申请实施例至少具有以下优点:
[0022]本申请实施例能解析得到初始文档中的目录、段落和字符坐标等文档信息,进而根据目录和段落信息配置出通用性强、简洁的内容定位规则,使得通过内容定位规则,便可便捷确定目标文本在初始文档中的位置,从而有效减少编写和维护规则的工作量,并增强对文档内容的解析和定位效果,提高用户对文档的审阅体验。
附图说明
[0023]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0024]需要说明的是,虽然各实施例所涉及的流程性示意图(若存在)中各个步骤按照箭头的指示依次绘制,但除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0025]图1为本申请实施例文档处理方法的一个流程示意图;
[0026]图2a为本申请实施例文档处理方法的另一流程示意图;
[0027]图2b为本申请实施例文档处理方法的另一流程示意图;
[0028]图3为本申请实施例文档处理方法的一个解析示意图;
[0029]图4为本申请实施例文档处理方法的一个渲染显示图;
[0030]图5为本申请实施例顺序栈的一个结构示意图;
[0031]图6为本申请实施例电子设备的一个结构示意图。
具体实施方式
[0032]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0033]本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0034]在以下的描述中,涉及到“一个具体实施方式”或“一个具体示例”等类似表达,其描述了所有可能实施例的子集,但是可以理解,“一个具体实施方式”或“一个具体示例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,涉及到的术语多个是指至少两个。本申请所说的某数值达到阈值(如果存在),在一些具体示例中,可包括前者大于阈值后者的情况;若提及“任意”或“至少一”等类似表述,具体可指所列举示例中的任一种示例或这些示例之间的任意组合。
[0035]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0036]下面将以PDF格式文档作为初始文档,示例性地对本申请的方法做进一步的详细说明,当然,初始文档也可以是类似PDF在不同平台环境下渲染效果高度一致性(如在不同设备终端显示的渲染效果一致)的其他格式文档。
[0037]请参阅图1至图5,本申请第一方面提供一种文档处理方法的一个具体实施例,该实施例包括如下操作步骤:
[0038]11、解析得到初始文档中的目录信息、段落信息和各字符坐标。
[0039]例如,证券行业中上市公司披露的公告一般采用PDF文档,但P本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:解析初始文档,以得到所述初始文档的目录信息、段落信息和各字符坐标,所述初始文档包含PDF格式文档;根据目标文本所在段落的前向目录项的信息,配置所述目标文本的内容定位规则;其中,所述前向目录项指处于所述所在段落上文的目录项;执行所述内容定位规则,以确定出所述目标文本在所述初始文档中的位置。2.根据权利要求1所述的文档处理方法,其特征在于,所述目录项信息包含目录项层级信息,所述目录项层级指当前目录项属于父级或子级;所述根据目标文本所在段落的前向目录项的信息,配置所述目标文本的内容定位规则,包括:根据所述所在段落与临近的父级前向目录项之间历经的子目录信息,配置所述内容定位规则。3.根据权利要求1所述的文档处理方法,其特征在于,解析得到所述初始文档的目录项信息和各字符坐标的过程,包括:使用格式解析器解析所述初始文档内容,以得到各字符坐标;将所述初始文档转换成图像输入已训练好的图像识别模型,以识别出所述初始文档中的目录项区域及所述目录项区域所属的层级;将字符坐标位于所述目录项区域的字符作为目录项字符,并通过各所述目录项字符的坐标构建用以反映所述目录层级信息的目录树。4.根据权利要求3所述的文档处理方法,其特征在于,所述目录树的构建过程,包括:将各所述目录项按所属层级关系或在初始文档中的上下位置关系进行编码并按码排列,其中,从属于同一父级目录项的各子目录项编码携带所述父级目录项编码;将同一父级目录项的各所述编码依次压入顺序栈中,直至遍历完所有所述目录项,以构建得到所述目录树。5.根据权利要求1所述的文档处理方法,其特征在于,解析得到所述初始文档的段落信息的过程包括:通过...

【专利技术属性】
技术研发人员:王仁勇尚东东孙德旺谢奕红李勇朱辉晃张平兰毛瑞彬杨建明
申请(专利权)人:深圳证券信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1