一种文本处理方法及装置制造方法及图纸

技术编号:35119870 阅读:11 留言:0更新日期:2022-10-05 09:48
本申请提供一种文本处理方法及装置,其中所述文本处理方法包括:响应于目标文本的处理请求,构建与所述目标文本对应的结构框架;检测目标文本的目标位置,根据目标位置将所述目标文本划分为第一区域和第二区域;从第一区域内提取第一特征文本和第二特征文本,从第二区域内提取第三特征文本和第二特征文本;基于所述结构框架对从目标文本中提取的所述第一特征文本、第二特征文本及第三特征文本进行展示。本申请提供的文本处理方法,通过结合文档的格式,对整体文档进行结构化处理,得到便于处理的结构化文本数据。处理的结构化文本数据。处理的结构化文本数据。

【技术实现步骤摘要】
一种文本处理方法及装置


[0001]本申请涉及文本处理
,特别涉及一种文本处理方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]文本信息抽取技术在很多领域和场景中都有应用。文本信息抽取的目的是为了减轻人工处理各类文档的负担。
[0003]现有的文本抽取技术,根据所抽取的目标信息、文档结构的不同主要有基于关键词匹配和基于规则模板匹配的方式,对文本信息基于需求进行抽取。
[0004]然而现有技术针对一个文本的抽取方式很难使用到不同格式的同类文本当中,泛化性较差,局限性强;并且现有技术中都是对局部或特定的文本信息进行抽取,缺少对整个文档进行结构化处理的方法。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种文本处理方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
[0007]响应于目标文本的处理请求,构建与所述目标文本对应的结构框架;
[0008]检测目标文本的目标位置,根据目标位置将所述目标文本划分为第一区域和第二区域;
[0009]从第一区域内提取第一特征文本和第二特征文本,从第二区域内提取第三特征文本和第二特征文本;
[0010]基于所述结构框架对从目标文本中提取的所述第一特征文本、第二特征文本及第三特征文本进行展示。
[0011]可选地,所述构建与目标文本对应的结构框架之前,还包括:
[0012]将目标文本的格式转换为目标格式,对目标格式的目标文本进行处理。
[0013]可选地,所述检测目标文本的目标位置,包括:
[0014]获取目标文本内容并与预定字段进行比较;
[0015]将与预定字段匹配的所述目标文本内容的起始位置作为目标文本的目标位置。
[0016]可选地,所述预定字段包括第一预定字段或者第二预定字段;
[0017]在与目标文本内容匹配的预定字段为第一预定字段时,所述从第二区域内提取第三特征文本和第二特征文本,包括:
[0018]从第二区域内提取与第三规则模板匹配的目标文本作为第三特征文本;
[0019]从第二区域内提取与第二规则模板匹配的目标文本作为第二特征文本;
[0020]或者,
[0021]在与目标文本内容匹配的预定字段为第二预定字段时,所述从第二区域内提取第
三特征文本和第二特征文本,包括:
[0022]在所述第二区域内查找第一预定字段;
[0023]若未查找到第一预定字段,则基于第二预定字段从第二区域内提取与第三规则模板匹配的目标文本作为第三特征文本并且从第二区域内提取与第二规则模板匹配的目标文本作为第二特征文本;
[0024]若查找到第一预定字段,则基于第一预定字段从第二区域内提取与第三规则模板匹配的目标文本作为第三特征文本并且从第二区域内提取与第二规则模板匹配的目标文本作为第二特征文本。
[0025]可选地,所述从第一区域内提取第一特征文本和第二特征文本,包括:
[0026]从第一区域内提取与第一规则模板匹配的目标文本作为第一特征文本;
[0027]从第一区域内提取与第二规则模板匹配的目标文本作为第二特征文本。
[0028]可选地,所述基于所述结构框架对从目标文本中提取的所述第一特征文本、第二特征文本及第三特征文本进行展示,包括:
[0029]确定第一特征文本、第二特征文本以及第三特征文本在所述结构框架中的对应的位置,按对应的位置将第一特征文本、第二特征文本以及第三特征文本输入到结构框架中展示。
[0030]可选地,所述从第一区域内提取第一特征文本和第二特征文本,从第二区域内提取第三特征文本和第二特征文本之后,还包括:
[0031]根据目标参数从目标文本中提取所述目标参数对应的参数值。
[0032]可选地,所述从第一区域内提取第一特征文本和第二特征文本,从第二区域内提取第三特征文本和第二特征文本之后,还包括:
[0033]在所述目标文本中存在表格的情况下,获取所述表格中的表格内容;
[0034]从所述表格内容中提取与第二规则模板匹配的内容作为第二特征文本。
[0035]根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
[0036]构建模块,被配置为响应于目标文本的处理请求,构建与所述目标文本对应的结构框架;
[0037]划分模块,被配置为检测目标文本的目标位置,根据目标位置将所述目标文本划分为第一区域和第二区域;
[0038]提取模块,被配置为从第一区域内提取第一特征文本和第二特征文本,从第二区域内提取第三特征文本和第二特征文本;
[0039]展示模块,被配置为基于所述结构框架对从目标文本中提取的所述第一特征文本、第二特征文本及第三特征文本进行展示。
[0040]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本处理方法的步骤。
[0041]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本处理方法的步骤。
[0042]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述文本处理方法的步骤。
[0043]本申请一实施例中,通过响应于目标文本的处理请求,构建与所述目标文本对应的结构框架;检测目标文本的目标位置,根据目标位置将所述目标文本划分为第一区域和第二区域;从第一区域内提取第一特征文本和第二特征文本,从第二区域内提取第三特征文本和第二特征文本;基于所述结构框架对从目标文本中提取的所述第一特征文本、第二特征文本及第三特征文本进行展示。
[0044]本申请提供的文本处理方法,结合文档的格式,对整个文档进行结构化处理,抽取出文本中的关键信息和文档结构,得到便于处理的结构化的文本数据。
附图说明
[0045]图1是本申请实施例提供的计算设备的结构框图;
[0046]图2是本申请实施例提供的文本处理方法的流程图;
[0047]图3是本申请实施例提供的合同文本示意图;
[0048]图4是本申请实施例提供的应用于论文的文本处理方法的流程图;
[0049]图5是本申请实施例提供的应用于合同的文本处理方法的流程图;
[0050]图6是本申请实施例提供的文本处理装置的结构示意图。
具体实施方式
[0051]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0052]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:响应于目标文本的处理请求,构建与所述目标文本对应的结构框架;检测目标文本的目标位置,根据目标位置将所述目标文本划分为第一区域和第二区域;从第一区域内提取第一特征文本和第二特征文本,从第二区域内提取第三特征文本和第二特征文本;基于所述结构框架对从目标文本中提取的所述第一特征文本、第二特征文本及第三特征文本进行展示。2.根据权利要求1所述的方法,其特征在于,所述构建与目标文本对应的结构框架之前,还包括:将目标文本的格式转换为目标格式,对目标格式的目标文本进行处理。3.根据权利要求1所述的方法,其特征在于,所述检测目标文本的目标位置,包括:获取目标文本内容并与预定字段进行比较;将与预定字段匹配的所述目标文本内容的起始位置作为目标文本的目标位置。4.根据权利要求3所述的方法,其特征在于,所述预定字段包括第一预定字段或者第二预定字段;在与目标文本内容匹配的预定字段为第一预定字段时,所述从第二区域内提取第三特征文本和第二特征文本,包括:从第二区域内提取与第三规则模板匹配的目标文本作为第三特征文本;从第二区域内提取与第二规则模板匹配的目标文本作为第二特征文本;或者,在与目标文本内容匹配的预定字段为第二预定字段时,所述从第二区域内提取第三特征文本和第二特征文本,包括:在所述第二区域内查找第一预定字段;若未查找到第一预定字段,则基于第二预定字段从第二区域内提取与第三规则模板匹配的目标文本作为第三特征文本并且从第二区域内提取与第二规则模板匹配的目标文本作为第二特征文本;若查找到第一预定字段,则基于第一预定字段从第二区域内提取与第三规则模板匹配的目标文本作为第三特征文本并且从第二区域内提取与第二规则模板匹配的目标文本作为第二特征文本。5.根据权利要求1所述的方法,其特征在于,所述从第一区域内提取第一特征文本和第二特征文本,包括:从第一区域内提取与第一规则模板匹配的目标文本作为第一特征...

【专利技术属性】
技术研发人员:张竞翱李长亮
申请(专利权)人:成都金山互动娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1