一种文本提取方法、装置、设备和介质制造方法及图纸

技术编号:18426533 阅读:36 留言:0更新日期:2018-07-12 02:02
本申请公开了一种文本提取方法、装置、设备和介质。该方法包括:基于文本样本和信息提取需求,生成用于提取信息的配置信息;基于所述配置信息,从待提取文本中提取目标信息。根据本申请实施例的技术方案,对于不同文本分析和数据提取需求,无需重新开发特定提取需求的定制化代码,只需要按照系统提示进行提取信息配置和修改即可,极大的减少了开发人员的工作量,同时也提高了系统的可拓展性和可维护性。

A text extraction method, device, device and medium

The application discloses a text extraction method, device, device and medium. The method includes: Based on the text samples and information extraction requirements, the configuration information used to extract information is generated, and the target information is extracted from the extracted text based on the configuration information. According to the technical scheme of this application example, for different text analysis and data extraction requirements, there is no need to redevelop the customization code for the specific extraction requirements. It only needs to extract information configuration and modification according to the system prompt, which greatly reduces the amount of work of the developer and also improves the development of the system. Sex and maintainability.

【技术实现步骤摘要】
一种文本提取方法、装置、设备和介质
本公开一般涉及计算机
,具体涉及文本识别
,尤其涉及一种文本提取方法、装置、设备和介质。
技术介绍
一般用于运营分析的数据都是具有固定格式的数据,但这些具有固定格式的数据最初存在于不同的日志文本中,这些日志文本的输出内容不同,输出格式也不同,因此,为了从这些日志文本中提取出有价值的信息,往往需要定制化开发程序。但是,由于定制化开发的程序不具有通用性,针对不同输出内容、不同输出格式的日志文本,需要分别定制化开发相应的程序,而且,一旦业务需求调整,就需要去逐行修改程序中的代码,这样不仅使得开发人员的工作量巨大,而且可维护性也较差。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种文本提取方案,无需重复开发程序,减少开发人员的工作量,同时提高程序的可维护性。第一方面,本申请实施例提供了一种文本提取方法,包括:,基于文本样本和信息提取需求,生成用于提取信息的配置信息;基于所述配置信息,从待提取文本中提取目标信息。第二方面,本申请实施例还提供了一种文本提取装置,包括:配置信息生成单元,用于基于文本样本和信息提取需求,生成用于提取信息的配置信息;提取单元,用于基于所述配置信息,从待提取文本中提取目标信息。第三方面,本申请实施例还提供了一种设备,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如第一方面所述的方法。第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如第一方面所述的方法。本申请实施例提供的文本提取方案,基于文本样本和信息提取需求,生成用于提取信息的配置信息,利用该配置信息,从待提取文本中提取目标信息。按照本申请实施例的技术方案,对于不同文本分析和数据提取需求,无需重新开发特定提取需求的定制化代码,只需要按照系统提示进行提取信息配置和修改即可,极大的减少了开发人员的工作量,同时也提高了系统的可拓展性和可维护性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了从日志文本中提取网络访问控制列表的IP地址信息的示意图;图2示出了本申请实施例提供的一种文本提取方法的示例性流程图;图3示出了本申请实施例中基于逻辑关系操作指令对每个文本匹配指令对应的提取结果进行逻辑操作的示意图;图4示出了本申请实施例中提供的文本提取方法在具体实例中的实现示意图;图5示出了本申请实施例提供的一种文本提取装置的示例性结构框图;以及图6示出了适于用来实现本申请实施例的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。如
技术介绍
中所提到的,为了从日志文本中提取出有价值的信息,需要定制化开发程序,而这些信息需要从日志文本的大量基线中提取,每条基线需要提取的信息各不相同。下面列举一例简单的基线进行说明:该条基线的信息提取需求为:提取网络访问控制列表的IP地址信息。参考图1,为从日志文本中提取网络访问控制列表的IP地址信息的示意图。步骤1、遍历日志文本找到访问控制列表绑定的端口号,即找到文本行“acl2098inbound”之后,提取端口号2098。步骤2、根据步骤1中提取的端口号,找到日志文本中匹配端口号的访问控制列表描述,即根据端口号2098找到文本行“aclnumber2098”。步骤3、如果在步骤2中能够找到匹配的文本行,则处理相邻的下一行,找到允许访问的源IP地址,即从文本行“rule5permitsource10.110.217.00.0.0.255”提取源IP地址10.110.217.00.0.0.255。步骤4、如果执行完步骤1、2、3后无法找到源IP地址,则寻找ssh访问控制端口号,即找到文本行“sshserveracl2002”,提取端口号2002。步骤5、根据步骤4中提取的端口号找到文本中匹配端口号的访问控制列表描述,即根据端口号2002找到文本行“aclnumber/basic2002”。步骤6、如果在步骤5中能够找到匹配的文本行,则处理相邻下一行,找到允许访问的源IP地址,即从文本行“rule13permitsource10.115.216.250”提取源IP地址10.115.216.250。针对以上类似基线要求逐一进行信息提取实现,开发的工作量巨大,并且一旦基线的信息提取需求调整,程序代码将不得不随之修改,后续维护也相当痛苦。鉴于现有技术的上述缺陷,本申请实施例提供了文本提取方案,无需重复开发程序,减少开发人员的工作量,同时提高程序的可维护性。下面将参考附图并结合实施例来详细说明本申请。为了方便后续信息提取的说明,本申请实施例中先对文本中的各类信息进行定义和说明:1、每行文本的输出字符串个数m(m∈N);文本的行数n(n∈N*);m和n均非无穷大。2、文本中每行出现的信息用字母A标记,A表示特定业务中有意义的任意字符、单词和词组;比如,文本中第一行信息可以表示为:A11、A12、A13…A1m;3、文本中每行待提取的值用字母V标记,如文本中第一行信息的待提取的值可以表示为:V11、V12、V13…V1m;4、文本中可能出现上下文线索的标记(即文本中上下文关联变量),找到这些标记后才能进行后续文本信息提取。对这些上下文线索用字母T标记;T的出现与行列位置无关,用T1、T2、T3…Tm表示在文本出现的个数。按照以上定义,我们就可以将现有已知的无固定格式的文本统一由如下表1的形式表示。表1:对文本中的各类信息进行定义之后,为了便于程序对待提取的信息进行识别,还需要对配置信息中出现的符号进行定义:1、文本中需要提取的值通常是从上文到下文的情况,待提取的信息可能是连续行提取,也可能是跨行提取,在这种取值场景下,定义两个行关系标记符,分别为顺向跨行信息提取标记符和顺向连续行信息提取标记符。在本申请实施例中,顺向跨行信息提取标记符由“=>”表示,顺向连续行信息提取标记符由“->”表示。2、文本中需要提取的值也可能是从下文到上文的情况,在这种取值场景下,定义两个行关系标记符,分别为逆向跨行信息提取标记符和逆向连续行提取标记符,其中,逆向跨行信息提取标记符用“<=”表示,逆向连续行提取标记符用“<-”表示。3、文本中行关系标记符优先级关系为:<=><->=>>->。4、定义文本中字段操作符“#”、“$”和“*”,其中,“*”为指示将提取的字段标记为临时变量的字段操作符,“#”为指示将提取的字段标记为目标信息的字段操作符,“$”为指示将标记为临时变量的字段进行赋值操作的字段操作符。基于上述行关系标记符和字段操作符的定义,便可以搭配出不同的提取模式,具体见下表2所本文档来自技高网
...

【技术保护点】
1.一种文本提取方法,其特征在于,所述方法包括:基于文本样本和信息提取需求,生成用于提取信息的配置信息;基于所述配置信息,从待提取文本中提取目标信息。

【技术特征摘要】
1.一种文本提取方法,其特征在于,所述方法包括:基于文本样本和信息提取需求,生成用于提取信息的配置信息;基于所述配置信息,从待提取文本中提取目标信息。2.根据权利要求1所述的方法,其特征在于,所述配置信息包含文本匹配指令和与所述文本匹配指令对应的字段操作指令;基于所述配置信息,从待提取文本中提取目标信息,包括:基于每个文本匹配指令以及其对应的字段操作指令,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;根据每个文本匹配指令对应的提取结果,得到所述目标信息。3.根据权利要求2所述的方法,其特征在于,所述配置信息还包含逻辑关系操作指令;根据每个文本匹配指令对应的提取结果,得到所述目标信息,包括:基于所述逻辑关系操作指令,对每个文本匹配指令对应的提取结果进行逻辑操作,得到所述目标信息。4.根据权利要求3所述的方法,其特征在于,所述逻辑操作包括:交集操作、并集操作和去重操作中的至少一项。5.根据权利要求2所述的方法,其特征在于,所述文本匹配指令包含若干文本匹配项以及与各文本匹配项关联的行关系标记符;与所述文本匹配指令对应的字段操作指令包含与所述文本匹配指令中的各文本匹配项分别对应的字段操作位置和字段操作符;基于每个文本匹配指令以及其对应的字段操作指令,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果,包括:基于每个文本匹配指令中的文本匹配项,以及与每个文本匹配指令对应的字段操作指令中与每个文本匹配项对应的字段操作位置和字段操作符,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;其中,文本匹配项的执行顺序根据自身关联的行关系标记符的优先级的先后顺序确定。6.根据权利要求5所述的方法,其特征在于,所述行关系标记符包括:顺向跨行信息提取标记符、顺向连续行信息提取标记符、逆向跨行信息提取标记符和逆向连续行提取标记符中的至少一种。7.根据权利要求6所述的方法,其特征在于,所述行关系标记符的优先级为:逆向跨行信息提取标记符>逆向连续行提取标记符>顺向跨行信息提取标记符>顺向连续行信息提取标记符。...

【专利技术属性】
技术研发人员:徐涛刘小龙
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1