网络页面的字段关系识别方法和装置制造方法及图纸

技术编号:37422755 阅读:11 留言:0更新日期:2023-04-30 09:44
本申请涉及一种网络页面的字段关系识别方法和装置。一个实施例中,通过获取网页的节点树并对节点树进行深度优先遍历,可以保留节点之间的关系,再对深度优先遍历得到的文本节点进行提取,根据不同文本节点在节点树中的关系,确定由文本节点提取到的目标字段之间是否具有对应关系。这样,在无需借助其他关系模型的情况下,通过节点树的结构关系来识别字段之间的对应关系,缩减了字段关系识别的时间,提高了信息抽取效率,提升了字段关系识别的准确性。性。性。

【技术实现步骤摘要】
网络页面的字段关系识别方法和装置


[0001]本公开涉及信息分析领域,尤其涉及一种网络页面的字段关系识别方法和装置。

技术介绍

[0002]随着互联网信息技术的不断发展,互联网信息量日益膨胀。随着移动互联网的进一步普及,互联网产生的信息每时每刻都在呈指数式增长。面对如此巨大的互联网信息库,如何更好地理解这些信息一直是信息分析领域的重要问题。
[0003]当前互联网上提供的信息基本都是按照HTML格式的网页,而HTML是一种面向显示的标记性语言,主要目的为了是方便网页的显示。对于信息分析而言,在抽取网页中的文本信息后,需要先对文本信息中的一些字段信息进行提取和分类,再根据需求进一步对得到的字段信息进行分析。现有技术中提取到字段后,可以根据上下文信息训练关系模型确定字段关系,同时也可以根据字段间的距离确定网页的字段关系。然而当上下文信息不足时,仅通过字段间距离确定的方式存在距离过远而超出判断标准的问题。因此,如何有效地对文本中的字段关系进行判断识别是信息分析过程中的关键难题。

技术实现思路

[0004]基于此,针对上述技术问题,提供一种网络页面的字段关系识别方法和装置。本公开的技术方案如下:
[0005]根据本公开实施例的一个方面,提供一种网络页面的字段关系识别方法,包括:
[0006]获取目标网页的节点树;
[0007]对所述节点树进行深度优先遍历,得到所述目标网页的网页节点;
[0008]对所述网页节点中的文本节点进行字段提取,得到目标字段;
[0009]基于所述目标字段对应节点在所述节点树中的节点位置关系,确定所述目标字段之间的对应关系。
[0010]在其中一个实施例中,所述对所述网页节点中的文本节点进行字段提取,得到目标字段,包括:
[0011]将所述网页节点中单独出现的文本节点作为第一待提取区;
[0012]将所述网页节点中连续出现的文本节点作为第二待提取区;
[0013]根据预设提取方式对所述第一待提取区和/或所述第二待提取区进行字段提取,得到目标字段。
[0014]在其中一个实施例中,所述基于所述目标字段对应节点在所述节点树中的位置关系,确定所述目标字段之间的对应关系,包括:
[0015]获取所述目标字段对应节点在所述节点树中的位置;
[0016]遍历所述节点树中的非文本节点,将包含至少两个所述目标字段的非文本节点作为关系节点;
[0017]基于所述关系节点在所述节点树中的层级以及所述目标字段的内容,确定所述目
标字段之间是否存在对应关系。
[0018]在其中一个实施例中,所述基于所述关系节点在所述节点树中的层级以及所述目标字段的内容,确定所述目标字段之间是否存在对应关系,包括:
[0019]获取所述关系节点在所述节点树中的层级;
[0020]按照从下层往上层的顺序依次选取所述关系节点,判断选取的所述关系节点下的所述目标字段之间是否存在冲突关系;
[0021]当所述目标字段之间不存在冲突关系时,判定所述目标字段之间存在对应关系。
[0022]在其中一个实施例中,所述获取目标网页的节点树包括:
[0023]将目标网页转换为预设语言算法可处理的中间对象;
[0024]根据所述预设语言算法从所述中间对象中获取节点,并将获取的节点转换为节点树。
[0025]在其中一个实施例中,所述预设语言算法包括xpath语言。
[0026]根据本公开实施例的另一方面,提供一种网络页面的字段关系识别装置,包括:
[0027]节点树获取模块,用于获取目标网页的节点树;
[0028]深度遍历模块,用于对所述节点树进行深度优先遍历,得到所述目标网页的网页节点;
[0029]字段提取模块,用于对所述网页节点中的文本节点进行字段提取,得到目标字段;
[0030]关系识别模块,用于基于所述目标字段对应节点在所述节点树中的节点位置关系,确定所述目标字段之间的对应关系。
[0031]根据本公开实施例的另一方面,还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0032]根据本公开实施例的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0033]根据本公开实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0034]本公开实施例提供的技术方案中,通过获取网页的节点树并对节点树进行深度优先遍历,可以保留节点之间的关系,再对深度优先遍历得到的文本节点进行提取,根据不同文本节点在节点树中的关系,确定由文本节点提取到的目标字段之间是否具有对应关系。这样,在无需借助其他关系模型的情况下,通过节点树的结构关系来识别字段之间的对应关系,缩减了字段关系识别的时间,提高了信息抽取效率,提升了字段关系识别的准确性。
[0035]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0036]为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0037]图1是一个实施例中一种网络页面的字段关系识别方法的流程示意图;
[0038]图2是一个实施例中对网页转换得到的节点树的示意图;
[0039]图3是一个实施例中对图2中的节点树进行深度优先遍历的结果示意图;
[0040]图4是一个实施例中对文本节点进行字段提取的流程示意图;
[0041]图5是另一个实施例中对网页转换得到的节点树的示意图;
[0042]图6是一个实施例中根据节点在节点树中位置关系确定目标字段之间对应关系的流程示意图;
[0043]图7是一个实施例中获取目标网页的节点树的流程示意图;
[0044]图8是一个实施例中一种网络页面的字段关系识别装置的结构示意图;
[0045]图9是一个实施例中一种计算机设备的内部结构示意图。
具体实施方式
[0046]为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
[0047]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络页面的字段关系识别方法,其特征在于,包括:获取目标网页的节点树;对所述节点树进行深度优先遍历,得到所述目标网页的网页节点;对所述网页节点中的文本节点进行字段提取,得到目标字段;基于所述目标字段对应节点在所述节点树中的节点位置关系,确定所述目标字段之间的对应关系。2.根据权利要求1所述的识别方法,其特征在于,所述对所述网页节点中的文本节点进行字段提取,得到目标字段,包括:将所述网页节点中单独出现的文本节点作为第一待提取区;将所述网页节点中连续出现的文本节点作为第二待提取区;根据预设提取方式对所述第一待提取区和/或所述第二待提取区进行字段提取,得到目标字段。3.根据权利要求1或2所述的识别方法,其特征在于,所述基于所述目标字段对应节点在所述节点树中的位置关系,确定所述目标字段之间的对应关系,包括:获取所述目标字段对应节点在所述节点树中的位置;遍历所述节点树中的非文本节点,将包含至少两个所述目标字段的非文本节点作为关系节点;基于所述关系节点在所述节点树中的层级以及所述目标字段的内容,确定所述目标字段之间是否存在对应关系。4.根据权利要求3所述的识别方法,其特征在于,所述基于所述关系节点在所述节点树中的层级以及所述目标字段的内容,确定所述目标字段之间是否存在对应关系,包括:获取所述关系节点在所述节点树中的层级;按照从下层往上层的顺序依次选取所述关系节点,判断选取的...

【专利技术属性】
技术研发人员:陶予祺童刚陈汝龙
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1