页面内容提取方法、模板的生成方法及装置、介质及设备制造方法及图纸

技术编号:20797188 阅读:19 留言:0更新日期:2019-04-06 10:47
本公开涉及一种页面内容提取方法、模板的生成方法及装置、介质及设备。所述方法包括:根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据第一特征路径,生成与当前页面分组对应的页面内容提取模板。因此,既可以有效保证所获得的页面内容提取模板的适用性,又可以有效提高页面内容提取模板的准确性。另外,便于根据不同页面结构的页面生成不同的页面内容提取模板,有效保证基于页面内容提取模板进行页面内容提取的准确度。

Page Content Extraction Method, Template Generation Method and Device, Medium and Equipment

The present disclosure relates to a page content extraction method, a template generation method and a device, a medium and a device. The method includes: grouping multiple pages according to page URLs, in which each page grouping corresponds to a page structure; generating a corresponding DOM tree for each page grouping under the current page grouping for each page grouping; and determining a page structure that can represent the corresponding page grouping under the current page grouping according to each DOM tree under the current page grouping for each page grouping. The first feature path, and at least according to the first feature path, generates the page content extraction template corresponding to the current page grouping. Therefore, it can not only effectively guarantee the applicability of the obtained page content extraction template, but also effectively improve the accuracy of the page content extraction template. In addition, it is convenient to generate different page content extraction templates according to different page structures, which effectively guarantees the accuracy of page content extraction based on page content extraction templates.

【技术实现步骤摘要】
页面内容提取方法、模板的生成方法及装置、介质及设备
本公开涉及页面内容抓取领域,具体地,涉及一种页面内容提取方法、模板的生成方法及装置、介质及设备。
技术介绍
对网页信息进行抽取时,一般都需要确定出网页的布局结构,进而对页面内容进行抽取。在常见的机器学习进行页面内容抽取的方法中,无论是采用无监督的学习方式还是有监督的学习方式,都是对大量网页样本进行学习,而不同的地区、不同领域、甚至不同网站之间的网页布局都可能不相同,因此,通过机器学习的方式在确定其网页布局的准确率较低、进而影响网页信息抽取的准确率。
技术实现思路
本公开的目的是提供一种页面内容提取方法、模板的生成方法及装置、介质及设备。为了实现上述目的,根据本公开的第一方面,提供一种页面内容提取模板的生成方法,所述方法包括:根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。可选地,所述根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,包括以下中的至少一者:将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。可选地,在确定出所述第一特征路径之后,所述方法还包括:将所述第一特征路径上的至少一个节点分别作为目标节点,执行如下操作:确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板,包括:根据所述第一特征路径和所述第二特征路径,生成与当前页面分组对应的页面内容提取模板。可选地,当两条或更多条候选路径的子节点之间的相似度参数表征这些子节点之间相似时,确定所述两条或更多条候选路径能够被合并。可选地,对路径进行合并具体为对路径上的同级节点逐一进行合并,且针对任一级节点,该级节点合并所得节点的路径表示为该级节点的路径表示中,能够代表最多数量的同级节点的路径表示;以及,若该级节点为文本型节点,则该级节点合并所得节点的文本为该级节点的文本的集合。可选地,在所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板的步骤之后,所述方法还包括:获取校验页面集合;将在所述校验页面集合下的各个页面中均出现的节点确定为校验节点;获取校验节点集合,所述校验节点集合包括至少一个所述校验节点;在确定除当前页面分组之外的其他页面分组下的各页面中都不包含所述校验节点集合时,将所述校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面内容提取模板。可选地,所述校验页面集合包括当前页面分组中除第一页面之外的页面,所述第一页面为其中孤立节点占该页面节点总数的比例超过第二阈值的页面,所述孤立节点包括第一节点和第二节点,所述第一节点为该页面中未与当前页面分组下的其他页面中的节点进行过路径合并的节点,所述第二节点为该页面中与当前页面分组下的其他页面中的节点进行过路径合并、但合并节点总数与当前页面分组下的dom树总数的比值低于第三阈值的节点,所述合并节点总数为包括该第二节点和与该第二节点进行合并的节点在内的节点的数量。根据本公开的第二方面,提供一种页面内容提取方法,所述方法包括:获取待提取页面;将所述待提取页面与页面内容提取模板进行匹配,其中,所述页面内容提取模板是通过上述第一方面任一的页面内容提取模板的生成方法所生成的;在确定所述待提取页面与所述页面内容提取模板匹配成功时,根据所述页面内容提取模板,对所述待提取页面进行页面内容提取。可选地,所述将所述待提取页面与页面内容提取模板进行匹配,包括:生成所述待提取页面的dom树;根据所述待提取页面的dom树,将所述待提取页面与所述页面内容提取模板的关键节点进行匹配,其中,所述关键节点用于唯一表示所述页面内容提取模板;在确定所述待提取页面与所述关键节点匹配成功时,确定所述待提取页面与所述页面内容提取模板匹配成功。根据本公开的第三方面,提供一种页面内容提取模板的生成装置,所述装置包括:分组模块,用于根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;第一生成模块,用于针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;第二生成模块,用于针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。可选地,所述第二生成模块,包括以下中的至少一者:第一合并子模块,用于将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;第二合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;第三合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。可选地,所述装置还包括:第一确定模块,用于在确定出所述第一特征路径之后,将所述第一特征路径上的至少一个节点分别作为目标节点,确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;第二确定模块,用于当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定本文档来自技高网...

【技术保护点】
1.一种页面内容提取模板的生成方法,其特征在于,所述方法包括:根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。

【技术特征摘要】
1.一种页面内容提取模板的生成方法,其特征在于,所述方法包括:根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。2.根据权利要求1所述的方法,其特征在于,所述根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,包括以下中的至少一者:将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。3.根据权利要求1所述的方法,其特征在于,在确定出所述第一特征路径之后,所述方法还包括:将所述第一特征路径上的至少一个节点分别作为目标节点,执行如下操作:确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板,包括:根据所述第一特征路径和所述第二特征路径,生成与当前页面分组对应的页面内容提取模板。4.根据权利要求3所述的方法,其特征在于,当两条或更多条候选路径的子节点之间的相似度参数表征这些子节点之间相似时,确定所述两条或更多条候选路径能够被合并。5.根据权利要求2-4中任一项所述的方法,其特征在于,对路径进行合并具体为对路径上的同级节点逐一进行合并,且针对任一级节点,该级节点合并所得节点的路径表示为该级节点的路径表示中,能够代表最多数量的同级节点的路径表示;以及,若该级节点为文本型节点,则该级节点合并所得节点的文本为该级节点的文本的集合。6.根据权利要求2-4中任一项所述的方法,其特征在于,在所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板的步骤之后,所述方法还包括:获取校验页面集合;将在所述校验页面集合下的各个页面中均出现的节点确定为校验节点;获取校验节点集合,所述校验节点集合包括至少一个所述校验节点;在确定除当前页面分组之外的其他页面分组下的各页面中都不包含所述校验节点集合时,将所述校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面内容提取模板...

【专利技术属性】
技术研发人员:张文豪
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1