一种网页关键模块提取方法及装置制造方法及图纸

技术编号:21630107 阅读:26 留言:0更新日期:2019-07-17 11:28
本发明专利技术公开了一种网页关键模块提取方法及装置,通过获取目标网页中包含的有效链接,以及包含有效链接的标签,确定包含有效链接的标签的公共父网页模块,将公共父网页模块中包含有效链接数目最多的父网页模块,作为网页关键模块,从而可在缺少视觉特征的情况下,进行网页关键模块的提取。

A Method and Device for Extracting Key Modules of Web Pages

【技术实现步骤摘要】
一种网页关键模块提取方法及装置
本专利技术涉及互联网
,尤其涉及一种网页关键模块提取方法及装置。
技术介绍
在如今信息爆炸的时代,网络扮演着非常重要的角色,而网页上包含的信息内容也变得丰富复杂,例如在网页上可包含导航、标题、正文、时间、甚至广告等内容,在网页上各种类型的数据混杂在一起,这就给用户提取关键且有效的信息带来了一定的麻烦。现有技术中,为了能够在网页中抽取出有效的内容,往往需要对网页进行精细的分析,进而提取出页面上的关键信息。目前,在网页信息的提取中常采用的是基于视觉特征的网页信息提取。该网页信息提取采用的是基于视觉的页面分割(Vision-basedPageSegmentation,VIPS)算法,通过文档对象模型(DocumentObjectMode,DOM)树结构以及视觉特征提取网页的关键信息。具体的,通过视觉可以直观的判断出网页上各部分的内容,再根据DOM树结构判断节点是否可分,即判断网页上的各部分内容所对应的标签是否有子页面,对子页面进行划分,直至子页面不可继续划分为止,则将视觉上可直接看到的部分信息作为关键信息提取出来。如果视觉上不可以直观的得出网页上的关键信息,那么就无法提取出网页上的关键信息。
技术实现思路
本专利技术的目的是提供一种网页关键模块提取方法及装置,以解决在缺少视觉特征时,如何提取网页关键模块的问题。本专利技术的目的是通过以下技术方案实现的:本专利技术一方面提供了一种网页关键模块提取方法,包括:获取目标网页中包含的有效链接,以及包含所述有效链接的标签,所述有效链接为指向网页内部的详情页链接;确定包含所述有效链接的标签的公共父网页模块;将所述公共父网页模块中包含所述有效链接数目最多的父网页模块,作为所述网页关键模块。可选的,所述获取目标网页中包含的有效链接,以及包含所述有效链接的标签,包括:获取目标网页中直接包含链接的所有标签;在所述所有标签直接包含的链接中删除无效链接,得到目标网页中包含的有效链接;在所述所有标签中删除所述无效链接对应的标签,得到包含所述有效链接的标签。可选的,所述无效链接包括如下链接中的至少一项:域名与网页的域名不一致的链接;包含有预先设定关键词的链接;其中,所述关键词为非详情页链接常用关键词表中的关键词和无用链接常用关键词表中的关键词。可选的,所述确定包含所述有效链接的标签的公共父网页模块,包括:获取包含所述有效链接的标签中每个标签的父网页模块;将各标签的父网页模块两两组合,并针对每个组合分别确定所述组合中每个标签的祖先网页模块之间是否存在祖先-后代关系,所述祖先网页模块为组合中包括的父网页模块的父网页模块;若所述组合中每个标签的祖先网页模块之间存在祖先-后代关系,则将作为祖先的祖先网页模块作为公共父网页模块;若所述组合中每个标签的祖先网页模块之间不存在祖先-后代关系,且祖先网页模块相同,则对该组合中包括的父网页模块与其祖先网页模块下包括的各父网页模块进行层次聚类,并将聚类后的各父网页模块的最小公共父网页模块作为公共父网页模块。可选的,所述对该组合中包括的父网页模块与其祖先网页模块下包括的各父网页模块进行层次聚类之前,所述方法还包括:获取所述组合中包括的各父网页模块节点所对应的父网页模块节点链;确定各父网页模块节点所对应的父网页模块节点链的最小公共父网页模块节点;确定所述各网页模块节点到所述最小公共父网页模块节点之间的相对路径,并确定所述相对路径上的节点名称;根据所述相对路径上的节点名称相似度,确定所述组合中的各父网页模块相似且可聚。本专利技术另一方面提供了一种网页关键模块提取装置,包括:获取单元,用于获取目标网页中包含的有效链接,以及包含所述有效链接的标签,所述有效链接为指向网页内部的详情页链接;处理单元,用于确定包含所述有效链接的标签的公共父网页模块,并将所述公共父网页模块中包含所述有效链接数目最多的父网页模块,作为所述网页关键模块。可选的,所述获取单元用于按如下方式获取目标网页中包含的有效链接,以及包含所述有效链接的标签:获取目标网页中直接包含链接的所有标签;在所述所有标签直接包含的链接中删除无效链接,得到目标网页中包含的有效链接;在所述所有标签中删除所述无效链接对应的标签,得到包含所述有效链接的标签。可选的,所述无效链接包括如下链接中的至少一项:域名与网页的域名不一致的链接;包含有预先设定关键词的链接;其中,所述关键词为非详情页链接常用关键词表中的关键词和无用链接常用关键词表中的关键词。可选的,所述处理单元具体用于按入下方式处理包含所述有效链接的标签的公共父网页模块:获取包含所述有效链接的标签中每个标签的父网页模块;将各标签的父网页模块两两组合,并针对每个组合分别确定所述组合中每个标签的祖先网页模块之间是否存在祖先-后代关系,所述祖先网页模块为组合中包括的父网页模块的父网页模块;若所述组合中每个标签的祖先网页模块之间存在祖先-后代关系,则将作为祖先的祖先网页模块作为公共父网页模块;若所述组合中每个标签的祖先网页模块之间不存在祖先-后代关系,且祖先网页模块相同,则对该组合中包括的父网页模块与其祖先网页模块下包括的各父网页模块进行层次聚类,并将聚类后的各父网页模块的最小公共父网页模块作为公共父网页模块。可选的,所述获取单元还用于:获取所述组合中包括的各父网页模块节点所对应的父网页模块节点链;所述处理单元还用于:确定获取单元获取到的各父网页模块节点所对应的父网页模块节点链的最小公共父网页模块节点;确定所述各网页模块节点到所述最小公共父网页模块节点之间的相对路径,并确定所述相对路径上的节点名称;根据所述相对路径上的节点名称相似度,确定所述组合中的各父网页模块相似且可聚。本专利技术还提供了一种网页关键模块提取设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述程序时实现如上述所述的网页关键模块提取方法。本专利技术还提供了一种计算机存储介质,所述计算机存储介质上存储有程序指令,该程序指令被处理器执行时,用于实现如上述所述的网页关键模块提取方法。本专利技术提供的网页关键模块提取方法及装置中,通过获取目标网页中包含的有效链接,以及包含有效链接的标签,确定包含有效链接的标签的公共父网页模块,将公共父网页模块中包含有效链接数目最多的父网页模块,作为网页关键模块,从而可在缺少视觉特征的情况下,进行网页关键模块的提取。附图说明图1为本专利技术实施例提供的一种网页关键模块提取方法流程图;图2为获取目标网页中包含的有效链接,以及包含有效链接的标签的实施流程图;图3为本专利技术实施例提供的确定包含所述有效链接的标签的公共父网页模块的实施流程图;图4为本专利技术实施例提供的如何确定对该组合中包括的父网页模块进行层次聚类的方法实施流程图;图5为本专利技术实施例提供的DOM树节点的示意图;图6为本专利技术实施例提供的一种网页关键模块提取装置的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,并不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的网页关键模块提取方法及装置,本文档来自技高网...

【技术保护点】
1.一种网页关键模块提取方法,其特征在于,包括:获取目标网页中包含的有效链接,以及包含所述有效链接的标签,所述有效链接为指向网页内部的详情页链接;确定包含所述有效链接的标签的公共父网页模块;将所述公共父网页模块中包含所述有效链接数目最多的父网页模块,作为所述网页关键模块。

【技术特征摘要】
1.一种网页关键模块提取方法,其特征在于,包括:获取目标网页中包含的有效链接,以及包含所述有效链接的标签,所述有效链接为指向网页内部的详情页链接;确定包含所述有效链接的标签的公共父网页模块;将所述公共父网页模块中包含所述有效链接数目最多的父网页模块,作为所述网页关键模块。2.如权利要求1所述的方法,其特征在于,所述获取目标网页中包含的有效链接,以及包含所述有效链接的标签,包括:获取目标网页中直接包含链接的所有标签;在所述所有标签直接包含的链接中删除无效链接,得到目标网页中包含的有效链接;在所述所有标签中删除所述无效链接对应的标签,得到包含所述有效链接的标签。3.如权利要求2所述的方法,其特征在于,所述无效链接包括如下链接中的至少一项:域名与网页的域名不一致的链接;包含有预先设定关键词的链接;其中,所述关键词为非详情页链接常用关键词表中的关键词和无用链接常用关键词表中的关键词。4.如权利要求1至3任一项所述的方法,其特征在于,所述确定包含所述有效链接的标签的公共父网页模块,包括:获取包含所述有效链接的标签中每个标签的父网页模块;将各标签的父网页模块两两组合,并针对每个组合分别确定所述组合中的每个标签的祖先网页模块之间是否存在祖先-后代关系,所述祖先网页模块为组合中包括的父网页模块的父网页模块;若所述组合中每个标签的祖先网页模块之间存在祖先-后代关系,则将作为祖先的祖先网页模块作为公共父网页模块;若所述组合中每个标签的祖先网页模块之间不存在祖先-后代关系,且祖先网页模块相同,则对该组合中包括的父网页模块与其祖先网页模块下包括的各父网页模块进行层次聚类,并将聚类后的各父网页模块的最小公共父网页模块作为公共父网页模块。5.如权利要求4所述的方法,其特征在于,所述对该组合中包括的父网页模块与其祖先网页模块下包括的各父网页模块进行层次聚类之前,所述方法还包括:获取所述组合中包括的各父网页模块节点所对应的父网页模块节点链;确定各父网页模块节点所对应的父网页模块节点链的最小公共父网页模块节点;确定所述各网页模块节点到所述最小公共父网页模块节点之间的相对路径,并确定所述相对路径上的节点名称;根据所述相对路径上的节点名称相似度,确定所述组合中的各父网页模块相似且可聚。6.一种网页关键模块提取装置,其特征在于,包括:获取单元,用于获取目标网页中包含的有效链接,以及包含所述有效链接的标签,所述有效链接为指向网页内部的详情页链接;处理单元,用于确定包含所述有...

【专利技术属性】
技术研发人员:初光磊丁彬段盼盼李学环齐骥钱岭吴昊天邱雨王瑶
申请(专利权)人:中移苏州软件技术有限公司中国移动通信集团公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1