一种网页聚类方法及装置制造方法及图纸

技术编号:15437402 阅读:82 留言:0更新日期:2017-05-26 03:29
本发明专利技术公开了一种网页聚类方法及装置,用于实现按照网页框架对网页进行聚类,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。通过上述方法,可以将具有相同页面框架结构的网页聚为一类,从而克服了现有聚类方法无法根据网页框架进行聚类的问题,提供了一种更适用于涉及页面框架的处理过程的聚类方法。

Web page clustering method and device

The invention discloses a device and a method for realizing web page clustering, in accordance with the \framework\ of clustering, including obtaining multiple clustered page uniform resource locator URL; for each cluster to page URL, determine the URL rewrite rules and URL classification according to the rewrite rules for each URL; URL classification, determine the page frame corresponding to each of the URL URL in the classification of the page, and the page according to the frame corresponding to each URL page to determine whether URL can be different if the URL clustering; clustering, then keep the URL classification. By the above method, can have the same structure of the web page frame clustering, which overcomes the existing clustering methods cannot perform clustering based on web framework, clustering process provides a more suitable framework relates to the page.

【技术实现步骤摘要】
一种网页聚类方法及装置
本专利技术涉及计算机
,尤其涉及一种网页聚类方法及装置。
技术介绍
现有的网页聚类方法主要是基于网页文本特征的聚类,即提取关键内容或出现频率较高的词汇作为特征值进行聚类,从而将内容相似的页面聚为一类,这种聚类方法仅适用于如文本检索等文本处理方面可以明显提高处理效率。但是,网页除具备文本特征外,还具有包含超链接、内容半结构化、规模庞大、格式异构等特点,对于具有相同网页框架的同一类网页,其文本特征可能存在差异,即,根据网页的文本特征进行聚类并不能将相同框架的网页聚为一类,因此,根据网页文本特征聚类的方法在与网页框架有关的处理方面并不适用。相同框架的页面有着相同的业务流程或数据处理流程,若能够将相同框架的页面聚为一类,那么其中的一个页面就可以代表这一类页面。在针对大型框架类站点进行处理的应用,比如爬虫、站点地图、漏洞检测等方面,采用这种网页聚类技术,可以在保证结果全面的情况下,大大提高效率。因此,目前仍缺少一种可以按照网页框架结构对网页聚类的方法。
技术实现思路
本专利技术提供一种网页聚类方法及装置,用以解决现有技术中存在的不能按照网页框架对网页进行聚类的问题。本专利技术实施例提供一种网页聚类方法,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。可选地,针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类,包括:将多个待聚类页面的URL作为URL集合;根据URL集合中任意两个不同URL,提取两个不同URL的重写规则;确定两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从URL集合中查找符合可信重写规则的URL作为同一URL分类;从URL集合中删除同一URL分类中的URL,返回根据URL集合中任意两个不同的URL,提取两个不同URL的重写规则的步骤。可选地,根据URL集合中任意两个不同的URL,提取两个不同URL的重写规则,包括:从URL集合中提取第一URL和第二URL,确定第一URL和第二URL的重写规则;方法还包括:若第一URL和第二URL的重写规则为不可信的重写规则,则从URL集合中提取第三URL和第四URL,确定第三URL和第四URL的重写规则,并返回确定两个不同URL的重写规则是否可信重写规则的步骤,第三URL和第四URL中至少有一个为URL集合中除第一URL和第二URL之外的其它URL。可选地,通过以下方法判断重写规则是否可信,包括:若重写规则的表现形式为纯字母或纯数字,且纯字母或纯数字的位数不确定,则重写规则不可信。可选地,针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类,包括:针对各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言HTML文件;根据HTML文件中的标签信息,获取HTML文件的指纹特征值;对比各URL的指纹特征值之间的差值是否低于设定阈值;若低于设定阈值,则确定各URL为可聚类。可选地,根据HTML文件中的标签信息,获取HTML文件的指纹特征值,包括:从HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;依据各标签在HTML文件中的位置不同,确定各标签的位置权重值;根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值。可选地,根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值,包括:HTML文件中的位置包括头中尾各部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;标签的属性包括身份属性、类别属性和非典型属性,非典型属性为除身份属性和类别属性之外的属性,其中,身份属性的属性权重值高于非典型属性的属性权重值,类别属性的属性权重值高于非典型属性的属性权重值。本专利技术实施例提供一种网页聚类装置,包括:爬取模块,用于获取多个待聚类页面的统一资源定位符URL;分类模块,用于针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;判断模块,用于针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页面的页面框架确定各URL是否可聚类;若各URL可聚类,则保留该URL分类。可选地,分类模块具体用于:将多个待聚类页面的URL作为URL集合;根据URL集合中任意两个不同URL,提取两个不同URL的重写规则;确定两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从URL集合中查找符合可信重写规则的URL作为同一URL分类;从URL集合中删除同一URL分类中的URL,返回根据URL集合中任意两个不同的URL,提取两个不同URL的重写规则的步骤。可选地,分类模块具体还用于:从URL集合中提取第一URL和第二URL,确定第一URL和第二URL的重写规则;分类模块还用于:当第一URL和第二URL的重写规则为不可信的重写规则时,从URL集合中提取第三URL和第四URL,确定第三URL和第四URL的重写规则,并返回确定两个不同URL的重写规则是否可信重写规则的步骤,第三URL和第四URL中至少有一个为URL集合中除第一URL和第二URL之外的其它URL。可选地,分类模块通过以下方法判断重写规则是否可信,包括:若重写规则的表现形式为纯字母或纯数字,且纯字母或纯数字的位数不确定,则重写规则不可信。可选地,判断模块具体用于:针对各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言HTML文件;根据HTML文件中的标签信息,获取HTML文件的指纹特征值;对比各URL的指纹特征值之间的差值是否低于设定阈值;若低于设定阈值,则确定各URL为可聚类。可选地,判断模块具体用于:从HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;依据各标签在HTML文件中的位置不同,确定各标签的位置权重值;根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到HTML文件的指纹特征值。可选地,判断模块具体用于:将HTML文件中的位置包括头中尾三部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;标签的属性包括身份属性、类别属性和非典型属性,非典型属性为除身份属性和类别属性之外的属性,其中,身份属性的属性权重值高于非典型属性的属性权重值,类别属性的属性权重值高于非典型属性的属性权重值。综上所述,本专利技术实施例提供一种网页聚类方法及装置,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据各URL所对应的页本文档来自技高网...
一种网页聚类方法及装置

【技术保护点】
一种网页聚类方法,其特征在于,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据所述各URL所对应的页面的页面框架确定所述各URL是否可聚类;若所述各URL可聚类,则保留该URL分类。

【技术特征摘要】
1.一种网页聚类方法,其特征在于,包括:获取多个待聚类页面的统一资源定位符URL;针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类;针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据所述各URL所对应的页面的页面框架确定所述各URL是否可聚类;若所述各URL可聚类,则保留该URL分类。2.如权利要求1所述的方法,其特征在于,针对每个待聚类页面的URL,确定该URL的重写规则并按照该URL的重写规则进行URL分类,包括:将所述多个待聚类页面的URL作为URL集合;根据所述URL集合中任意两个不同URL,提取所述两个不同URL的重写规则;确定所述两个不同URL的重写规则是否为可信重写规则,若为可信重写规则,从所述URL集合中查找符合所述可信重写规则的URL作为同一URL分类;从所述URL集合中删除所述同一URL分类中的URL,返回根据所述URL集合中任意两个不同的URL,提取所述两个不同URL的重写规则的步骤。3.如权利要求2所述的方法,其特征在于,根据所述URL集合中任意两个不同的URL,提取所述两个不同URL的重写规则,包括:从所述URL集合中提取第一URL和第二URL,确定所述第一URL和所述第二URL的重写规则;所述方法还包括:若所述第一URL和所述第二URL的重写规则为不可信的重写规则,则从所述URL集合中提取第三URL和第四URL,确定所述第三URL和所述第四URL的重写规则,并返回确定所述两个不同URL的重写规则是否可信重写规则的步骤,所述第三URL和所述第四URL中至少有一个为所述URL集合中除所述第一URL和所述第二URL之外的其它URL。4.如权利要求1至3任一项所述的方法,其特征在于,针对每个URL分类,确定该URL分类中的各URL所对应的页面的页面框架,并根据所述各URL所对应的页面的页面框架确定所述各URL是否可聚类,包括:针对所述各URL分类中的每个URL,获取该URL所对应的页面的超文本标记语言HTML文件;根据所述HTML文件中的标签信息,获取所述HTML文件的指纹特征值;对比所述各URL的指纹特征值之间的差值是否低于设定阈值;若低于所述设定阈值,则确定所述各URL为可聚类。5.如权利要求4所述的方法,其特征在于,根据所述HTML文件中的标签信息,获取所述HTML文件的指纹特征值,包括:从所述HTML文件中提取各标签的属性值,不同属性对应具有各自的属性权重值;依据各标签在所述HTML文件中的位置不同,确定各标签的位置权重值;根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到所述HTML文件的指纹特征值。6.如权利要求5所述的方法,其特征在于,根据各标签的位置权重值、各标签中不同属性的属性值及属性权重值,得到所述HTML文件的指纹特征值,包括:所述HTML文件中的位置包括头中尾各部分,其中,头部位置的标签的位置权重高于中部位置的标签的位置权重,尾部位置的标签的位置权重高于中部位置的标签的位置权重;标签的属性包括身份属性、类别属性和非典型属性,所述非典型属性为...

【专利技术属性】
技术研发人员:郭洋洋刘少彬李菲李虎刘丽君
申请(专利权)人:北京神州绿盟信息安全科技股份有限公司北京神州绿盟科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1