一种关键页面的确定方法及装置制造方法及图纸

技术编号:15128223 阅读:128 留言:0更新日期:2017-04-10 07:27
本发明专利技术公开了一种关键页面的确定方法及装置,可针对任一站点,获取该站点中的所有有效链接以及所有有效链接之间的父子关系;以及,针对每一有效链接,根据得到的父子关系,确定所述有效链接的关键度相关参数,并根据各关键度相关参数以及其所对应的权重,计算所述有效链接的关键度;最后,将确定的至少一个关键度不小于设定阈值的有效链接所分别对应的页面作为该站点的关键页面。即,通过设置与链接的重要性相关的参数以及各参数所对应的权重,为关键页面的确定提供直接的量化指标,从而可自动、定量地计算站点中各页面的关键度,使得关键页面的确定以及选取更加准确、灵活,并减少了手动配置关键页面等的工作量,提高了确定关键页面的效率。

【技术实现步骤摘要】

本专利技术涉及互联网领域,尤其涉及一种关键页面的确定方法及装置
技术介绍
对于一个站点而言,根据页面类型和等级可以将该站点中的所有页面分为:关键页面、过程页面和结果页面。通常,主页、导航页是一个站点的关键页面,而串联这些关键页面之间的页面,如注册、注册引导页面,就是过程页面,结果页面则是用户行为的结束页面,如注册成功、订阅成功、域名过期、及搜索结果不存在页面等。一个站点的关键页面对于该站点而言,不但拥有最高的曝光度,而且是搜索引擎导入流量的入口。因而,对于监控、扫描服务等业务,就需要重点关注站点的关键页面的访问响应速度、是否被篡改、有无挂马等情况。因而,如何获取一个站点的关键页面,就成为这些服务的实施基础。目前,一般基于用户手动配置来确定站点的关键页面;或者根据页面内的链接数确定关键页面,如,链接数较多的就是关键页面等。但是,由于用户手动配置关键页面需要人工参与,准确性虽然较高,但存在灵活度较差的问题,使得用户体验度并不佳;而根据页面内链接数的多少确定关键页面容易出现误判,例如,一个罗列了很多下载链接或友情链接的无关紧要的页面,很容易被误判为关键页面。因此,亟需一种新的确定站点关键页面的方法,来解决现有的关键页面确定方式所存在的灵活性低,容易出现误判的问题。
技术实现思路
本专利技术实施例提供了一种关键页面的确定方法及装置,用以解决现有的确定关键页面的方式所存在的灵活性低,容易出现误判的问题。>本专利技术实施例提供了一种关键页面的确定方法,所述方法包括:针对任一站点,获取所述站点中的所有有效链接以及所述所有有效链接之间的父子关系;针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的各用于表征所述有效链接的重要度的关键度相关参数,并根据确定的各关键度相关参数以及各关键度相关参数所对应的权重,采用加权求和的方式,计算所述有效链接的关键度;根据计算得到的各有效链接的关键度,确定所述站点中的对应的关键度不小于设定阈值的至少一个有效链接,并将确定的至少一个有效链接所分别对应的页面作为所述站点的关键页面。可选地,针对任一有效链接,所述有效链接的关键度相关参数包括:链接密度、链接深度、连通系数以及平均布局系数;则,针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的各用于表征所述有效链接的重要度的关键度相关参数,并根据确定的各关键度相关参数以及各关键度相关参数所对应的权重,采用加权求和的方式,计算所述有效链接的关键度,包括:针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的链接密度、链接深度、连通系数以及平均布局系数,并根据确定的所述有效链接的链接密度、链接深度、连通系数、平均布局系数,以及所述有效链接的链接密度、链接深度、连通系数、平均布局系数所分别对应的权重,采用加权求和的方式,计算所述有效链接的关键度。可选地,针对任一有效链接,通过以下公式确定所述任一有效链接的链接密度:Density(i)=count(i)Σi=1Ncount(i);]]>其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;N为所述站点中的所有有效链接的总个数,所述i、N为正整数,且,所述i的取值不大于所述N的取值;Density(i)为所述任一有效链接的链接密度;count(i)为所述任一有效链接在所述站点中出现的总次数。可选地,针对任一有效链接,通过以下公式确定所述任一有效链接的链接深度:Depth(i)=1counti(/′′)+counti(?′′);]]>其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;所述i为正整数,且,所述i的取值不大于所述站点中的所有有效链接的总个数;counti('/')为所述任一有效链接中分隔符出现的次数,counti('?')为所述任一有效链接中问号出现的次数。可选地,针对任一有效链接,通过以下公式确定所述任一有效链接的连通系数:Connectivity(i)=min(in(i),out(i))max(in(i),out(i));]]>其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;所述i为正整数,且,所述i的取值不大于所述站点中的所有有效链接的总个数;in(i)为所述任一有效链接被所述站点中的其他有效链接引用的总次数,out(i)为所述任一有效链接引用所述站点中的其他有效链接的总次数。同样,可选地,针对任一有效链接,通过以下公式确定所述任一有效链接的平均布局系数:Layout(i)=Σk=1Mlayout(i,k)M;]]>其中,i为所述任一有效链接在所述站点的所有有效链接中的编号,M为所述站点中的引用所述任一有效链接的所有有效页面的总个数;所述i为正整数,且,所述i的取值不大于所述站点中的所有有效链接的总个数;所述k为正整数,且其取值不大于所述M的取值;layout(i,k)为所述任一有效链接i在引用所述任一有效链接i的所有有效页面中的编号为k的有效页面中的布局系数;其中,layout(i,k)=1-offsetk(i)Σj=1Toffsetk(j);]]>其中,T为引用所述任一有效链接i的编号为k的有效页面中的有效链接的总个数;offsetk(i)为在所述引用所述任一有效链接i的编号为k的有效页面中,所述任一有效链接i相对于该编号为k的有效页面的设定位置的空间位置偏移量;offsetk(j)为所述引用所述任一有效链接i的编号为k的有效页面中,第j个有效链接相对于该编号为k的有效页面的所述设定位置的空间位置偏移量。基于同样的专利技术构思,本专利技术实施例提供了一种关键页面的确定装置,所述装置包括:获取单元,用于针对任一站点,获取所述站点中的所有有效链接以及所述所有有效链接之间的父子关系;计算单元,用于针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的各用于表征所述有效链接的重要度的关键度相关参数,并根据确定的各关键度相关参数以及各关键度相关参数所对应的权重,采用加权求和的方式,计算所述有效链接的关键度;确定单元,用于根据计算得到的各有效链接的关键度,确定所述站点中的对应的关键度不小于设定阈值的至少一个有效链接,并将确定的至少一个有效链接所分别对应的页面作为所述站点的关键页面。可选地,针对任一有效链接,所述有效链接的关键度相关参数包括本文档来自技高网...

【技术保护点】
一种关键页面的确定方法,其特征在于,所述方法包括:针对任一站点,获取所述站点中的所有有效链接以及所述所有有效链接之间的父子关系;针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的各用于表征所述有效链接的重要度的关键度相关参数,并根据确定的各关键度相关参数以及各关键度相关参数所对应的权重,采用加权求和的方式,计算所述有效链接的关键度;根据计算得到的各有效链接的关键度,确定所述站点中的对应的关键度不小于设定阈值的至少一个有效链接,并将确定的至少一个有效链接所分别对应的页面作为所述站点的关键页面。

【技术特征摘要】
1.一种关键页面的确定方法,其特征在于,所述方法包括:
针对任一站点,获取所述站点中的所有有效链接以及所述所有有效链接之间的父子关
系;
针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定
所述有效链接的各用于表征所述有效链接的重要度的关键度相关参数,并根据确定的各关
键度相关参数以及各关键度相关参数所对应的权重,采用加权求和的方式,计算所述有效
链接的关键度;
根据计算得到的各有效链接的关键度,确定所述站点中的对应的关键度不小于设定阈
值的至少一个有效链接,并将确定的至少一个有效链接所分别对应的页面作为所述站点的
关键页面。
2.如权利要求1所述的方法,其特征在于,针对任一有效链接,所述有效链接的关键度
相关参数包括:链接密度、链接深度、连通系数以及平均布局系数;则,针对获取到的每一有
效链接,根据获取到的所述所有有效链接之间的父子关系,确定所述有效链接的各用于表
征所述有效链接的重要度的关键度相关参数,并根据确定的各关键度相关参数以及各关键
度相关参数所对应的权重,采用加权求和的方式,计算所述有效链接的关键度,包括:
针对获取到的每一有效链接,根据获取到的所述所有有效链接之间的父子关系,确定
所述有效链接的链接密度、链接深度、连通系数以及平均布局系数,并根据确定的所述有效
链接的链接密度、链接深度、连通系数、平均布局系数,以及所述有效链接的链接密度、链接
深度、连通系数、平均布局系数所分别对应的权重,采用加权求和的方式,计算所述有效链
接的关键度。
3.如权利要求2所述的方法,其特征在于,针对任一有效链接,通过以下公式确定所述
任一有效链接的链接密度:
Density(i)=count(i)Σi=1Ncount(i);]]>其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;N为所述站点中的
所有有效链接的总个数,所述i、N为正整数,且,所述i的取值不大于所述N的取值;Density
(i)为所述任一有效链接的链接密度;count(i)为所述任一有效链接在所述站点中出现的
总次数。
4.如权利要求2所述的方法,其特征在于,针对任一有效链接,通过以下公式确定所述
任一有效链接的链接深度:
Depth(i)=1counti(′/′)+counti(′?′);]]>其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;所述i为正整数,
且,所述i的取值不大于所述站点中的所有有效链接的总个数;counti('/')为所述任一有
效链接中分隔符出现的次数,counti('?')为所述任一有效链接中问号出现的次数。
5.如权利要求2所述的方法,其特征在于,针对任一有效链接,通过以下公式确定所述
任一有效链接的连通系数:
Connectivity(i)=min(in(i),out(i))max(in(i),out(i));]]>其中,i为所述任一有效链接在所述站点的所有有效链接中的编号;所述i为正整数,
且,所述i的取值不大于所述站点中的所有有效链接的总个数;in(i)为所述任一有效链接
被所述站点中的其他有效链接引用的总次数,out(i)为所述任一有效链接引用所述站点中
的其他有效链接的总次数。
6.如权利要求2所述的方法,其特征在于,针对任一有效链接,通过以下公式确定所述
任一有效链接的平均布局系数:
Layout(i)=Σk=1Mlayout(i,k)M;]]>其中,i为所述任一有效链接在所述站点的所有有效链接中的编号,M为所述站点中的
引用所述任一有效链接的所有有效页面的总个数;所述i为正整数,且,所述i的取值不大于
所述站点中的所有有效链接的总个数;所述k为正整数,且其取值不大于所述M的取值;
layout(i,k)为所述任一有效链接i在引用所述任一有效链接i的所有有效页面中的编号为
k的有效页面中的布局系数;
其中,layout(i,k)=1-offsetk(i)Σj=1Toffsetk(j);]]>其中,T为引用所述任一有效链接i的编号为k的有效页面中的有效链接的总个数;
offsetk(i)为在所述引用所述任一有效链接i的编号为k的有效页面中,所述任一有效链接
i相对于该编号为k的有效页面的设定位置的空间位置偏移量;offsetk(j)为所述引用所述
任一有效链接i的编号为k的有效页面中,第j个有效链接相对于该编号为k的有...

【专利技术属性】
技术研发人员:张龙郭洋洋李丹
申请(专利权)人:北京神州绿盟信息安全科技股份有限公司北京神州绿盟科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1