确定权威网页的方式及装置制造方法及图纸

技术编号:15704847 阅读:268 留言:0更新日期:2017-06-26 10:00
本发明专利技术提供了一种确定权威网页的方式及装置,包括:获取互联网中的多个首页的统一资源定位符;对多个首页的统一资源定位符进行聚类处理;基于聚类结果从多个首页中确定权威网页。本发明专利技术的技术方案解决了如何从大量的网页信息中定位到权威网页的问题。本发明专利技术的技术方案依据主域和泛域对互联网中的多个首页的统一资源定位符进行分类,并根据类别的不同进行不同的从多个首页的统一资源定位符筛选权威网页。另外,基于用户对统一资源定位符对应的网页的关注度高低判断出的该统一资源定位符对应的网页是否为权威网页的可靠性较高。从而提高了从大量的网页信息中筛选出权威网页的筛选效率。

【技术实现步骤摘要】
确定权威网页的方式及装置
本专利技术涉及计算机
,具体而言,本专利技术涉及确定权威网页的方式及装置。
技术介绍
在互联网中充斥着大量的网页信息,网页信息方便了人们的生活,但是,由于网页信息的来源多样,且不具有较强的监管力度,会存在较多包含错误或恶意信息的网页;同时,由于恶意用户为了盗取权威网页的信誉度或者在私人网页加入恶意程序盗取点击该私人网页的其他用户的个人隐私和账号密码等,仿制同真正权威网页相似的私人网页,且私人网页的域名也可与权威网页的域名具有一定的相似度。因此,普通网民很难从海量网页中甄别出包含信息真实有效的网页。因此,如何从大量的网页信息中确定出权威网页是亟待解决的问题。
技术实现思路
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:本专利技术根据一个方面,提供了一种确定权威网页的方式,包括:获取互联网中的多个首页的统一资源定位符;对所述多个首页的统一资源定位符进行聚类处理;基于聚类结果从所述多个首页中确定权威网页。优选地,对所述多个首页的统一资源定位符进行聚类,具体包括:提取各个首页的统一资源定位符对应的主域;将对应同一主域的统一资源定位符聚合为同一类。优选地,基于聚类结果从所述多个首页中确定权威网页,具体包括:若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。优选地,所述用户关注度通过以下至少任一项来确定:首页的平均访问量;每次访问的平均浏览时长。优选地,基于聚类结果从所述多个首页中确定权威网页,具体包括:若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则将该类中的多个统一资源定位符对应的多个首页均确定为权威网页。优选地,所述权威网页为官网网页。本专利技术根据另一个方面,提供了一种确定权威网页的装置,包括:定位符获取模块,用于获取互联网中的多个首页的统一资源定位符;聚类处理模块,用于对所述多个首页的统一资源定位符进行聚类处理;权威网页确定模块,用于基于聚类结果从所述多个首页中确定权威网页。优选地,所述聚类处理模块具体包括:主域提取单元,用于提取各个首页的统一资源定位符对应的主域;聚合单元,用于将对应同一主域的统一资源定位符聚合为同一类。优选地,所述权威网页确定模块具体用于:若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。优选地,所述用户关注度通过以下至少任一项来确定:首页的平均访问量;每次访问的平均浏览时长。优选地,所述权威网页确定模块具体用于:若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则将该类中的多个统一资源定位符对应的多个首页均确定为权威网页。优选地,所述权威网页为官网网页。本专利技术的技术方案解决了如何从大量的网页信息中筛选确定出权威网页的问题。首先,获取互联网中的多个首页的统一资源定位符;接着,对多个首页的统一资源定位符进行聚类处理,聚类处理是对在互联网中获取的多个首页的统一资源定位符依照其共有的主域进行归类;最后,基于聚类结果从多个首页中确定权威网页,划分属于同一类的多个统一资源定位符的数量小于第一预定阈值的情形和属于同一类的多个统一资源定位符的数量大于第二预定阈值的泛域情形,根据不同情形和用户关注度筛选可靠性较高的权威网页。本专利技术的技术方案依据统一资源定位符对互联网中的多个首页进行聚类,并根据聚类结果从多个首页中筛选权威网页。本专利技术提高了从大量的网页信息中区分出权威网页的筛选准确率及筛选效率。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1所示是本专利技术实施例的确定权威网页的方式的流程示意图;图2所示是本专利技术实施例的确定权威网页的装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。图1所示是本专利技术实施例的确定权威网页的方式的流程示意图。权威网页为官网网页。一般官网提供的信息是比较权威的,那么可以认为官网提供的地址信息和名称信息一般也是正确的。官网,即官方网站,一般是指由某组织与个人建立的最具权威、最有公信力、或唯一指定网站,其最大的特点是权威。步骤S110:获取互联网中的多个首页的统一资源定位符;步骤S120:对多个首页的统一资源定位符进行聚类处理;步骤S130:基于聚类结果从多个首页中确定权威网页。步骤S110:获取互联网中的多个首页的统一资源定位符。其中,统一资源定位符即URL(UniformResoureLocator),URL是对在互联网上可以获得资源的位置和访问该资源的方法的一种简洁表示。在互联网中的服务器上存储的每个文件都有一个唯一的URL,它包括文件的位置信息和与浏览器处理该文件信息的方法的相关信息。如,“北京大学”的网站首页URL:http://www.pku.edu.cn/。具体地,通过网页蜘蛛等网页爬取工具,从互联网中爬取多个首页,并提取多个首页分别对应的URL。步骤S120:对多个首页的统一资源定位符进行聚类处理。其中,聚类处理是研究样品或指标分类的一种统计分析的方法,同时也是数据挖掘的一个重要过程。聚类是由多个模式组成的,通常,模式是一个度量的向量,或者是多维空间中的一个点。聚类处理以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。优选地,对多个首页的统一资源定位符进行聚类的步骤具体包括步骤S221(图中未标出)和步骤S222(图中未标出):步骤S221:提取各个首页的统一资源定位符对应的主域;步骤S222:将对应同一主域的统一资源定位符聚合为同一类。例如,“北京大学”的网站首页URL:http://www.pku.edu.cn/,提取其主域:pku.edu.cn。“北京大学冲刺班”的网站首页U本文档来自技高网
...
确定权威网页的方式及装置

【技术保护点】
一种确定权威网页的方式,其特征在于,包括:获取互联网中的多个首页的统一资源定位符;对所述多个首页的统一资源定位符进行聚类处理;基于聚类结果从所述多个首页中确定权威网页。

【技术特征摘要】
1.一种确定权威网页的方式,其特征在于,包括:获取互联网中的多个首页的统一资源定位符;对所述多个首页的统一资源定位符进行聚类处理;基于聚类结果从所述多个首页中确定权威网页。2.根据权利要求1所述的确定权威网页的方式,其中,对所述多个首页的统一资源定位符进行聚类,具体包括:提取各个首页的统一资源定位符对应的主域;将对应同一主域的统一资源定位符聚合为同一类。3.根据权利要求2所述的确定权威网页的方式,其中,基于聚类结果从所述多个首页中确定权威网页,具体包括:若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。4.根据权利要求3所述的确定权威网页的方式,其中,所述用户关注度通过以下至少任一项来确定:首页的平均访问量;每次访问的平均浏览时长。5.根据权利要求2所述的确定权威网页的方式,其中,基于聚类结果从所述多个首页中确定权威网页,具体包括:若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则将该类中的多个...

【专利技术属性】
技术研发人员:王智广魏少俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1