确定权威网页的方式及装置制造方法及图纸

技术编号:15704847 阅读:313 留言:0更新日期:2017-06-26 10:00
本发明专利技术提供了一种确定权威网页的方式及装置,包括:获取互联网中的多个首页的统一资源定位符;对多个首页的统一资源定位符进行聚类处理;基于聚类结果从多个首页中确定权威网页。本发明专利技术的技术方案解决了如何从大量的网页信息中定位到权威网页的问题。本发明专利技术的技术方案依据主域和泛域对互联网中的多个首页的统一资源定位符进行分类,并根据类别的不同进行不同的从多个首页的统一资源定位符筛选权威网页。另外,基于用户对统一资源定位符对应的网页的关注度高低判断出的该统一资源定位符对应的网页是否为权威网页的可靠性较高。从而提高了从大量的网页信息中筛选出权威网页的筛选效率。

【技术实现步骤摘要】
确定权威网页的方式及装置
本专利技术涉及计算机
,具体而言,本专利技术涉及确定权威网页的方式及装置。
技术介绍
在互联网中充斥着大量的网页信息,网页信息方便了人们的生活,但是,由于网页信息的来源多样,且不具有较强的监管力度,会存在较多包含错误或恶意信息的网页;同时,由于恶意用户为了盗取权威网页的信誉度或者在私人网页加入恶意程序盗取点击该私人网页的其他用户的个人隐私和账号密码等,仿制同真正权威网页相似的私人网页,且私人网页的域名也可与权威网页的域名具有一定的相似度。因此,普通网民很难从海量网页中甄别出包含信息真实有效的网页。因此,如何从大量的网页信息中确定出权威网页是亟待解决的问题。
技术实现思路
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:本专利技术根据一个方面,提供了一种确定权威网页的方式,包括:获取互联网中的多个首页的统一资源定位符;对所述多个首页的统一资源定位符进行聚类处理;基于聚类结果从所述多个首页中确定权威网页。优选地,对所述多个首页的统一资源定位符进行聚类,具体包括:提取各个首页的统一资源定位符对应的主域;将对应同一主域的统一资源定位符聚合为同本文档来自技高网...
确定权威网页的方式及装置

【技术保护点】
一种确定权威网页的方式,其特征在于,包括:获取互联网中的多个首页的统一资源定位符;对所述多个首页的统一资源定位符进行聚类处理;基于聚类结果从所述多个首页中确定权威网页。

【技术特征摘要】
1.一种确定权威网页的方式,其特征在于,包括:获取互联网中的多个首页的统一资源定位符;对所述多个首页的统一资源定位符进行聚类处理;基于聚类结果从所述多个首页中确定权威网页。2.根据权利要求1所述的确定权威网页的方式,其中,对所述多个首页的统一资源定位符进行聚类,具体包括:提取各个首页的统一资源定位符对应的主域;将对应同一主域的统一资源定位符聚合为同一类。3.根据权利要求2所述的确定权威网页的方式,其中,基于聚类结果从所述多个首页中确定权威网页,具体包括:若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。4.根据权利要求3所述的确定权威网页的方式,其中,所述用户关注度通过以下至少任一项来确定:首页的平均访问量;每次访问的平均浏览时长。5.根据权利要求2所述的确定权威网页的方式,其中,基于聚类结果从所述多个首页中确定权威网页,具体包括:若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则将该类中的多个...

【专利技术属性】
技术研发人员:王智广魏少俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1