用于识别作弊网站的方法、装置、电子设备和介质制造方法及图纸

技术编号:31315903 阅读:26 留言:0更新日期:2021-12-12 23:53
本公开的实施例公开了一种用于识别作弊网站的方法、装置、电子设备和介质。本公开实施例涉及互联网领域,具体涉及作弊网站识别技术。本公开的实施例的方法包括:对于至少一个网页中的每个网页,基于该网页中的存在的至少一个外链的返回码确定该网页的网页稳定性参数;基于所述至少一个网页的网页稳定性参数分别确定所述至少一个网页所属的至少一个站点的站点稳定性参数;以及对于所述至少一个站点中的每个站点,基于该站点的站点稳定性参数确定该站点是否属于作弊网站。利用本公开提供的实施例,能够基于与站点关联的网页页面中外链的稳定性获取站点粒度的稳定性,并基于站点粒度的稳定性确定网站是否属于作弊网站。度的稳定性确定网站是否属于作弊网站。度的稳定性确定网站是否属于作弊网站。

【技术实现步骤摘要】
用于识别作弊网站的方法、装置、电子设备和介质


[0001]本公开实施例涉及互联网领域,具体涉及作弊网站识别技术,具体涉及用于识别作弊网站的方法、装置、电子设备以及存储介质。

技术介绍

[0002]作弊网站(诸如低质网站、黑灰产站点等)的存在会影响搜索引擎的搜索质量。这样的作弊网站会通过各种各样的方式在搜索引擎的工作过程中进行欺骗,以期望从搜索引擎获取流量入口。因此,对于作弊网站的有效识别能够提高搜索引擎的搜索服务质量。

技术实现思路

[0003]根据本公开示例性实施例的一个方面,提供了一种用于识别作弊网站的方法,包括:对于至少一个网页中的每个网页,基于该网页中的存在的至少一个外链的返回码确定该网页的网页稳定性参数;基于所述至少一个网页的网页稳定性参数分别确定所述至少一个网页所属的至少一个站点的站点稳定性参数;以及对于所述至少一个站点中的每个站点,基于该站点的站点稳定性参数确定该站点是否属于作弊网站。
[0004]根据本公开示例性实施例的另一个方面,提供了一种用于识别作弊网站的装置,包括:网页稳定性确定单元,配置成对于至少本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于识别作弊网站的方法,包括:对于至少一个网页中的每个网页,基于该网页中的存在的至少一个外链的返回码确定该网页的网页稳定性参数;基于所述至少一个网页的网页稳定性参数分别确定所述至少一个网页所属的至少一个站点的站点稳定性参数;以及对于所述至少一个站点中的每个站点,基于该站点的站点稳定性参数确定该站点是否属于作弊网站。2.如权利要求1所述的方法,其中,确定所述至少一个网页所属的至少一个站点的站点稳定性参数包括:对于所述至少一个网页中的每个网页,基于该网页的统一资源定位符确定该网页所属的站点;对于所述至少一个站点中的每个站点,基于属于该站点的网页的网页稳定性参数确定该站点的站点稳定性参数。3.如权利要求2所述的方法,基于所述至少一个网页中属于该站点的网页的网页稳定性参数确定该站点的站点稳定性参数包括:合并属于该站点的网页的网页稳定性参数作为该站点的站点稳定性参数。4.如权利要求1

3中任一项所述的方法,其中,确定该网页的网页稳定性参数包括:对于该网页中存在的至少一个外链中的每个外链,确定该外链的返回码;基于以下各项中的至少一项确定该网页的网页稳定性参数:该网页中的外链数量;该网页中具有不稳定类型的返回码的不稳定外链数量。5.如权利要求4所述的方法,其中,确定该网页的网页稳定性参数包括:确定第一外链类型的外链的第一外链数量、第一外链类型的外链中具有不稳定类型的返回码的第一不稳定外链数量中至少一项,以及确定第二外链类型的外链的第二外链数量、第二外链类型的外链中具有不稳定类型的返回码的第二不稳定外链数量中的至少一项。6.如权利要求4所述的方法,其中,确定该网页中具有不稳定类型的返回码的不稳定外链数量包括以下各项中的至少一项:确定该网页中存在的至少一个外链中具有第一不稳定类型的返回码的第一类型外链数量,所述第一不稳定类型的返回码指示外链渲染未成功响应;确定该网页中存在的至少一个外链中具有第二不稳定类型的返回码的第二类型外链数量,所述第二不稳定类型的返回码指示重定向或请求错误或服务器错误;确定该网页中存在的至少一个外链中具有第三不稳定类型的返回码的第三类型外链数量,所述第三不稳定类型的返回码指示服务器错误。7.如权利要求4所述的方法,其中,对于该网页中存在的至少一个外链,确定该外链的返回码包括:获取搜索引擎对该网页的渲染日志;从所述渲染日志中获取该网页中存在的至少一个外链中每个外链的外链...

【专利技术属性】
技术研发人员:杨国强刘伟余文利陈由之王鹏张博
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1