作弊站点的检测方法、装置以及用于作弊站点的检测装置制造方法及图纸

技术编号:21914089 阅读:23 留言:0更新日期:2019-08-21 12:28
本申请提供了作弊站点的检测方法、装置以及用于作弊站点的检测装置,其中,作弊站点的检测方法包括:从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征;依据所述页面特征表示的作弊规律构建作弊检测模型,所述作弊检测模型用于检测站点是否作弊;依据所述作弊检测模型对待检测站点是否作弊进行检测。采用本申请实施例,可以提高对站点的作弊检测结果的准确性。

Detection methods and devices of cheating sites and detection devices for cheating sites

【技术实现步骤摘要】
作弊站点的检测方法、装置以及用于作弊站点的检测装置
本申请涉及站点检测
,特别涉及一种作弊站点的检测方法、装置,一种用于作弊站点的检测装置,以及,一种计算机可读介质。
技术介绍
目前,随着用户使用互联网的次数越来越频繁,随之而生的站点作弊的情况也越来越多。站点作弊即是部分站点为了使本来不属于用户查询结果的网页也能出现在用户的查询结果中,这种情况可以称为站点作弊。一般情况下,用户查询到网页所属站点作弊,主要分为基于内容作弊、链接作弊、以及欺骗爬虫作弊等。现有技术中,一般对站点下的各网页进行分析,并依据分析结果来判断是否存在站点作弊的情况。
技术实现思路
专利技术人在研究过程中发现,现有技术在分析网页时,需要依赖于已经识别出的作弊站点所采用的作弊手段,而如果一个站点下的网页采用的是未分析过的一种作弊手段,则现有技术在判断该站点是否作弊的时候就不够准确;并且,对网页进行分析一般采用随机采样的方法,可能会将大量不具有代表性的网页也作为分析对象,导致现有技术训练的作弊网页模型的精度和召回不足。专利技术人在研究过程中还发现,对于已知作弊网页,如果能够利用搜索引擎的历史搜索记录包括的、对该站点下网页进行检索的检索日志和进行访问的访问日志,从而利用已知作弊站点下被检索的检索结果网页以及访问网页的访问频率、对应的检索词等信息,来构建作弊检测模型,就使得该作弊检测模型能够反映出作弊站点的作弊规律,从而对其他站点进行更为准确的作弊检测;并且,因为建立作弊检测模型时基于用户在搜索引擎的检索日志和访问日志,所以基于从用户角度出发来建立模型就更具有统一性和代表性。基于此,本申请提供了一种作弊站点的检测方法,可以包括:从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征;依据所述页面特征表示的作弊规律构建作弊检测模型,所述作弊检测模型用于检测站点是否作弊;依据所述作弊检测模型对待检测站点是否作弊进行检测。其中,所述从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征,可以包括:获取所述已知作弊站点的检索日志和/或访问日志,所述检索日志包括:检索词和与所述检索词对应的检索结果页面,所述访问日志包括:用户的访问页面以及各访问页面的访问次数;提取所述检索结果页面和/或访问页面的文本特征和/或结构特征,作为所述页面特征。其中,所述提取所述检索结果页面和/或访问页面的文本特征和/或结构特征,作为所述页面特征,可以包括:从所述检索结果页面和/或访问页面中提取各页面的正文文本信息和/或标题文本信息,作为所述文本特征;以及从所述检索结果页面和/或访问页面中提取各页面的正文结构特征和标题结构特征,作为所述结构特征。其中,所述依据所述页面特征表示的作弊规律构建作弊检测模型,可以包括:将所述检索结果页面和/或访问页面的页面特征,分别转化为检索特征向量和/或访问特征向量;依据检索特征向量和/或访问特征向量,构建作弊检测模型。其中,所述依据所述作弊检测模型对待检测站点是否作弊进行检测,可以包括:获取待检测站点的待检测页面;提取所述待检测页面的待检测页面特征,并将所述待检测页面特征转换为所述待检测站点的待检测特征向量;依据所述待检测特征向量是否符合页面作弊规律,检测所述待检测站点是否为作弊站点。其中,所述已知作弊站点可以通过以下方式确定:获取待确定是否作弊的站点集合;对所述站点集合中的各站点进行聚类,得到聚类后的各类站点;以及将所述各类站点中人工标注结果为作弊的站点确定为所述已知作弊站点,所述人工标注结果用于表示所述各类站点是否为作弊站点。其中,所述方法还可以包括:对检测结果为作弊的待检测站点进行降权或者删除处理。本申请还提供了一种装置,用以保证上述方法在实际中的实现及应用。本申请实施例提供的一种作弊站点的检测装置,包括:提取单元,用于从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征;模型构建单元,用于依据所述页面特征表示的作弊规律构建作弊检测模型,所述作弊检测模型用于检测站点是否作弊;检测单元,用于依据所述作弊检测模型对待检测站点是否作弊进行检测。其中,所述提取单元可以包括:获取子单元,用于获取所述已知作弊站点的检索日志和/或访问日志,所述检索日志包括:检索词和与所述检索词对应的检索结果页面,所述访问日志包括:用户的访问页面以及各访问页面的访问次数;以及,提取子单元,用于提取所述检索结果页面和/或访问页面的文本特征和/或结构特征,作为所述页面特征。其中,所述提取子单元可以包括:信息提取子单元,用于从所述检索结果页面和/或访问页面中提取各页面的正文文本信息和/或标题文本信息,作为所述文本特征;以及结构提取子单元,用于从所述检索结果页面和/或访问页面中提取各页面的正文结构特征和标题结构特征,作为所述结构特征。其中,所述模型构建单元可以包括:转化子单元,用于将所述检索结果页面和/或访问页面的页面特征,分别转化为检索特征向量和/或访问特征向量;以及,构建子单元,用于依据检索特征向量和/或访问特征向量,构建作弊检测模型。其中,所述检测单元可以包括:获取子单元,用于获取待检测站点的待检测页面;提取子单元,用于提取所述待检测页面的待检测页面特征,并将所述待检测页面特征转换为所述待检测站点的待检测特征向量;检测子单元,用于依据所述待检测特征向量是否符合页面作弊规律,检测所述待检测站点是否为作弊站点。其中,所述已知作弊站点可以通过以下方式确定:获取待确定是否作弊的站点集合;对所述站点集合中的各站点进行聚类,得到聚类后的各类站点;将所述各类站点中人工标注结果为作弊的站点确定为所述已知作弊站点,所述人工标注结果用于表示所述各类站点是否为作弊站点。其中,所述装置还可以包括:作弊处理单元,用于对检测结果为作弊的待检测站点进行降权或者删除处理。本申请还提供了一种作弊站点的检测装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征;依据所述页面特征表示的作弊规律构建作弊检测模型,所述作弊检测模型用于检测站点是否作弊;依据所述作弊检测模型对待检测站点是否作弊进行检测。本申请还提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述的一个或多个所述的作弊站点的检测方法。其中,所述从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征,具体可以包括:获取所述已知作弊站点的检索日志和/或访问日志,所述检索日志包括:检索词和与所述检索词对应的检索结果页面,所述访问日志包括:用户的访问页面以及各访问页面的访问次数;以及提取所述检索结果页面和/或访问页面的文本特征和/或结构特征,作为所述页面特征。其中,所述提取所述检索结果页面和/或访问页面的文本特征和/或结构特征,作为所述页面特征,具体可以包括:从所述检索结果页面和/或访问页面中提取各页面的正文文本信息和/或标题文本信息,作为所述文本特征;以及从所述检索结果页面和/或访问页面中提取各页面的正文结构特征和标题本文档来自技高网...

【技术保护点】
1.一种作弊站点的检测方法,其特征在于,包括:从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征;依据所述页面特征表示的作弊规律构建作弊检测模型,所述作弊检测模型用于检测站点是否作弊;依据所述作弊检测模型对待检测站点是否作弊进行检测。

【技术特征摘要】
1.一种作弊站点的检测方法,其特征在于,包括:从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征;依据所述页面特征表示的作弊规律构建作弊检测模型,所述作弊检测模型用于检测站点是否作弊;依据所述作弊检测模型对待检测站点是否作弊进行检测。2.根据权利要求1所述的方法,其特征在于,所述从已知作弊站点的检索日志和/或访问日志中,提取所述已知作弊站点下页面的页面特征,包括:获取所述已知作弊站点的检索日志和/或访问日志,所述检索日志包括:检索词和与所述检索词对应的检索结果页面,所述访问日志包括:用户的访问页面以及各访问页面的访问次数;提取所述检索结果页面和/或访问页面的文本特征和/或结构特征,作为所述页面特征。3.根据权利要求2所述的方法,其特征在于,所述提取所述检索结果页面和/或访问页面的文本特征和/或结构特征,作为所述页面特征,包括:从所述检索结果页面和/或访问页面中提取各页面的正文文本信息和/或标题文本信息,作为所述文本特征;以及从所述检索结果页面和/或访问页面中提取各页面的正文结构特征和标题结构特征,作为所述结构特征。4.根据权利要求3所述的方法,其特征在于,所述依据所述页面特征表示的作弊规律构建作弊检测模型,包括:将所述检索结果页面和/或访问页面的页面特征,分别转化为检索特征向量和/或访问特征向量;依据检索特征向量和/或访问特征向量,构建作弊检测模型。5.根据权利要求4所述的方法,其特征在于,所述依据所述作弊检测模型对待检测站点是否作弊进行检测,包括:获取待检测站点的待检测页面;提取所述待检测页面的待检测页面特征,并将所述待检...

【专利技术属性】
技术研发人员:李健李毅许静芳
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1