基于动态贝叶斯模型的网页垃圾检测方法技术

技术编号:6841229 阅读:262 留言:0更新日期:2012-04-11 18:40
基于动态贝叶斯模型的网页垃圾检测方法涉及一种作弊网页检测的方法,主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模,对作弊网页进行判断和识别,搜索引擎查询日志记录了用户与搜索引擎的交互信息。它的内容包括查询词、搜索引擎返回的网址、用户点击的网址以及时间戳等信息。日志中被点击的网址及其点击顺序等信息反映了用户的喜好。本发明专利技术为日志点击行为建模,挖掘搜索引擎返回列表序列中网址之间的点击因果关系,从用户的角度说明了哪些网址是用户认为和查询词相关联的,得到从用户角度出发的网页与查询的相关性,它是一种隐含的回馈,从而使作弊网页的排名位置靠后,而相关网页的排名则靠前了。

【技术实现步骤摘要】

本专利技术涉及一种作弊网页检测的方法,主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模,对作弊网页进行判断和识别,属于信息安全领域。
技术介绍
搜索引擎是通向当今互联网的一座桥梁,是网民在海量的网页中找到自己感兴趣信息的工具。由于网络存在巨大的用户流量,这为广告提供了一个巨大的潜在市场。而网络广告高达3%以上的点击率可以使得这种潜在对象转变为现实的广告目标对象,进而导致直接或者间接的商品购买行为。相对于传统广告,这类广告的费用相对较低。于是,一大批急于打开市场而又苦于无法提供巨额广告费的中小厂商便成了网络广告的第一批客户。 而大量研究结果显示,用户在使用搜索引擎时只会浏览前几页的返回结果,对于商业网站而言,就某些查询占据靠前的排序,会给网站带来流量的大幅增加,流量的变大意味着更多的交易。因为强大的利润诱惑,搜索引擎优化行业犹如雨后春笋般在快速地发展。搜索引擎优化,是针对搜索引擎对网页的检索特点,让网站建设各项基本要素适合搜索引擎的检索原则,从而使搜索引擎收录尽可能多的网页,并在搜索引擎自然检索结果中排名靠前,最终达到网站推广的目的。追求高排名是搜索引擎优化师们的目标。通过了解本文档来自技高网...

【技术保护点】
1.一种基于动态贝叶斯模型的网页垃圾检测方法,其特征在于该方法分为三大部分:一.日志分析步骤11)收集网页点击日志;步骤12)对日志内容进行分析,提取其中的用户身份标识号码、查询词、结果排名、是否被点击、网址等信息;步骤13)按照每个查询词下所有的用户身份标识号码的个数进行降序排列,编号为0,1,2……;步骤14)对于每个查询词,以其对应的网址编号和是否被点击建立会话文件,二.采用期望最大化算法计算吸引度au和满意度su步骤21)初始化吸引度au和满意度su;步骤22)由条件独立性可推导出事件Ai,Si的后验概率,(math)??(mrow)?(mi)Q(/mi)?(mrow)?(mo)((/...

【技术特征摘要】

【专利技术属性】
技术研发人员:张卫丰常成成田先桃张迎周周国强许碧欢陆柳敏
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1