当前位置: 首页 > 专利查询>浙江大学专利>正文

一种垃圾博客检测方法技术

技术编号:2916942 阅读:232 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种垃圾博客检测方法。本发明专利技术是通过分析网络垃圾的作弊技术,针对垃圾博客的本质属性,运用二元分类的文本分类的技术,围绕博客文本内容特征、博客页面链接特征和博客文本时间分布特征等三个角度进行方法设计。本发明专利技术是建立在对博客网页内容全面分析的基础上,对博客的特征提取工作进行了优化,从而保证了对垃圾博客分类更高的准确率。

【技术实现步骤摘要】

本专利技术涉及博客,文本分类技术,特别是涉及一种垃圾博客检测方法
技术介绍
近年来,博客这一新生事物得到了蓬勃发展,由此产生了海量的博客信息。然而作为博客的副产品,垃圾博客也应运而生,其存在极大地浪费了网络的带宽和存储资源,增加了人们获取高质量信息的难度,同时也降低了网络用户对博客搜索体验的满意度。普通正常的博客具有两个特征:一是由简短而且经常更新的文章构成;二是所张贴的文章按照时间的倒序排列。而垃圾博客除了具备上述特征之外,同时还有着链接工厂特征和广告博客的特征。链接工厂特征是指垃圾博客页面通过堆砌大量热门或者毫无意义的关键字,并进而描述某些外部网站的超链接,通过超链接作弊和关键词作弊等技术,提升被链接网站的链接广度,从而达到提升垃圾博客页面在搜索引擎查询结果中排名的目的;广告博客特征是指以与链接工厂相类似的手法堆砌热门关键词,欺骗用户点击广告并从中牟利。目前,博客平台提供商处理垃圾博客的方式如下:通过主动监控或者他人举报等方式尽可能地收集网站内部垃圾博客链接,一旦确定便将其列入黑名单,最终通过技术手段进行屏蔽或者直接删除。这从源头上控制了垃圾博客的滋生蔓延。与此同时,国外也已经有相关组织建立了特定的网站和搜索引擎来积极应对垃圾博客。而对于博客搜索引擎而言,为了方便人们获取高质量的信息资源,也必须在索引数据库看中及时过滤垃圾博客,确保用户的查询结果列表中没有掺杂垃圾博客的信息。但是现有处理方法的不足之处就是对垃圾博客的特征选取不够,区分垃圾博客与正常博客的准确率不高。
技术实现思路
为了克服对垃圾博客的特征选取不够,区分垃圾博客与正常博客的准确率不高,本专利技术的目的在于提供一种垃圾博客检测方法。本专利技术解决其技术问题所采用的技术方案的步骤如下:1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断;-->2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价;3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断;4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。所述步骤1)中正文文本口语化属性是指就单篇文章而言,在文本分类中强化对口语化属性的判断,并以文本内容的口语化属性特征作为判断是否垃圾博客的特征。所述步骤1)中文本相似度属性是指就博客作者的所有博客文章而言,使用空间向量模型求余弦的方式,通过计算经过“简化”的各篇博客文章之间的文本相似度,对是否为垃圾博客进行判断,空间向量模型求余弦的计算公式如下:Sim(Di,Dj)=Σk=1mwik×wik(Σk=1mwik2)(Σk=1mwik2)]]>其中:D表示一篇文章;wik表示文章Di中的一个词条;m表示文章Di中的词条个数;Sim(Di,Dj)表示文章Di和Dj的相似程度。所述步骤1)中文本自关联属性是指,博客作者的在T时刻所发表的第l篇文章与之后的T’时刻发表的第(l+k)篇文章之间的关联程度。自关联函数公式定义如下:d(p(l),p(l+k))=1-E{|wf(l)∩wf(l+k)||wf(l)∪wf(l+k)|本文档来自技高网...

【技术保护点】
一种垃圾博客检测方法,其特征在于该方法的步骤如下: 1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断; 2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价; 3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断; 4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。

【技术特征摘要】
1.一种垃圾博客检测方法,其特征在于该方法的步骤如下:1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断;2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价;3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断;4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。2.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中正文文本口语化属性是指就单篇文章而言,在文本分类中强化对口语化属性的判断,并以文本内容的口语化属性特征作为判断是否垃圾博客的特征。3.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中文本相似度属...

【专利技术属性】
技术研发人员:陈纯卜佳俊张峰仇光郑淼
申请(专利权)人:浙江大学
类型:发明
国别省市:86[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1