【技术实现步骤摘要】
本专利技术涉及博客,文本分类技术,特别是涉及一种垃圾博客检测方法。
技术介绍
近年来,博客这一新生事物得到了蓬勃发展,由此产生了海量的博客信息。然而作为博客的副产品,垃圾博客也应运而生,其存在极大地浪费了网络的带宽和存储资源,增加了人们获取高质量信息的难度,同时也降低了网络用户对博客搜索体验的满意度。普通正常的博客具有两个特征:一是由简短而且经常更新的文章构成;二是所张贴的文章按照时间的倒序排列。而垃圾博客除了具备上述特征之外,同时还有着链接工厂特征和广告博客的特征。链接工厂特征是指垃圾博客页面通过堆砌大量热门或者毫无意义的关键字,并进而描述某些外部网站的超链接,通过超链接作弊和关键词作弊等技术,提升被链接网站的链接广度,从而达到提升垃圾博客页面在搜索引擎查询结果中排名的目的;广告博客特征是指以与链接工厂相类似的手法堆砌热门关键词,欺骗用户点击广告并从中牟利。目前,博客平台提供商处理垃圾博客的方式如下:通过主动监控或者他人举报等方式尽可能地收集网站内部垃圾博客链接,一旦确定便将其列入黑名单,最终通过技术手段进行屏蔽或者直接删除。这从源头上控制了垃圾博客的滋生蔓延。与此同时,国外也已经有相关组织建立了特定的网站和搜索引擎来积极应对垃圾博客。而对于博客搜索引擎而言,为了方便人们获取高质量的信息资源,也必须在索引数据库看中及时过滤垃圾博客,确保用户的查询结果列表中没有掺杂垃圾博客的信息。但是现有处理方法的不足之处就是对垃圾博客的特征选取不够,区分垃圾博客与正常博客的准确率不高。
技术实现思路
为了克服对垃圾博客的特征选取不够,区分垃圾博客与正常博客的准确率不高,本 ...
【技术保护点】
一种垃圾博客检测方法,其特征在于该方法的步骤如下: 1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断; 2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价; 3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断; 4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。
【技术特征摘要】
1.一种垃圾博客检测方法,其特征在于该方法的步骤如下:1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断;2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价;3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断;4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。2.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中正文文本口语化属性是指就单篇文章而言,在文本分类中强化对口语化属性的判断,并以文本内容的口语化属性特征作为判断是否垃圾博客的特征。3.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中文本相似度属...
【专利技术属性】
技术研发人员:陈纯,卜佳俊,张峰,仇光,郑淼,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。