当前位置: 首页 > 专利查询>武汉大学专利>正文

基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法技术

技术编号:8682855 阅读:235 留言:0更新日期:2013-05-09 02:47
本发明专利技术提供一种基于主题共识覆盖率的网络社区垃圾信息自动检测与过滤方法,属于数据质量的研究范畴,涉及用户行为特征研究、网络信息质量评估、文本内容的特征值提取、文本分类模型的建立与优化等技术领域,主要针对网络社区垃圾信息尚无有效的自动检测与过滤机制的情况,建立了垃圾信息检测模型,根据主贴内容和正常回复内容构建了主题趋同性约束关系,提出了待检测内容的主题共识覆盖率特征值并将其运用到文本分类器,从而实现了网络社区垃圾信息的自动检测与过滤。本方法可广泛应用于网络社区质量管理中的各类内容甄别问题,对无关广告、无效内容甚至恶意言论进行自动判断与清理,在一定程度上提高网络社区信息质量。

【技术实现步骤摘要】

本专利技术属于数据质量的研究领域,特别涉及一种。
技术介绍
主题共识:根据用户行为特征研究领域的一项重要结论,网络社区中针对同一主题进行交流的普通用户所发布的内容都与该主题相关,而存在不良意图的用户则会发布一些与主题无关的内容。J.M.Reagle 在其专著《GoodFaith Collaboration —The Cultureof Wikipedia))中分析指出,网络社区中发布各自不同观点的用户之所以能够围绕同一主题成功进行沟通交流,是因为彼此之间具有对该主题的基本共识,并且相信与自己交流的对方也同样会根据这一基本共识发布回复内容[I]。而行业内最大的网络共建社区维基百科的发起人JimGiles也承认,维基百科是一个基于主题共识而建立的网站[2]。这些用户行为特征研究领域的相关成果为本项目提出的方法提供了理论基础。一般的,在网络社区中,一个主贴及其对应的所有回复贴应当围绕着同一主题共识进行交流。文本内容的特征值与特征向量:一段文本内容可以用它的一些属性来表示其特征,这些可以用来标识文本内容的特征属性,被称为文本内容的特征值[3]。文本所包含的字词集合、词频、词序等,都属于该文本内容的特征值。将一段文本内容以一组特征值所组成的特征向量来表示,是利用计算机进行文本挖掘得以实施的基础。词袋算法:词袋算法是将文本内容用不同词汇的出现次数组成的向量进行的数学化表示的一种方法[4]。其主要思路是:以全部文本内容中所出现的全部词汇集合作为词典,以词典里各个词汇在某段文本内容中的出现次数(即词频)作为元素,将所有词汇所对应的元素组合起来成为一个数学向量,使得这个数学向量能够表示该段文本内容的词汇与词频特征,从而得到这段文本内容的词频向量。由于传统的词袋算法没有考虑词汇之间的顺序而导致词序这一重要文本标识信息丢失,因此本项目将在词汇单元的基础上,利用双词汇串作为基本的词袋单元[5],从而在词袋算法中引入对词汇顺序的考虑,对各段文本内容建立标识更为准确的词频向量。此处需要注意的是,在词袋算法中,由于词典的大小是固定的,因此即使是不同的文本内容,其对应的词频向量长度也是相同的。文本分类:文本分类,其方法可以归结为根据待分类数据的某些特征来进行匹配,是数据挖掘相关研究中的一项重要内容。文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。目前较为通用的文本分类方法是基于机器学习理论的方法。统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),再由计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。训练完成之后再对待检测的文档进行分类时,便使用这些分类器来进行。主流的机器学习方法包括决策树[6],Na’ive Bayes [7],神经网络,支持向量机(SVM) [8],线性最小平方拟合[9],k-NN,遗传算法,最大熵[10]等。本项目主要采用支持向量机(SVM)算法来建立文本分类模型,判断待检测的文本内容是否为垃圾信息需要过滤。网络社区垃圾信息的检测与过滤:目前的网络社区垃圾检测算法一般会考察待发布内容的一些基本特征或者固定模式,如文本的长度、敏感词数量、作者可信度等。Potthast等人针对编辑内容(包括文本、结构、链接、多媒体)和编辑操作(插入、替换及删除)的特征,采用了逻辑回归模型来检测无效的编辑内容[11]。Smets等学者用部分匹配的压缩模型对Wikipedia社区中一个小时出现的新增内容进行分类,并查验其中的垃圾信息。而SiCh1.Chin等人用的则是统计语言模型[13]。除此之外,West等研究者用到了网页的meta数据,根据作者的声誉来估计新发布内容的可信度,其中作者的声誉是通过发帖频率、发帖位置和注册信息来度量的[14]。然而上述检测方法没有考虑到同一主题下发帖内容的趋同性,因此,对于那些发布内容与正常发帖相似因而显得较为隐蔽的垃圾信息,这些方法的检测准确率和召回率都不高。参考文献:[I]J.M.Reagle.Good Faith Collaboration—The Culture of Wikipedia(Webedition).The MIT Press, Cambridge, MA.2011.[2]Wikipedia, “Wikipedia, ”http://en.wikipedia.0rg/wiki/Wikipedia.Mar6th, 2010.[3](以)费尔德曼,(美)桑格.文本挖掘(英文版) 人民邮电出版社,I S BN:9787115205353, Aug.2009.[4] A.K.McCal lum.1996.Bow: a Toolkit for Statistical LanguageModeling, Text Retrieval, Classification and Clustering.Available at http://www.cs.emu.edu/ mccallum/bow.[5]Koen Smets, Bart Goethals, Brigitte Verdonk.Automatic VandalismDetection in ffikipedia:Towards a Machine Learning Approach.1n:2008Associationfor the Advancement ofArtificial Intelligence.(2008)[6]J.R, QUINLAN.1nduction of Decision Trees.MachineLearningl:81-106, Kluwer Academic Publishers, Boston, 1986.[7] Christopher D.Manning, Prabhakar Raghavan&Hinrich Schiitze.1ntroduction to Information Retrieval.Cambridge University Press.2008.Website:http://informationretrieval.0rg/.[8]张学工.关于统计学习理论与支持向量机.自动化学报,Vol.126,N0.1, Jan.2000.[9](美)Tom Mitchell.Machine Learning.1SBN: 9787111109938.机械工业出版社 2008-3[10]E.T.Jaynes.0n the Rationale of Maximum_Entropy Methods.Proceedingsofthe IEEE.Vol.70, N0.9, pp.939-9 52.Sep., 1982.[11]M.Pothast, B.Stein, R.Gerling.Automatic vandalism detection inffikipedia.Advances in Information Retrieval.2008本文档来自技高网...

【技术保护点】
一种基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法,其特征在于,包括以下步骤:步骤1,数据准备:采集两组以上的围绕不同主题进行交流的主贴及相应的回复的文本内容,抽样其中部分组的主贴与回复作为训练集,其余作为待检测集,对训练集中的文本内容进行人工分类,判断回复的文本内容是否与各自的主贴内容相关,不相关的视为无效的垃圾内容,分类的结果作为训练数据集;步骤2,计算词频向量:运用词袋算法,将之前采集到的训练集和待检测集中的各个主贴和全部的回复内容全部以词频向量的形式表示;步骤3,聚合得到主题共识的词频向量:对训练集和待检测集中的各组主贴与回复,聚合各组中所有文本内容对应的词频向量,得到围绕各组内容主题的主题共识的词频向量;步骤4,计算特征值,组合特征向量:计算训练数据集和待检测集中各文本内容的文本特征值,将文本特征值组合起来形成与文本内容相对应的特征向量,文本特征值包括主题共识覆盖率和其他文本特征值,具体包括以下步骤,步骤4.1,计算主题共识覆盖率:以步骤3中聚合得到的主题共识的词频向量为基础,计算各文本内容的主题共识覆盖率;步骤4.2,计算其他文本特征值:其他文本特征值包括文本长度、文本信息熵、文本作者可信度、敏感词汇数量、包含链接数量中的一种或其组合;步骤4.3,组合主题共识覆盖率和各文本内容的其他文本特征值,形成特征向量;步骤5,训练文本分类器:采用以支持向量机模型为基础的文本内容分类器,用训练集中的各文本内容的特征向量作为样本输入,以步骤1中对这些文本内容的分类结果作为标准输出,对支持向量机分类器进行反复训练,直到分类器对训练样本的分类准确率达到95%以上;步骤6,文本分类,检测垃圾内容:对待检测集中的各文本内容进行分类,以待检测文本内容的特征向量作为输入,用步骤5中已调好参数的支持向量机分类器进行分类,判断该段待检测文本内容是否为垃圾信息。...

【技术特征摘要】
1.种基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法,其特征在于,包括以下步骤: 步骤1,数据准备:采集两组以上的围绕不同主题进行交流的主贴及相应的回复的文本内容,抽样其中部分组的主贴与回复作为训练集,其余作为待检测集,对训练集中的文本内容进行人工分类,判断回复的文本内容是否与各自的主贴内容相关,不相关的视为无效的垃圾内容,分类的结果作为训练数据集; 步骤2,计算词频向量:运用词袋算法,将之前采集到的训练集和待检测集中的各个主贴和全部的回复内容全部以词频向量的形式表示;步骤3,聚合得到主题共识的词频向量:对训练集和待检测集中的各组主贴与回复,聚合各组中所有文本内容对应的词频向量,得到围绕各组内容主题的主题共识的词频向量;步骤4,计算特征值,组合特征向量:计算训练数据集和待检测集中各文本内容的文本特征值,将文本特征值组合起来形成与文本内容相对应的特征向量,文本特征值包括主题共识覆盖率和其他文本特征值,具体包括以下步骤, 步骤4.1,计算主题共识覆盖率:以步骤3中聚合得到的主题共识的词频向量为基础,计算各文本内容的主题共识覆盖率; 步骤4.2,计算其他文本特征值:其他文本特征值包括文本长度、文本信息熵、文本作者可信度、敏感词汇数量、包含链接数量中的一种或其组合; 步骤4.3,组合主题共识覆盖率和各文本内容的其他文本特征值,形成特征向量; 步骤5,训练文本分类器:采用以支持向量机模型为基础的文本内容分类器,用训练集中的各文本内容的特征向量作为样本输入,以步骤I中对这些文本内容的分类结果作为标准输出,对支持向 量机分类器进行反复训练,直到分类器对训练样本的分类准确率达到95%以上; 步骤6,文本分类,检测垃圾内容:对待检测集中的各文本内容进行分类,以待检测文本内容的特征向量作为输入,用步骤5中已调好参数的支持向量机分类器进行分类,判断该段待检测文本内容是否为垃圾信息。2.据权利要求1所述的...

【专利技术属性】
技术研发人员:李石君汤小月余伟杨莎刘晶丁永刚胡亚慧王凯
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1