当前位置: 首页 > 专利查询>武汉大学专利>正文

基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法技术

技术编号:8682855 阅读:238 留言:0更新日期:2013-05-09 02:47
本发明专利技术提供一种基于主题共识覆盖率的网络社区垃圾信息自动检测与过滤方法,属于数据质量的研究范畴,涉及用户行为特征研究、网络信息质量评估、文本内容的特征值提取、文本分类模型的建立与优化等技术领域,主要针对网络社区垃圾信息尚无有效的自动检测与过滤机制的情况,建立了垃圾信息检测模型,根据主贴内容和正常回复内容构建了主题趋同性约束关系,提出了待检测内容的主题共识覆盖率特征值并将其运用到文本分类器,从而实现了网络社区垃圾信息的自动检测与过滤。本方法可广泛应用于网络社区质量管理中的各类内容甄别问题,对无关广告、无效内容甚至恶意言论进行自动判断与清理,在一定程度上提高网络社区信息质量。

【技术实现步骤摘要】

本专利技术属于数据质量的研究领域,特别涉及一种。
技术介绍
主题共识:根据用户行为特征研究领域的一项重要结论,网络社区中针对同一主题进行交流的普通用户所发布的内容都与该主题相关,而存在不良意图的用户则会发布一些与主题无关的内容。J.M.Reagle 在其专著《GoodFaith Collaboration —The Cultureof Wikipedia))中分析指出,网络社区中发布各自不同观点的用户之所以能够围绕同一主题成功进行沟通交流,是因为彼此之间具有对该主题的基本共识,并且相信与自己交流的对方也同样会根据这一基本共识发布回复内容[I]。而行业内最大的网络共建社区维基百科的发起人JimGiles也承认,维基百科是一个基于主题共识而建立的网站[2]。这些用户行为特征研究领域的相关成果为本项目提出的方法提供了理论基础。一般的,在网络社区中,一个主贴及其对应的所有回复贴应当围绕着同一主题共识进行交流。文本内容的特征值与特征向量:一段文本内容可以用它的一些属性来表示其特征,这些可以用来标识文本内容的特征属性,被称为文本内容的特征值[3]。文本所包含的字词集合、词频、词序等,都属于该文本文档来自技高网...

【技术保护点】
一种基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法,其特征在于,包括以下步骤:步骤1,数据准备:采集两组以上的围绕不同主题进行交流的主贴及相应的回复的文本内容,抽样其中部分组的主贴与回复作为训练集,其余作为待检测集,对训练集中的文本内容进行人工分类,判断回复的文本内容是否与各自的主贴内容相关,不相关的视为无效的垃圾内容,分类的结果作为训练数据集;步骤2,计算词频向量:运用词袋算法,将之前采集到的训练集和待检测集中的各个主贴和全部的回复内容全部以词频向量的形式表示;步骤3,聚合得到主题共识的词频向量:对训练集和待检测集中的各组主贴与回复,聚合各组中所有文本内容对应的词频向量,得到围绕各组内容...

【技术特征摘要】
1.种基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法,其特征在于,包括以下步骤: 步骤1,数据准备:采集两组以上的围绕不同主题进行交流的主贴及相应的回复的文本内容,抽样其中部分组的主贴与回复作为训练集,其余作为待检测集,对训练集中的文本内容进行人工分类,判断回复的文本内容是否与各自的主贴内容相关,不相关的视为无效的垃圾内容,分类的结果作为训练数据集; 步骤2,计算词频向量:运用词袋算法,将之前采集到的训练集和待检测集中的各个主贴和全部的回复内容全部以词频向量的形式表示;步骤3,聚合得到主题共识的词频向量:对训练集和待检测集中的各组主贴与回复,聚合各组中所有文本内容对应的词频向量,得到围绕各组内容主题的主题共识的词频向量;步骤4,计算特征值,组合特征向量:计算训练数据集和待检测集中各文本内容的文本特征值,将文本特征值组合起来形成与文本内容相对应的特征向量,文本特征值包括主题共识覆盖率和其他文本特征值,具体包括以下步骤, 步骤4.1,计算主题共识覆盖率:以步骤3中聚合得到的主题共识的词频向量为基础,计算各文本内容的主题共识覆盖率; 步骤4.2,计算其他文本特征值:其他文本特征值包括文本长度、文本信息熵、文本作者可信度、敏感词汇数量、包含链接数量中的一种或其组合; 步骤4.3,组合主题共识覆盖率和各文本内容的其他文本特征值,形成特征向量; 步骤5,训练文本分类器:采用以支持向量机模型为基础的文本内容分类器,用训练集中的各文本内容的特征向量作为样本输入,以步骤I中对这些文本内容的分类结果作为标准输出,对支持向 量机分类器进行反复训练,直到分类器对训练样本的分类准确率达到95%以上; 步骤6,文本分类,检测垃圾内容:对待检测集中的各文本内容进行分类,以待检测文本内容的特征向量作为输入,用步骤5中已调好参数的支持向量机分类器进行分类,判断该段待检测文本内容是否为垃圾信息。2.据权利要求1所述的...

【专利技术属性】
技术研发人员:李石君汤小月余伟杨莎刘晶丁永刚胡亚慧王凯
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1