当前位置: 首页 > 专利查询>清华大学专利>正文

一种新闻内容敏感词过滤方法及系统技术方案

技术编号:13945030 阅读:36 留言:0更新日期:2016-10-30 02:07
本发明专利技术提供一种新闻内容敏感词过滤方法及系统,所述方法包括:S1、对获取的新闻文本进行预处理;S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。本发明专利技术通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定,以确定过滤到的敏感词是否具有负面信息,从而在过滤负面新闻的同时,不会将打击负面信息的正面新闻过滤掉,提高了新闻内容敏感词过滤的可靠性。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种基于马尔可夫逻辑网的情感分析的新闻内容敏感词过滤方法及系统
技术介绍
新闻内容敏感词过滤安全管控涉及语言学、计算机科学、认知科学、数学等多学科交叉的科学。新闻内容安全管控针对单篇新闻内容进行管控,提供词级别的粗粒度的内容过滤。在语义数据处理技术与自然语言处理技术的基础上,目的是应对新闻舆情的快速反应,做到实时收集、迅速处理分析舆情信息、扑捉热点,掌握舆论方向,预测危机等级,进而辅助管控平台的管理者和决策者第一时间作出反馈。目前,新闻内容安全管控首先基于关键词匹配的过滤方法进行管控,其原理是:首先准备一个关键词库,库中记录预选出的一些关键词。当对一个新闻内容进行判断时,将这个新闻内容与关键词库中的词逐一进行匹配,如果存在着一个或多个关键词能够与新闻内容中的文本内容匹配上,即有关键词在文本中出现,则判断这个网页是否属于需要管控的信息,如果是,则对这个新闻内容进行过滤;否则,则说明这一网页不是需要过滤的目标。基于关键词匹配方法的优点是:算法准确率高,效率高,运行速度快。它的缺点在于仅依靠简单词语的匹配是无法理解新闻文本的语义信息,不能深入把握新闻的内涵,因此很难对新闻的内容做出准确的判断。包含某一类的词只能说明文本的内容可能会与某一方面或者某几个方面有关,但不能反映出文本内容真正的含义及其内容中的立场和感情色彩。例如:同样是“淫秽“一词,它既可能出现在正面的打击色情的新闻中,也可能出现在一些色情新闻内容之中,而这两种新闻在性质上是完全不同的。因此, 如果简单的使用关键词过滤,很可能错将很多正面的新闻“冤杀”下去。所以,关键词过滤不能提供对极端词的点到点的精确过滤。
技术实现思路
本专利技术的目的在于克服上述技术的不足,提供一种基于马尔可夫逻辑网的情感分析的新闻内容敏感词过滤方法及系统,通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定,以确定过滤到的敏感词是否具有负面信息,从而在过滤负面新闻的同时,不会将打击负面信息的正面新闻过滤掉,提高了新闻内容敏感词过滤的可靠性。基于上述目的,本专利技术提供一种新闻内容敏感词过滤方法,其特征在于,所述方法包括:S1、对获取的新闻文本进行预处理;S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。其中,所述步骤S1中,对所述新闻文本进行预处理具体包括:去除所述新闻文本中的特征字符、繁体字转换成简体字、停用词过滤和分词。其中,所述步骤S1之前还包括:构建敏感词库,所述敏感词库包括第一类敏感词和第二类敏感词,并且所述敏感词库中的敏感词分为三个等级:一级敏感词设定为具有一级关键词,即一级敏感词包括第一类一级和第二类一级;二级类敏感词设定为具有二级关键词,即二级敏感词包括第一类二级和第二类二级;三级敏感词设定为具有三级关键词,即三级敏感词包括第一类三级和第二类三级。其中,所述步骤S2中,对敏感词的优先级设定具体为:第一类一级,第二类一级>第一类二级,第二类二级>第一类三级,第二类三级。其中,所述敏感词多级过滤算法为Wu-Manber算法。其中,所述步骤S3具体包括:S31、提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语;S32、使用预设的具有人工标注的新闻文本为训练集,训练得到基于马尔可夫逻辑网的情感分析模型;S33、根据所述基于马尔可夫逻辑网的情感分析模型,对所述新闻文本进行敏感词判断。其中,所述马尔可夫逻辑网的情感分析模型,具体为: P ( Y = 1 | X = x w ) = 1 1 + e - ( αx w + β ) ]]>其中Y是类别标签,当Y=1时表示该新闻传播不良信息,为负面新闻,当Y=0时表示是正面新闻,X是特征向量,表示敏感词的级别,x为在某一个级别中的一个敏感词,α为权重,β为偏置项,P(Y=1|X=xw)表示当特征向量X=xw时,新闻传播不良信息的概率,其中,α和β通过如下目标函数求解: O ( α , β ) = Π w ∈ W P ( Y = 1 | X = x w ) y w P ( Y = 0 | X = x w ) 1 - y w , ]]>其中,W表示总的不良信息分类的集合,w表示集合中的某一个元素或一个子集合,y表示对应于w是不良信息还是正面信息的取值;O(α,β)表示计算α和β目标函数。根据本专利技术的另一个方面,提供一种新闻内容敏感词过滤系统,其特征在于,所述系统包括:获取模块,用于获取待过滤的新闻文本;预处理模块,用于对获取的新闻文本进行预处理;过滤模块,用于根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;敏感词判断模块,用于当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;新闻标记模块,用于当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。其中,所述敏感词判断模块具体包括:特征提取单元,用于提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语;模型建立单元,用于使用预设的具有人工标本文档来自技高网
...

【技术保护点】
一种新闻内容敏感词过滤方法,其特征在于,所述方法包括:S1、对获取的新闻文本进行预处理;S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。

【技术特征摘要】
1.一种新闻内容敏感词过滤方法,其特征在于,所述方法包括:S1、对获取的新闻文本进行预处理;S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。2.根据权利要求1所述的过滤方法,其特征在于,所述步骤S1中,对所述新闻文本进行预处理具体包括:去除所述新闻文本中的特征字符、繁体字转换成简体字、停用词过滤和分词。3.根据权利要求1或2所述的过滤方法,其特征在于,所述步骤S1之前还包括:构建敏感词库,所述敏感词库包括第一类敏感词和第二类敏感词,并且所述敏感词库中的敏感词分为三个等级:一级敏感词设定为具有一级关键词,即一级敏感词包括第一类一级和第二类一级;二级类敏感词设定为具有二级关键词,即二级敏感词包括第一类二级和第二类二级;三级敏感词设定为具有三级关键词,即三级敏感词包括第一类三级和第二类三级。4.根据权利要求3所述的过滤方法,其特征在于,所述步骤S2中,对敏感词的优先级设定具体为:第一类一级,第二类一级>第一类二级,第二类二级>第一类三级,第二类三级。5.根据权利要求1所述的过滤方法,其特征在于,所述敏感词多级过 滤算法为Wu-Manber算法。6.根据权利要求1所述的过滤方法,其特征在于,所述步骤S3具体包括:S31、提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语;S32、使用预设的具有人工标注的新闻文本为训练集,训练得到基于马尔可夫逻辑网的情感分析模型;S33、根据所述基于马尔可夫逻辑网的情感分析模型,对所述新闻文本进行敏感词判断。7.根据权利要求1或6所述的过滤方法,其特征在于,所述马尔可夫逻辑网的情感分析模型,具体为:其中Y是类别标签,当Y=1时表示该新闻传播不良信息,为负面新闻,当Y=...

【专利技术属性】
技术研发人员:张新钰刘聪吴新刚
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1