一种用于资讯内容违规量化分析的方法技术

技术编号:17097644 阅读:58 留言:0更新日期:2018-01-21 09:34
本发明专利技术提供了一种用于资讯内容违规量化分析的方法,包括:A、实时监测各个资讯;B、判断所述各个资讯内容中出现预设数据库中存储的某违规句子片段时,建立该违规句子片段与其所在的资讯内容的索引,并将其存储到所述数据库中;C、获取所述数据库中各个违规句子片段在不同指定时间段的资讯内容中出现的频率,并据此获取不同时间段的各个违规句子片段的违规排名。由上,可以实现对资讯内容的违规量化分析。

A method for quantitative analysis of information content violation

The present invention provides a method for the quantitative analysis of illegal information content include: A, real-time monitoring of various information; a violation of preset sentence fragments stored in the database B, judging whether the information content in each, the establishment of illegal sentence fragments with the information content of the index, and stores it the database; C, obtaining the database in various illegal sentence fragments appear in the information content of different frequencies in the specified period of time, and then obtain the different time all illegal sentence fragments of illegal ranking. On the other hand, the quantitative analysis of the violation of information content can be realized.

【技术实现步骤摘要】
一种用于资讯内容违规量化分析的方法
本专利技术涉及资讯分析领域,尤其涉及一种用于资讯内容违规量化分析的方法。
技术介绍
目前,现有技术中资讯内容违规的分析首先基于关键词匹配的过滤方法进行分析,其原理是:首先准备一个关键词库,库中记录预选出的一些关键词。当对一个资讯内容进行判断时,将这个资讯内容与关键词库中的词逐一进行匹配,如果存在着一个或多个关键词能够与资讯内容中的文本内容匹配上,即有关键词在文本中出现,则判断这个网页是否属于需要管控的信息,如果是,则对这个资讯内容进行过滤;否则,则说明这一网页不是需要过滤的目标。因此,目前基于关键词匹配方法的缺点是:无法对违规资讯内容进行量化分析。因此,目前亟需一种用于资讯内容违规量化分析的方法。
技术实现思路
有鉴于此,本申请提供一种用于资讯内容违规量化分析的方法,有利于对违规资讯内容进行量化分析。本申请提供一种用于资讯内容违规量化分析的方法,包括:A、实时监测各个资讯内容;B、监测所述各个资讯内容中出现预设数据库中存储的各个违规句子片段时,建立该违规句子片段与其所在的资讯内容的索引,并将其存储到所述数据库中;C、获取所述数据库中当前违规句子片段及各本文档来自技高网...
一种用于资讯内容违规量化分析的方法

【技术保护点】
一种用于资讯内容违规量化分析的方法,其特征在于,包括:A、实时监测各个资讯;B、判断所述各个资讯内容中出现预设数据库中存储的某违规句子片段时,建立该违规句子片段与其所在的资讯内容的索引,并将其存储到所述数据库中;C、获取所述数据库中各个违规句子片段在不同指定时间段的资讯内容中出现的频率,并据此获取不同时间段的各个违规句子片段的违规排名。

【技术特征摘要】
1.一种用于资讯内容违规量化分析的方法,其特征在于,包括:A、实时监测各个资讯;B、判断所述各个资讯内容中出现预设数据库中存储的某违规句子片段时,建立该违规句子片段与其所在的资讯内容的索引,并将其存储到所述数据库中;C、获取所述数据库中各个违规句子片段在不同指定时间段的资讯内容中出现的频率,并据此获取不同时间段的各个违规句子片段的违规排名。2.根据权利要求1所述的方法,其特征在于,所述步骤C之后还包括:D、根据所述不同时间段的各个违规句子片段的违规排名获取违规句子片段的违规趋势。3.根据权利要求1所述的方法,其特征在于,所述步骤B还包括:B11、判断所述各个资讯内容中出现预设数据库中存储的某敏感词时:结合各个敏感词分别在所述各个资讯内容中出现的语境,通过多维度对其分析;B12、将所述违规指数超过第一指定阈值的敏感词标记为违规敏感词,将所述违规敏感词所在的句子片段标注为违规句子片段,建立该违规句子片段与其所在的资讯内容的索引,并将其存储到所述数据库中。4.根据权利要求3所述的方法,其特征在于,所述步骤B11中的通过多维度对其分析包括:通过结合该敏感词所涉及的主体、人物、时间、地点维度分析所述各个敏感词的违规指数;其中,对于不同的维度,可以设置不同的权重指百分比来计算所述违规指数,其计算公式为:违规指数=a1X1+a2X2+….anXn。其中,Xn为第n维度的违规指数,an为第n维度的权重百分比。5.根据权利要求1-4任一项所述的方法,其特...

【专利技术属性】
技术研发人员:金利杰亢保星孙雪宁高荣威王海晗亢晓妮逯久月曹静
申请(专利权)人:云天弈北京信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1