基于关键词权值的文本过滤方法与系统技术方案

技术编号:15397362 阅读:48 留言:0更新日期:2017-05-19 15:43
本申请提供了一种基于关键词权值的文本过滤方法,该方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果是,则计算历史判定数据中的正确判定数据的条数和错误判定数据的条数、以及包含所述关键词的正确判定数据的条数和错误判定数据的条数;以及计算所述关键词的权值。此外,本申请还提供了一种基于关键词权值的文本过滤系统。

Text filtering method and system based on keyword weight

The invention provides a method for text filtering based on keyword weights, the method comprises the following steps: calculating the weights of keywords and keywords; calculate the weights based on the text filtering; among them, the keyword is weighted comprises the steps of: determining whether the keyword is a new keyword, if yes, is the history of computing decision to determine the correct data in the correct data number and error to determine the number of data, and contains the keyword data number and error to determine the number of data; and the calculation of the weights of key words. In addition, this application also provides a text filter system based on the weight of keywords.

【技术实现步骤摘要】
基于关键词权值的文本过滤方法与系统
本申请涉及安全、数据业务领域,尤其涉及基于关键词权值的文本过滤方法与系统。
技术介绍
文本信息是移动互联网信息中传播数量最多的内容,包括:网页、短信、彩信、即时通信工具等。对文本传输中的敏感内容进行信息过滤(例如政治、色情、赌博…)是互联网中的一项重要技术。一般来说,系统会将文本归类为“正常”和“需要过滤”两类。从信息量上看,每条链路(10G)上每天用户访问的文本数据量多达数亿条,全网有数千亿条数据,而其中需要过滤的信息占比非常少,一般少于1%,因此从海量数据中准确捕获待过滤信息是困难的。即使有少量的误判(10%),也使得系统捕获到的数据中误判的信息占比达90%以上。为了避免误判,需要通过人工二次审核来最终判定,而人工审核的结果是最准确的,但相对来说效率也比较低。现有的信息过滤系统(以下简称“过滤系统”)对文本进行识别与分类的方法主要有以下几种:(1)基于关键词数量进行判定该技术方案的主要思想是设定关键词库,每个关键词不再设置其他考量指标;对文本中包含的关键词进行识别,并依据数量的多少是否达到系统设定的阈值对数据进行归类。(2)基于熵值(权值)之和进行判定该技术对每个关键词设定熵值,将重要的关键词的熵值设置为较高,不重要的关键词的熵值设置为较低。对文本进行识别时,计算文本中包含的关键词的熵值之和,并依据熵值是否达到系统设定的阈值对数据进行归类。(3)基于语义识别进行判定语义识别不仅定义关键词,而且定义关键词之间的联系(例如同时出现)确定熵值,并最终通过全文的语义确定文本的分类。例如“枪支”和“出售”两个关键词单独出现时,应为正常;如果在一定的距离内出现,例如“出售进口枪支”,则判定两个词之间存在语义联系。但是,现有的3种技术方案均存在一定程度的不足,具体如下:(1)基于关键词数量判定单纯的基于关键词的数量进行判定会产生非常多的误判,例如“出售”、“枪支”都为关键词,一篇出现大量“出售”的文章很可能被判定为需要过滤,但很可能是一个正常(如淘宝)的交易页面。采用该技术的误判率可能高达50%,对于仅包含1%需要过滤信息的原始数据流来说,误判造成的影响基本上不可被接受。(2)基于熵值之和进行判定基于熵值的判定方式无疑大大增强了判定能力,例如将“出售”、“枪支”的熵值设定为1,将“出售”&“枪支”的熵值设定为100。单纯出现“出售”或“枪支”的文本则会判定为正常,往往同时出现“出售”和“枪支”的文本才会判定为需要过滤。采用该技术很大程度上减少了误判,该方式存在的关键词权重设定不合理时的调整问题。(3)基于语义识别进行判定语义识别的条件更多,因此也更加精确。但在语义识别中同样面临两个技术难点:一是语义识别同样也面临关键词权值如何设定的问题,因为在已有的技术方案中,缺乏定义关键词权重设定的方式与方法;二是语义识别分析的效率较低,不适用于处理海量数据。
技术实现思路
为了解决系统判定文本的准确程度较低的问题,本申请提供了一种基于关键词权值的文本过滤方法,该方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中计算关键词权值的步骤包括:判断关键词是否是全新关键词,如果不是,则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含关键词的正确判定数据的条数M1和错误判定数据的条数N1;以及计算关键词权值其中VL是由用户设定的关键词的最小权值,VH是由用户设定的关键词的最大权值。另一方面,本申请还提供了一种基于关键词权值的文本过滤系统,该系统包括:关键词权值计算模块,用于计算关键词的权值;以及文本过滤模块,用于基于所计算出的关键词的权值对文本进行过滤;其中关键词权值计算模块包括:第一判断单元,用于判断关键词是否是全新关键词;第一计算单元,用于当关键词不是全新关键词时计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含关键词的正确判定数据的条数M1和错误判定数据的条数N1;第二计算单元,用于计算关键词权值其中VL是由用户设定的关键词的最小权值,VH是由用户设定的关键词的最大权值。通过上述方法和系统,可以有效增加系统判定文本的准确程度。附图说明图1是基于关键词权值的文本过滤系统的示意图;图2是基于关键词权值的文本过滤方法的流程图。具体实施方式由于进行信息过滤的关键词的样本数量一般不大(几百到几千个),但使用词库进行判定的对象(文本)每天有数千亿个,而每天需要进行人工审查的样本也有数万个。针对同一个关键词,例如“枪支”,既可能用于正常文本,也可能用于涉暴类的网页。而由于现有的过滤系统中,存在人工审核的环节,可利用人工审核的结果确定关键词在判定中对正确判定和错误判定的影响;综合分析关键词在判定中的正向和负向作用,最终确定关键词的权值。本申请提出一种基于已分类样本对关键词权重进行优化与设定的机制。该机制成为基于样本摩擦的关键词权值设定机制,将样本分为判定正确和判定错误两类,对于既可能出现在正确也可能出现在错误类型样本中的关键词,通过已有或新增样本中包含的该关键词的情况,对权值进行增加或减少。该机制类似于将一个关键词放在两块木板之间进行摩擦,称为样本摩擦机制。下面将参照附图对本申请的具体实施方式进行描述。图1是基于关键词权值的文本过滤系统1000的示意图。文本过滤系统1000包括:关键词权值计算模块1100,用于计算关键词的权值;以及文本过滤模块1200,用于基于所计算出的关键词的权值对文本进行过滤。其中,关键词权值计算模块1100包括:第一判断单元1010,用于判断关键词是否是全新关键词;第一计算单元1011,用于当关键词不是全新关键词时计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含关键词的正确判定数据的条数M1和错误判定数据的条数N1;第二计算单元1012,用于计算关键词权值其中VL是由用户设定的关键词的最小权值,VH是由用户设定的关键词的最大权值。在一些实施方式中,文本过滤系统1000还可以包括储存历史判定数据的历史判定数据库。具体地,历史判定数据代表已经由人工审查过,并完成归类的数据。历史判定数据可包括正确判定数据和错误判定数据,其中正确判定数据代表经人工审查确认为正确判定的数据,并且错误判定数据代表经人工审查确认为误判的数据。在一些实施方式中,关键词权值计算模块1100还包括:第三计算单元1013,用于计算关键词在历史判定数据中的正确判定数据中所出现的次数Xi和关键词在历史判定数据中的错误判定数据中所出现的次数Yi;以及第四计算单元1014,用于计算摩擦系数在一些实施方式中,关键词权值计算模块1100还包括:第二判断单元1018,用于判断(Xi-Yi)·μ的大小是否超过用户预先设定的权值调整阈值,权值调整单元1019,用于当本文档来自技高网
...
基于关键词权值的文本过滤方法与系统

【技术保护点】
一种基于关键词权值的文本过滤方法,所述方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果所述关键词不是全新关键词,则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数M1和错误判定数据的条数N1;以及计算所述关键词的权值

【技术特征摘要】
1.一种基于关键词权值的文本过滤方法,所述方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果所述关键词不是全新关键词,则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数M1和错误判定数据的条数N1;以及计算所述关键词的权值其中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值;如果所述关键词是全新关键词,则令所述关键词的权值Value0=(VH+VL)/2,其中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值。2.如权利要求1所述的方法,其中计算关键词权值的步骤还包括:如果所述关键词不是全新关键词,则计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi;以及计算摩擦系数3.如权利要求1所述的方法,其中计算关键词权值的步骤还包括:如果所述关键词是全新关键词,则当在所述正确判定数据或所述错误判定数据中出现新的所述关键词时,计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi;以及计算摩擦系数4.如权利要求2或3所述的方法,其中计算关键词权值的步骤还包括:判断(Xi-Yi)·μ的大小是否超过用户预先设定的权值调整阈值;以及如果(Xi-Yi)·μ的大小超过所述权值调整阈值,则令所述关键词的权值Value=Value0+(Xi-Yi)·μ,否则令所述关键词的权值Value=Value0。5.一种基于关键词权值的文本过滤系统,所述系统包括:关键词权值计算模块,用于计算关键词的权值;以及文...

【专利技术属性】
技术研发人员:粟栗张峰付俊
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1