The invention provides a method for text filtering based on keyword weights, the method comprises the following steps: calculating the weights of keywords and keywords; calculate the weights based on the text filtering; among them, the keyword is weighted comprises the steps of: determining whether the keyword is a new keyword, if yes, is the history of computing decision to determine the correct data in the correct data number and error to determine the number of data, and contains the keyword data number and error to determine the number of data; and the calculation of the weights of key words. In addition, this application also provides a text filter system based on the weight of keywords.
【技术实现步骤摘要】
基于关键词权值的文本过滤方法与系统
本申请涉及安全、数据业务领域,尤其涉及基于关键词权值的文本过滤方法与系统。
技术介绍
文本信息是移动互联网信息中传播数量最多的内容,包括:网页、短信、彩信、即时通信工具等。对文本传输中的敏感内容进行信息过滤(例如政治、色情、赌博…)是互联网中的一项重要技术。一般来说,系统会将文本归类为“正常”和“需要过滤”两类。从信息量上看,每条链路(10G)上每天用户访问的文本数据量多达数亿条,全网有数千亿条数据,而其中需要过滤的信息占比非常少,一般少于1%,因此从海量数据中准确捕获待过滤信息是困难的。即使有少量的误判(10%),也使得系统捕获到的数据中误判的信息占比达90%以上。为了避免误判,需要通过人工二次审核来最终判定,而人工审核的结果是最准确的,但相对来说效率也比较低。现有的信息过滤系统(以下简称“过滤系统”)对文本进行识别与分类的方法主要有以下几种:(1)基于关键词数量进行判定该技术方案的主要思想是设定关键词库,每个关键词不再设置其他考量指标;对文本中包含的关键词进行识别,并依据数量的多少是否达到系统设定的阈值对数据进行归类。(2)基于熵值(权值)之和进行判定该技术对每个关键词设定熵值,将重要的关键词的熵值设置为较高,不重要的关键词的熵值设置为较低。对文本进行识别时,计算文本中包含的关键词的熵值之和,并依据熵值是否达到系统设定的阈值对数据进行归类。(3)基于语义识别进行判定语义识别不仅定义关键词,而且定义关键词之间的联系(例如同时出现)确定熵值,并最终通过全文的语义确定文本的分类。例如“枪支”和“出售”两个关键词单独出现时, ...
【技术保护点】
一种基于关键词权值的文本过滤方法,所述方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果所述关键词不是全新关键词,则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数M1和错误判定数据的条数N1;以及计算所述关键词的权值
【技术特征摘要】
1.一种基于关键词权值的文本过滤方法,所述方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果所述关键词不是全新关键词,则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数M1和错误判定数据的条数N1;以及计算所述关键词的权值其中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值;如果所述关键词是全新关键词,则令所述关键词的权值Value0=(VH+VL)/2,其中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值。2.如权利要求1所述的方法,其中计算关键词权值的步骤还包括:如果所述关键词不是全新关键词,则计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi;以及计算摩擦系数3.如权利要求1所述的方法,其中计算关键词权值的步骤还包括:如果所述关键词是全新关键词,则当在所述正确判定数据或所述错误判定数据中出现新的所述关键词时,计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi;以及计算摩擦系数4.如权利要求2或3所述的方法,其中计算关键词权值的步骤还包括:判断(Xi-Yi)·μ的大小是否超过用户预先设定的权值调整阈值;以及如果(Xi-Yi)·μ的大小超过所述权值调整阈值,则令所述关键词的权值Value=Value0+(Xi-Yi)·μ,否则令所述关键词的权值Value=Value0。5.一种基于关键词权值的文本过滤系统,所述系统包括:关键词权值计算模块,用于计算关键词的权值;以及文...
【专利技术属性】
技术研发人员:粟栗,张峰,付俊,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。