The invention discloses a method and a device for generating an information filtering strategy. Among them, including the information filtering strategy generating method: obtain the first keyword from pre selected sample information; the first keyword quality score calculation; according to the quality score of the first keyword sorting and combination of the first generation of keywords, filtering strategy. The invention can greatly improve the efficiency of garbage information filtering strategy, reduce the dependence on manual operation, and can save manpower cost and have better filtering effect.
【技术实现步骤摘要】
信息过滤策略生成方法及装置
本专利技术涉及通信领域,尤其是涉及一种信息过滤策略生成方法及装置。
技术介绍
随着移动通信技术的飞速发展,信息业务迅速发展的同时也带来了一些信息安全方面的问题,例如不法分子制作发送广告,虚假信息,散步谣言,传播反动及色情消息等垃圾信息,这些垃圾信息的泛滥会加重网络拥塞,占用网络资源,给运营商和手机用户造成很多不必要的损失。对于运营商而言,研究垃圾信息过滤技术并构建信息拦截平台,有助于国家安全和社会稳定,保护人民财产和正常生活,具有重要的社会价值。面对丰富的海量信息,怎样设计垃圾信息拦截方案,已经成为了一个极其具有挑战性的研究方向。目前,针对垃圾信息通常采用的主要过滤方式包括:(1)基于关键词策略的过滤方式经过对垃圾信息样本的分析,抽取有代表性的关键词构建过滤规则,通过关键词表对未知待处理信息进行过滤。这种过滤方式通常是由人工进行策略构建,能够覆盖几乎所有包含关键词的信息,但是其存在漏判、误判的情况较多,而且需要从规则构建本身进行优化或与其他手段相结合。(2)基于发送行为策略的过滤方式经过对用户发送数据的研究和分析,设定固定时间窗口内信息 ...
【技术保护点】
一种信息过滤策略生成方法,其特征在于,包括:从预先选取的样本信息中获取第一关键词;计算所述第一关键词的质量得分;根据所述第一关键词的质量得分对所述第一关键词进行排序和组合,生成信息过滤策略。
【技术特征摘要】
1.一种信息过滤策略生成方法,其特征在于,包括:从预先选取的样本信息中获取第一关键词;计算所述第一关键词的质量得分;根据所述第一关键词的质量得分对所述第一关键词进行排序和组合,生成信息过滤策略。2.根据权利要求1所述的方法,其特征在于,从预先选取的样本信息中获取第一关键词包括:对于所述样本信息进行内容预处理,得到文本信息;根据预置的分词方法对文本信息进行分词操作,得到第二关键词;对所述第二关键词中存在包含关系的关键词进行合并,得到所述第一关键词。3.根据权利要求2所述的方法,其特征在于,所述内容预处理包括:内容格式转换和无效内容删除。4.根据权利要求3所述的方法,其特征在于:所述内容格式转换包括:半角字符和全角字符之间的相互转换、繁体字和简体字之间的相互转换、大写英文字母和小写英文字母之间的相互转换,以及将特殊字符串转换成预定字符;所述无效内容删除包括:删除特殊符号。5.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述第一关键词的质量得分对所述第一关键词进行排序和组合,生成信息过滤策略,包括:按照所述第一关键词的质量得分,从高到低对所述第一关键词进行排序;将所有第一关键词中相关度大于第一预定相关度的第一关键词划分为同一组,并根据质量得分从高到低进行排序;对于每组第一关键词中相关度大于第二预定相关度的第一关键词划分为同一组,并根据质量得分从高到低进行排序;执行预定次数的所述分组操作,汇总多组所述第一关键词,得到所述信息过滤策略。6.一种信息过滤策略生成装置,...
【专利技术属性】
技术研发人员:张洋,张峰,粟栗,王焕如,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。