一种基于中文分词识别不规则垃圾短信的方法技术

技术编号:16608635 阅读:157 留言:0更新日期:2017-11-24 10:02
本发明专利技术公开了一种基于中文分词识别不规则垃圾短信的方法,对于同一短信,依据短信的内容,先按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符采取竖向转换为横向排列,然后进行中文分词,根据总体的分词结果的单词个数计算权重。然后根据两次权重比较,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字,识别是否垃圾短信,进而避免了垃圾短信的漏判,提高垃圾短信的查全率和查准率。

【技术实现步骤摘要】
一种基于中文分词识别不规则垃圾短信的方法
本专利技术涉及一种垃圾短信的识别方法,尤其涉及一种基于中文分词识别不规则垃圾短信的方法。
技术介绍
目前,短信息服务作为移动通信网络的一种基本业务,在为用户提供便捷消息通信服务的同时,也成为反动、涉黄和诈骗等非法短信的发送渠道。在垃圾短信治理领域,具有申请号:200710036831.4的专利《一种基于信令处理技术的短信净化系统》,该专利定义的系统由若干台连接于七号信令网中信令链路的信令消息检测处理装置MPM和一业务管理中心CSM构成。MPM对流经的短信消息进行分析处理,根据业务规则与黑白名单,实现短信的选通与拦截处理,将相关消息传送给CSM,CSM进行频次统计、业务规则与用户数据管理与同步。在MPM和CSM系统中,针对垃圾短信的发送特征多为诈骗或者广告,采用发送行为分析(流量)和文本特征分析(关键字等)方式进行短信治理,对于垃圾短信的发现和治理是一定成效的。而在短信内容过滤上,一般按照短信的编码顺序,分析短信,判断是否符合关键字过滤规则,也就是在手机上通常看到的从左到右的短信排列方式。但是,为了规避关键字过滤,垃圾短信出现了采用了不规则排列方式,如仿照古文从上至下的文本排列方式,区别与正常短信排列方式,以逃避关键字过滤。对于此种不规则垃圾短信,目前多采用单个关键字组合联合判定的方式,判定短信是否符合关键字规则,即把关键字“发票”拆分为“发”和“票”两个关键字,同时符合“发”和“票”的短信等同于“发票”。此种方法虽然一定程度上识别出符合关键字的不规则垃圾短信,但也同时造成部分不是包含“发票”的正常短信被判别为垃圾短信,降低了垃圾短信识别的准确率。
技术实现思路
本专利技术的目的在于提供一种基于中文分词识别不规则垃圾短信的方法,该方法采用中文分词技术,从横向和竖向两方面分别分析短信的词语组成,分别计算短信权重,判定是否为不规则垃圾短信,对于通过竖排试图规避内容过滤的短信,判定为不规则短信后,可以根据竖排的读取方式,过滤短信,避免了垃圾短信的漏判,进而提高垃圾短信的查全率和查准率。实现上述目的的技术方案是:一种基于中文分词识别不规则垃圾短信的方法,包括下列步骤:步骤S1,接收短信,读取短信内容;步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;步骤S3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;步骤S8a,判定短信为正常排列短信;步骤S8b,判定短信为不规则排列短信。上述的基于中文分词识别不规则垃圾短信的方法,其中,所述步骤S4中,所述的计算上述接收的短信的不规则区域,指:计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域。上述的基于中文分词识别不规则垃圾短信的方法,其中,所述的每行的字符个数模型,指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。上述的基于中文分词识别不规则垃圾短信的方法,其中,所述的不规则排列短信包括:竖排短信、横竖混排短信和竖排异形短信。上述的基于中文分词识别不规则垃圾短信的方法,其中,根据判定的短信类型,采用内容分析匹配关键字,依据规则识别出是否符合关键字,从而识别是否为垃圾短信。上述的基于中文分词识别不规则垃圾短信的方法,其中,所述方法基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。本专利技术的有益效果是:本专利技术通过分析短信内容,采用中文分词技术,从横向和竖向两方面分别分析短信的词语组成,根据分词单词个数,分别计算短信权重,按语义判定短信应该是正常的从左至右排列方式读取,还是不规则排列的读取。进而为短信内容分析提供依据,完成短信内容过滤,提高垃圾短信的查全率和查准率。本专利技术对于通过竖排试图规避内容过滤的短信,在判定为不规则短信后,可以根据竖排的读取方式,过滤短信,避免了垃圾短信的漏判。附图说明图1是本专利技术的基于中文分词识别不规则垃圾短信的方法的流程图。具体实施方式下面将结合附图对本专利技术作进一步说明。为了便于本领域技术人员理解和实现本专利技术,以下列短信为例,描述本专利技术的实施例:如上,为规避关键字识别,垃圾短信采用不规则排列方式。在通常设置“发票”或者“提供”等关键字时,正常排短信短信能够匹配关键字,而采用不规则排列方式,按照正常排列无法匹配关键字。请参阅图1,本专利技术的基于中文分词识别不规则垃圾短信的方法,包括下列步骤:步骤S1,接收短信,读取短信内容;以上述短信为例:内容实际对应的一种编码(UCS2):通用字符集(UniversalCharacterSet,UCS)是由ISO制定的ISO10646标准所定义的标准字符集。短信可以采用三种编码方式来对内容进行编码,它们是7-bit、8-bit和UCS2编码,对于包含中文的短信采用UCS2编码。UCS2用两个字节编码。步骤S2,根据上述短信内容,按照传统正常的从左到右的横向排列方式,进行中文分词,如下:步骤S3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);计算结果为:W1=11,Q1=0.0833。步骤S4,根据不规则排列短信的控制字符的特点,即必须控制每行短信字符数(因为电话屏幕宽度不同,必须控制每行字符数),计算上述接收的短信的不规则区域,即计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,然后按照读取的短信内容,将上述接收的短信转换为横向排列的短信,转换后的短信如下:上述的每行的字符个数模型指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词,如下;步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);计算结果为:W2=7,Q2=0.125。步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;步骤S8a,判定短信为正常排列短信;步骤S8b,判定短信为不规则排列短信。显然,因为Q1=0.0833<Q2=0.125,所以上述接收短信为不规则排列短信。不规则排列短信包括:竖排短信、横竖混排短信和竖排异形短信。最后,根据判定的短信类型,采用内容分析匹配关键字,依据排列规则识别出是否符本文档来自技高网
...
一种基于中文分词识别不规则垃圾短信的方法

【技术保护点】
一种基于中文分词识别不规则垃圾短信的方法,其特征在于,包括下列步骤:步骤S1,接收短信,读取短信内容;步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;步骤S3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;步骤S8a,判定短信为正常排列短信;步骤S8b,判定短信为不规则排列短信,所述步骤S4中,所述的计算上述接收的短信的不规则区域,指:计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域,所述的每行的字符个数模型,指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。...

【技术特征摘要】
1.一种基于中文分词识别不规则垃圾短信的方法,其特征在于,包括下列步骤:步骤S1,接收短信,读取短信内容;步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;步骤S3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;步骤S8a,判定短信为正常排列短信;步...

【专利技术属性】
技术研发人员:肖克华
申请(专利权)人:上海粱江通信系统股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1