一种基于中文分词识别不规则垃圾短信的方法技术

技术编号：16608635 阅读：157 留言：0更新日期：2017-11-24 10:02

本发明专利技术公开了一种基于中文分词识别不规则垃圾短信的方法，对于同一短信，依据短信的内容，先按照正常的横向读取进行中文分词，根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点，判定不规则短信内容的范围，对不规则排列短信内容范围内的字符采取竖向转换为横向排列，然后进行中文分词，根据总体的分词结果的单词个数计算权重。然后根据两次权重比较，判断此短信是正常排列的短信，还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字，识别是否垃圾短信，进而避免了垃圾短信的漏判，提高垃圾短信的查全率和查准率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文分词识别不规则垃圾短信的方法
本专利技术涉及一种垃圾短信的识别方法，尤其涉及一种基于中文分词识别不规则垃圾短信的方法。
技术介绍
目前，短信息服务作为移动通信网络的一种基本业务，在为用户提供便捷消息通信服务的同时，也成为反动、涉黄和诈骗等非法短信的发送渠道。在垃圾短信治理领域，具有申请号：200710036831.4的专利《一种基于信令处理技术的短信净化系统》，该专利定义的系统由若干台连接于七号信令网中信令链路的信令消息检测处理装置MPM和一业务管理中心CSM构成。MPM对流经的短信消息进行分析处理,根据业务规则与黑白名单，实现短信的选通与拦截处理，将相关消息传送给CSM，CSM进行频次统计、业务规则与用户数据管理与同步。在MPM和CSM系统中，针对垃圾短信的发送特征多为诈骗或者广告，采用发送行为分析（流量）和文本特征分析（关键字等）方式进行短信治理，对于垃圾短信的发现和治理是一定成效的。而在短信内容过滤上，一般按照短信的编码顺序，分析短信，判断是否符合关键字过滤规则，也就是在手机上通常看到的从左到右的短信排列方式。但是，为了规避关键字过滤，垃圾短信出现了采用了不规则排列方式，如仿照古文从上至下的文本排列方式，区别与正常短信排列方式，以逃避关键字过滤。对于此种不规则垃圾短信，目前多采用单个关键字组合联合判定的方式，判定短信是否符合关键字规则，即把关键字“发票”拆分为“发”和“票”两个关键字，同时符合“发”和“票”的短信等同于“发票”。此种方法虽然一定程度上识别出符合关键字的不规则垃圾短信，但也同时造成部分不是包含“发票”的正常短信被判别为垃圾短...
一种基于中文分词识别不规则垃圾短信的方法

【技术保护点】
一种基于中文分词识别不规则垃圾短信的方法，其特征在于，包括下列步骤：步骤S1，接收短信，读取短信内容；步骤S2，根据短信内容，按照从左到右的横向排列方式，进行中文分词；步骤S3，按步骤S2的中文分词结果，记录单词个数W1，W1为正整数，计算短信横排权重Q1＝1/(1+W1)；步骤S4，根据不规则排列短信用控制字符控制每行短信字符数的特点，计算上述接收的短信的不规则区域，将不规则区域中的短信内容按照竖向排列方式读取，按照读取的短信内容，将上述接收的短信转换为横向排列的短信；步骤S5，对步骤S4中转换得到的短信，按照从左到右的横向排列方式进行中文分词；步骤S6，按步骤S5的中文分词结果，记录单词个数W2，W2为正整数，计算短信竖排权重Q2＝1/(1+W2)；步骤S7，比较短信横排权重Q1与短信竖排权重Q2，若Q1<Q2，进入步骤S8b；若Q1>＝Q2，进入步骤S8a；步骤S8a，判定短信为正常排列短信；步骤S8b，判定短信为不规则排列短信，所述步骤S4中，所述的计算上述接收的短信的不规则区域，指：计算每行字符的个数，按照每行的字符个数模型，确定短信的不规则区域，所述的每行的字符...

【技术特征摘要】
1.一种基于中文分词识别不规则垃圾短信的方法，其特征在于，包括下列步骤：步骤S1，接收短信，读取短信内容；步骤S2，根据短信内容，按照从左到右的横向排列方式，进行中文分词；步骤S3，按步骤S2的中文分词结果，记录单词个数W1，W1为正整数，计算短信横排权重Q1＝1/(1+W1)；步骤S4，根据不规则排列短信用控制字符控制每行短信字符数的特点，计算上述接收的短信的不规则区域，将不规则区域中的短信内容按照竖向排列方式读取，按照读取的短信内容，将上述接收的短信转换为横向排列的短信；步骤S5，对步骤S4中转换得到的短信，按照从左到右的横向排列方式进行中文分词；步骤S6，按步骤S5的中文分词结果，记录单词个数W2，W2为正整数，计算短信竖排权重Q2＝1/(1+W2)；步骤S7，比较短信横排权重Q1与短信竖排权重Q2，若Q1<Q2，进入步骤S8b；若Q1>＝Q2，进入步骤S8a；步骤S8a，判定短信为正常排列短信；步...

【专利技术属性】
技术研发人员：肖克华，
申请(专利权)人：上海粱江通信系统股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人