一种垃圾短信的识别方法、装置及存储介质制造方法及图纸

技术编号：20494786 阅读：80 留言：0更新日期：2019-03-03 00:05

本发明专利技术实施例公开了一种垃圾短信的识别方法、装置及存储介质；该方法可以包括：根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器；其中，所述指示信息用于指示所述短信样本是否为垃圾短信；将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器；基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果；其中，所述验证结果包括所述待验证短信为垃圾短信，或所述待验证短信不为垃圾短信。能够实现两种垃圾短信识别技术的互补，也同样能够提高识别的成功率。

A Spam Message Recognition Method, Device and Storage Medium

The embodiment of the present invention discloses a method, device and storage medium for identifying spam short messages; the method may include: generating a first fingerprint library and a first classifier according to the short message samples in the short message sample library and the corresponding instruction information of each short message sample; in which the instruction information is used to indicate whether the short message samples are spam short messages; and using the short message sample library and The first fingerprint database and the first classifier are trained according to the set butterfly cross-training strategy to obtain the trained second fingerprint database and the trained second classifier; the verification results of the text messages to be verified are determined based on the set serial verification strategy and the second fingerprint database and the second classifier; The results include that the message to be verified is spam or that the message to be verified is not spam. It can realize the complementarity of two spam short message recognition technologies, and also can improve the recognition success rate.

全部详细技术资料下载

【技术实现步骤摘要】
一种垃圾短信的识别方法、装置及存储介质
本专利技术涉及通信
，尤其涉及一种垃圾短信的识别方法、装置及存储介质。
技术介绍
随着短信业务的发展，越来越多的用户收到了垃圾短信的骚扰。目前对于垃圾短信的识别技术，通常采用的是基于机器学习的识别方法，这样的方法需要对大量的经人工标定的短信样本进行学习，使机器具有自动对短信进行分类的能力。目前基于机器学习的垃圾短信识别方法主要分为指纹匹配方式和分类器方式两类。其中，指纹匹配方式是一种模糊匹配方法，其原理是，首先基于SimHash等去重算法提取已标定短信样本的指纹特征，并根据标定的短信类别(例如垃圾短信、正常短信等)将所提取的指纹入库；对于待判定短信采取同样的方式提取特征，将待判定短信的特征与指纹库中的短信指纹进行模糊匹配，匹配成功的即可判定为垃圾短信(或正常短信)。而分类器方式则是一种基于特征建模的方法，首先将待学习的短信进行分词，具体的分词方式可以基于词特征，例如“今天/是/一个/好/日子”，或基于字特征，例如“今/天/是/一/个/好/日/子”，接着采用适当的特征(比如一元词频特征或二元词频特征)，对海量标定好的短信样本进行训练学习，形成垃圾短信、正常短信等不同语言模型，结合贝叶斯、支持向量机(SVM，SupportVectorMachine)等分类方法组成分类器，再分别利用这些分类器对待判定短信进行打分，根据分数对待判定短信进行分类。上述两种基于机器学习的垃圾短信识别方法均需要提供大量准确的已标定的短信样本进行学习，已标定的样本数量越多，标定越精确，短信样本的内容与现网样本越相近，识别的效果就越理想，这就要...

【技术保护点】
1.一种垃圾短信的识别方法，其特征在于，所述方法包括：根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器；其中，所述指示信息用于指示所述短信样本是否为垃圾短信；将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器；基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果；其中，所述验证结果包括所述待验证短信为垃圾短信，或所述待验证短信不为垃圾短信。

【技术特征摘要】
1.一种垃圾短信的识别方法，其特征在于，所述方法包括：根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器；其中，所述指示信息用于指示所述短信样本是否为垃圾短信；将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器；基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证，确定所述待验证短信的验证结果；其中，所述验证结果包括所述待验证短信为垃圾短信，或所述待验证短信不为垃圾短信。2.根据权利要求1所述的方法，其特征在于，所述根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器，包括：获取所述短信样本库中每条短信样本的SimHash信息指纹；按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹；按照短信样本对应的指示信息将剔除后的SimHash信息指纹生成第一指纹库；其中，所述第一指纹库包括第一黑指纹库和第一白指纹库；所述第一黑指纹库中的SimHash信息指纹所对应的短信样本为垃圾短信；所述第一白指纹库中的SimHash信息指纹所对应的短信样本为非垃圾短信；根据所述短信样本库中的每条短信样本提取短信词频特征；根据所述短信样本库中的每条短信样本对应的指示信息以及所述短信词频特征通过设定的训练策略生成第一分类器；其中，所述第一分类器包括第一黑分类器和第一白分类器。3.根据权利要求2所述的方法，其特征在于，所述按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹，包括：从所有的SimHash信息指纹中生成SimHash信息指纹对；其中，每个SimHash信息指纹对中包含两个SimHash信息指纹；计算每个SimHash信息指纹对中两个SimHash信息指纹之间的相似度度量值；当所述相似度度量值小于或等于预设的阈值时，将两个SimHash信息指纹中的任一个进行剔除；当所述相似度度量值大于预设的阈值时，将两个SimHash信息指纹均进行保留。4.根据权利要求1所述的方法，其特征在于，将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练，得到训练后的第二指纹库和训练后的第二分类器，可以包括：所述短信样本库中每条短信样本的SimHash信息指纹与第一指纹库中的SimHash信息指纹进行匹配，在所述短信样本库中确定出现指纹冲突的短信样本；将出现指纹冲突的短信样本从所述短信样本库中进行剔除，得到第一剔除后短信样本库；根据第一剔除后短信样本库中的短信样本提取短信词频特征；通过设定的训练策略按照第一剔除后短信样本库中的垃圾短信样本以及非垃圾短信样本的短信词频特征生成所述第二分类器；其中，第二分类器...

【专利技术属性】
技术研发人员：张滨，娄涛，林华生，贾强，周莹，
申请(专利权)人：中国移动通信集团公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人