一种垃圾短信的识别方法、装置及存储介质制造方法及图纸

技术编号:20494786 阅读:80 留言:0更新日期:2019-03-03 00:05
本发明专利技术实施例公开了一种垃圾短信的识别方法、装置及存储介质;该方法可以包括:根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器;其中,所述指示信息用于指示所述短信样本是否为垃圾短信;将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练,得到训练后的第二指纹库和训练后的第二分类器;基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证,确定所述待验证短信的验证结果;其中,所述验证结果包括所述待验证短信为垃圾短信,或所述待验证短信不为垃圾短信。能够实现两种垃圾短信识别技术的互补,也同样能够提高识别的成功率。

A Spam Message Recognition Method, Device and Storage Medium

The embodiment of the present invention discloses a method, device and storage medium for identifying spam short messages; the method may include: generating a first fingerprint library and a first classifier according to the short message samples in the short message sample library and the corresponding instruction information of each short message sample; in which the instruction information is used to indicate whether the short message samples are spam short messages; and using the short message sample library and The first fingerprint database and the first classifier are trained according to the set butterfly cross-training strategy to obtain the trained second fingerprint database and the trained second classifier; the verification results of the text messages to be verified are determined based on the set serial verification strategy and the second fingerprint database and the second classifier; The results include that the message to be verified is spam or that the message to be verified is not spam. It can realize the complementarity of two spam short message recognition technologies, and also can improve the recognition success rate.

【技术实现步骤摘要】
一种垃圾短信的识别方法、装置及存储介质
本专利技术涉及通信
,尤其涉及一种垃圾短信的识别方法、装置及存储介质。
技术介绍
随着短信业务的发展,越来越多的用户收到了垃圾短信的骚扰。目前对于垃圾短信的识别技术,通常采用的是基于机器学习的识别方法,这样的方法需要对大量的经人工标定的短信样本进行学习,使机器具有自动对短信进行分类的能力。目前基于机器学习的垃圾短信识别方法主要分为指纹匹配方式和分类器方式两类。其中,指纹匹配方式是一种模糊匹配方法,其原理是,首先基于SimHash等去重算法提取已标定短信样本的指纹特征,并根据标定的短信类别(例如垃圾短信、正常短信等)将所提取的指纹入库;对于待判定短信采取同样的方式提取特征,将待判定短信的特征与指纹库中的短信指纹进行模糊匹配,匹配成功的即可判定为垃圾短信(或正常短信)。而分类器方式则是一种基于特征建模的方法,首先将待学习的短信进行分词,具体的分词方式可以基于词特征,例如“今天/是/一个/好/日子”,或基于字特征,例如“今/天/是/一/个/好/日/子”,接着采用适当的特征(比如一元词频特征或二元词频特征),对海量标定好的短信样本进行训练学习,形成垃圾短信、正常短信等不同语言模型,结合贝叶斯、支持向量机(SVM,SupportVectorMachine)等分类方法组成分类器,再分别利用这些分类器对待判定短信进行打分,根据分数对待判定短信进行分类。上述两种基于机器学习的垃圾短信识别方法均需要提供大量准确的已标定的短信样本进行学习,已标定的样本数量越多,标定越精确,短信样本的内容与现网样本越相近,识别的效果就越理想,这就要求已标定的样本应当随着识别技术的应用情况进行不断更新。由于需要进行标定的短信样本数量极大,且需要定期进行更新,所以在实际应用中,对标定的短信样本出现标定错误的情况时有发生,影响了识别系统的准确性。而且,垃圾短信识别方法涉及到对垃圾短信的过滤,由于垃圾短信识别方法对于识别准确性的要求较高,因此,在提高识别准确性的同时,也需要考虑标定样本对识别结果产生扰动误差的情况。
技术实现思路
为解决上述技术问题,本专利技术实施例期望提供一种垃圾短信的识别方法、装置及存储介质,能够降低对短信样本进行标定错误的情况发生,提升垃圾短信的识别准确率。本专利技术的技术方案是这样实现的:第一方面,本专利技术实施例提供了一种垃圾短信的识别方法,所述方法包括:根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器;其中,所述指示信息用于指示所述短信样本是否为垃圾短信;将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练,得到训练后的第二指纹库和训练后的第二分类器;基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证,确定所述待验证短信的验证结果;其中,所述验证结果包括所述待验证短信为垃圾短信,或所述待验证短信不为垃圾短信。在上述方案中,所述根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器,包括:获取所述短信样本库中每条短信样本的SimHash信息指纹;按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹;按照短信样本对应的指示信息将剔除后的SimHash信息指纹生成第一指纹库;其中,所述第一指纹库包括第一黑指纹库和第一白指纹库;所述第一黑指纹库中的SimHash信息指纹所对应的短信样本为垃圾短信;所述第一白指纹库中的SimHash信息指纹所对应的短信样本为非垃圾短信;根据所述短信样本库中的每条短信样本提取短信词频特征;根据所述短信样本库中的每条短信样本对应的指示信息以及所述短信词频特征通过设定的训练策略生成第一分类器;其中,所述第一分类器包括第一黑分类器和第一白分类器。在上述方案中,所述按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹,包括:从所有的SimHash信息指纹中生成SimHash信息指纹对;其中,每个SimHash信息指纹对中包含两个SimHash信息指纹;计算每个SimHash信息指纹对中两个SimHash信息指纹之间的相似度度量值;当所述相似度度量值小于或等于预设的阈值时,将两个SimHash信息指纹中的任一个进行剔除;当所述相似度度量值大于预设的阈值时,将两个SimHash信息指纹均进行保留。在上述方案中,将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练,得到训练后的第二指纹库和训练后的第二分类器,可以包括:所述短信样本库中每条短信样本的SimHash信息指纹与第一指纹库中的SimHash信息指纹进行匹配,在所述短信样本库中确定出现指纹冲突的短信样本;将出现指纹冲突的短信样本从所述短信样本库中进行剔除,得到第一剔除后短信样本库;根据第一剔除后短信样本库中的短信样本提取短信词频特征;通过设定的训练策略按照第一剔除后短信样本库中的垃圾短信样本以及非垃圾短信样本的短信词频特征生成所述第二分类器;其中,第二分类器包括第二黑分类器和第二白分类器。将所述短信样本库中每条短信样本分别通过第一黑分类器和第一白分类器进行评分,当评分差距在预设的分差阈值内时,确定短信样本为误差样本;将所述误差样本从所述短信样本库中剔除,得到第二剔除后短信样本库;获取所述第二剔除后短信样本库中每条短信样本的SimHash信息指纹;按照设定的相似度剔除策略从所述第二剔除后短信样本库的SimHash信息指纹中剔除相似的SimHash信息指纹;按照短信样本对应的指示信息将所述第二剔除后短信样本库剔除后的SimHash信息指纹生成所述第二指纹库。在上述方案中,所述基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证,确定所述待验证短信的验证结果,包括:获取待验证短信的SimHash信息指纹;根据预设的相似度判定策略从所述第二指纹库中确定与所述待验证短信的SimHash信息指纹最相似的SimHash信息指纹;当所述最相似的SimHash信息指纹与所述待验证短信的SimHash信息指纹之间的相似度度量值小于或等于预设的阈值,则所述待验证短信的验证结果确定为所述最相似的SimHash信息指纹对应的指示信息;当所述最相似的SimHash信息指纹与所述待验证短信的SimHash信息指纹之间的相似度度量值大于预设的阈值,则将所述待验证短信与所述相似度度量值通过所述第二分类器进行判定,确定所述待验证短信的验证结果。在上述方案中,所述将所述待验证短信与所述相似度度量值通过所述第二分类器进行判定,确定所述待验证短信的指示信息,包括:将所述待验证短信进行分词,根据分词结果提取所述待验证短信的短信特征;分别通过所述第二黑分类器和第二白分类器对所述待验证短信进行评分,获得关于所述待验证短信的黑分类器评分x以及白分类器评分y;确定与所述相似度度量呈正相关关系的判定阈值a;其中,所述判定阈值a大于1;根据与a以及与之间的大小关系确定所述待验证短信的验证结果。在上述方案中,所述根据与a以及与之间的大小关系确定所述待验证短信的验证结果,包括:若则确定所述待验证短信为垃圾短信;若则确定所述待验证短本文档来自技高网
...

【技术保护点】
1.一种垃圾短信的识别方法,其特征在于,所述方法包括:根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器;其中,所述指示信息用于指示所述短信样本是否为垃圾短信;将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练,得到训练后的第二指纹库和训练后的第二分类器;基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证,确定所述待验证短信的验证结果;其中,所述验证结果包括所述待验证短信为垃圾短信,或所述待验证短信不为垃圾短信。

【技术特征摘要】
1.一种垃圾短信的识别方法,其特征在于,所述方法包括:根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器;其中,所述指示信息用于指示所述短信样本是否为垃圾短信;将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练,得到训练后的第二指纹库和训练后的第二分类器;基于设定的串行验证策略以及所述第二指纹库和所述第二分类器将待验证短信进行验证,确定所述待验证短信的验证结果;其中,所述验证结果包括所述待验证短信为垃圾短信,或所述待验证短信不为垃圾短信。2.根据权利要求1所述的方法,其特征在于,所述根据短信样本库中的短信样本以及每条短信样本对应的指示信息生成第一指纹库和第一分类器,包括:获取所述短信样本库中每条短信样本的SimHash信息指纹;按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹;按照短信样本对应的指示信息将剔除后的SimHash信息指纹生成第一指纹库;其中,所述第一指纹库包括第一黑指纹库和第一白指纹库;所述第一黑指纹库中的SimHash信息指纹所对应的短信样本为垃圾短信;所述第一白指纹库中的SimHash信息指纹所对应的短信样本为非垃圾短信;根据所述短信样本库中的每条短信样本提取短信词频特征;根据所述短信样本库中的每条短信样本对应的指示信息以及所述短信词频特征通过设定的训练策略生成第一分类器;其中,所述第一分类器包括第一黑分类器和第一白分类器。3.根据权利要求2所述的方法,其特征在于,所述按照设定的相似度剔除策略从所有的SimHash信息指纹中剔除相似的SimHash信息指纹,包括:从所有的SimHash信息指纹中生成SimHash信息指纹对;其中,每个SimHash信息指纹对中包含两个SimHash信息指纹;计算每个SimHash信息指纹对中两个SimHash信息指纹之间的相似度度量值;当所述相似度度量值小于或等于预设的阈值时,将两个SimHash信息指纹中的任一个进行剔除;当所述相似度度量值大于预设的阈值时,将两个SimHash信息指纹均进行保留。4.根据权利要求1所述的方法,其特征在于,将所述短信样本库以及所述第一指纹库和所述第一分类器按照设定的蝶形交叉训练策略进行训练,得到训练后的第二指纹库和训练后的第二分类器,可以包括:所述短信样本库中每条短信样本的SimHash信息指纹与第一指纹库中的SimHash信息指纹进行匹配,在所述短信样本库中确定出现指纹冲突的短信样本;将出现指纹冲突的短信样本从所述短信样本库中进行剔除,得到第一剔除后短信样本库;根据第一剔除后短信样本库中的短信样本提取短信词频特征;通过设定的训练策略按照第一剔除后短信样本库中的垃圾短信样本以及非垃圾短信样本的短信词频特征生成所述第二分类器;其中,第二分类器...

【专利技术属性】
技术研发人员:张滨娄涛林华生贾强周莹
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1