短信识别方法、装置、设备及存储介质制造方法及图纸

技术编号:32280872 阅读:17 留言:0更新日期:2022-02-12 19:48
本申请提供一种短信识别方法、装置、设备及存储介质,该方案中,通过获取第一特征码,其中,第一特征码包含M个子特征,M个子特征中每个子特征包含一个或多个字,每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值,且M个子特征包含的所有字包含于同一个历史短信中,M个子特征中包含多个字的子特征中的多个字在历史短信中的位置是连续的;根据第一特征码识别短信集合中的垃圾短信,其中,垃圾短信包含M个子特征,从而实现提高对垃圾短信的识别准确率的目的。短信的识别准确率的目的。短信的识别准确率的目的。

【技术实现步骤摘要】
短信识别方法、装置、设备及存储介质


[0001]本申请涉及计算机领域,尤其涉及一种短信识别方法、装置、设备及存储介质。

技术介绍

[0002]随着移动通信技术的发展,使用移动通信业务的用户越来越多,这也导致一些用户经常接收到垃圾短信,若用户对垃圾短信中信息的真实度无法辨别,就会导致用户被骗,造成用户信息安全和经济安全受到损害。因此,如何识别出垃圾短信显得尤为重要。
[0003]一种识别垃圾短信的方法如下:通过人工设置垃圾短信的关键字,若待处理短信中匹配到该关键字,则认为该待处理短信是垃圾短信;若待处理短信中未匹配到该关键字,则认为该待处理短信不是垃圾短信。但是,若垃圾短信中出现大量的通假字、发音相近或者形体相似的生僻字来代替关键字,或者在垃圾短信中的关键字的位置随机插入特殊符号,则会由于无法识别出垃圾短信中的关键字,导致无法识别出垃圾短信。因此,目前的识别垃圾短信的方法存在对垃圾短信的识别准确率较低的问题。

技术实现思路

[0004]本申请实施例提供一种短信识别方法、装置、设备及存储介质,用于解决现有技术中的对垃圾短信进行识别的技术方案,存在识别准确率较低的问题。
[0005]第一方面,本申请实施例提供一种短信识别方法,该方法包括:获取第一特征码,其中,第一特征码包含M个子特征,M个子特征中每个子特征包含一个或多个字,每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值,且M个子特征包含的所有字包含于同一个历史短信中,M个子特征中包含多个字的子特征中的多个字在历史短信中的位置是连续的;根据第一特征码识别短信集合中的垃圾短信,其中,垃圾短信包含M个子特征。
[0006]本申请实施例提供的技术方案可以包括以下有益效果:由于获取到的第一特征码中包含的所有字在历史短信集中出现的频次都大于预设频次阈值,也即,第一特征码中包含的所有字都为历史短信集中的高频字,这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字,因此,可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰,从而在利用第一特征码识别垃圾短信时,可以有效地提高识别垃圾短信的准确率。
[0007]第二方面,本申请实施例提供一种短信识别装置,该装置包括用于实现第一方面中的方法的各个功能模块,任意功能模块可以通过软件/或硬件的方式实现。
[0008]例如,该装置可以包括获取模块和识别模块。
[0009]获取模块,用于获取第一特征码,其中,第一特征码包含M个子特征,M个子特征中每个子特征包含一个或多个字,每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值,且M个子特征包含的所有字包含于同一个历史短信中,M个子特征中包含多个字的子特征中的多个字在历史短信中的位置是连续的;
[0010]识别模块,用于根据第一特征码识别短信集合中的垃圾短信,其中,垃圾短信包含
M个子特征。
[0011]本申请实施例提供的技术方案可以包括以下有益效果:由于获取到的第一特征码中包含的所有字在历史短信集中出现的频次都大于预设频次阈值,也即,第一特征码中包含的所有字都为历史短信集中的高频字,这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字,因此,可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰,从而在利用第一特征码识别垃圾短信时,可以有效地提高识别垃圾短信的准确率。
[0012]第三方面,本申请实施例提供一种电子设备,包括:处理器,存储器,交互接口;存储器用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行第一方面的短信识别方法。
[0013]本申请实施例提供的技术方案可以包括以下有益效果:由于获取到的第一特征码中包含的所有字在历史短信集中出现的频次都大于预设频次阈值,也即,第一特征码中包含的所有字都为历史短信集中的高频字,这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字,因此,可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰,从而在利用第一特征码识别垃圾短信时,可以有效地提高识别垃圾短信的准确率。
[0014]第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面的短信识别方法。
[0015]本申请实施例提供的技术方案可以包括以下有益效果:由于获取到的第一特征码中包含的所有字在历史短信集中出现的频次都大于预设频次阈值,也即,第一特征码中包含的所有字都为历史短信集中的高频字,这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字,因此,可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰,从而在利用第一特征码识别垃圾短信时,可以有效地提高识别垃圾短信的准确率。
[0016]第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时用于实现第一方面的短信识别方法。
[0017]本申请实施例提供的技术方案可以包括以下有益效果:由于获取到的第一特征码中包含的所有字在历史短信集中出现的频次都大于预设频次阈值,也即,第一特征码中包含的所有字都为历史短信集中的高频字,这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字,因此,可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰,从而在利用第一特征码识别垃圾短信时,可以有效地提高识别垃圾短信的准确率。
附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本申请实施例提供的短信识别方法的应用场景示意图;
[0020]图2为本申请实施例提供的短信识别方法实施例一的流程图;
[0021]图3为本申请实施例提供的短信识别方法实施例二的流程图;
[0022]图4为本申请实施例提供的短信识别方法实施例三的流程图;
[0023]图5为本申请实施例提供的短信识别装置的结构示意图;
[0024]图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0025]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在根据本实施例的启示下做出的所有其他实施例,都属于本申请保护的范围。
[0026]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短信识别方法,其特征在于,包括:获取第一特征码,其中,所述第一特征码包含M个子特征,所述M个子特征中每个子特征包含一个或多个字,所述每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值,且所述M个子特征包含的所有字包含于同一个历史短信中,所述M个子特征中包含多个字的子特征中的多个字在所述历史短信中的位置是连续的;根据所述第一特征码识别短信集合中的垃圾短信,其中,所述垃圾短信包含所述M个子特征。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征码识别短信集合中的垃圾短信,包括:将所述短信集合中与所述第一特征码匹配的短信识别为可疑短信,得到可疑短信集,其中,所述可疑短信包含所述M个子特征;将所述可疑短信集中与第二特征码不匹配的短信确定为垃圾短信,其中,所述第二特征码包含N个子特征,所述N个子特征中每个子特征包含一个或多个字,所述N个子特征中的每个子特征中的每个字为汉字白名单中的字。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征码识别短信集合中的垃圾短信,包括:将所述短信集合划分为多个短信子集,其中,所述多个短信子集与多个可疑度等级一一对应;按照所述多个短信子集的可疑度等级从高到低的顺序,根据所述第一特征码依次识别所述多个短信子集中的垃圾短信。4.根据权利要求3所述的方法,其特征在于,所述将所述短信集合划分为多个短信子集,包括:按照所述短信集合中的短信的内容相似度,将所述短信集合划分为多个短信子集,其中,所述多个短信子集中每个短信子集包含所述短信集合中内容相似的一个或多个短信,所述短信子集中的短信的内容相似度越高,所述短信子集的可疑度等级越高,和/或,所述短信子集中的短信数量越多,所述短信子集的可疑度等级越高。5.根据权利要求1所述的方法,其特征在于,所述获取第一特征码,包括:获取所述历史短信集中所有短信的所有字的出现频次;根据所述所有字中每个字的出现频次确定高频字集,其中,所述...

【专利技术属性】
技术研发人员:霍明德周国语及莹翁国栋刘韧
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1