一种垃圾短信鉴别的方法、装置、存储介质和设备制造方法及图纸

技术编号:21361278 阅读:16 留言:0更新日期:2019-06-15 09:19
本发明专利技术实施例提供了一种垃圾短信鉴别的方法、装置、存储介质和设备,用于降低垃圾短信的漏检率。所述方法包括:将短信的文本转化为对应的第一拼音;判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。

A Method, Device, Storage Media and Equipment for Spam Short Message Identification

The embodiment of the invention provides a method, device, storage medium and device for identifying spam short messages, which is used to reduce the missed detection rate of spam short messages. The method includes: converting text of short message into corresponding first pinyin; judging whether there is a Pinyin combination matching the second Pinyin corresponding to the preset keyword in the first pinyin; identifying the short message as spam message if the Pinyin combination matching the second Pinyin exists in the first pinyin.

【技术实现步骤摘要】
一种垃圾短信鉴别的方法、装置、存储介质和设备
本专利技术涉及信息安全
,尤其涉及一种垃圾短信鉴别的方法、装置、存储介质和设备。
技术介绍
随着用户对信息安全的需求增长,垃圾短信鉴别技术也日益普及化和精准化。其中一种鉴别方法为从短信文本中识别预设关键词,如果从该短信文本中识别到了预设关键词,则将该短信鉴别为垃圾短信,反之,如果从该短信文本中未识别到预设关键词,则将该短信鉴别为非垃圾短信。然而,垃圾短信发送者为了规避以上鉴别方法,将短信文本中的关键词部分或全部文本以其他形式替代。举例来说,对于邀请用户刷单的垃圾短信,其预设关键词通常为“刷单”,而为了规避“刷单”这个关键词,发送者会将“刷单”替换为“刷單”,即将简体“单”字替换为其繁体。进而在鉴别过程中,由于“刷單”并不能与“刷单”匹配上,从而导致该条垃圾短信被漏检。所以,现有技术中垃圾短信的漏检率还很高。
技术实现思路
本专利技术实施例提供了一种垃圾短信鉴别的方法、装置、存储介质和设备,用于降低垃圾短信的漏检率。第一方面,本专利技术提供了一种垃圾短信鉴别的方法,包括:将短信的文本转化为对应的第一拼音;判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。可选的,在所述将短信的文本转化为对应的第一拼音之前,还包括:对所述短信的文本进行分词,获得一个或多个词组;所述将短信的文本转化为对应的第一拼音,包括:将分词得到的每个所述词组转化为对应的拼音组合。可选的,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。可选的,所述第二拼音也包括所述预设关键词中每个字的拼音和所述预设关键词词组的拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:按照相同顺位,比较所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音,判断所述拼音组合中每个字的拼音是否与所述第二拼音中每个字的拼音均匹配;判断所述拼音组合中所述词组的拼音是否与所述预设关键词词组的拼音匹配;如果所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音均匹配,且所述拼音组合中所述词组的拼音与所述预设关键词词组的拼音匹配,则表示所述拼音组合与所述第二拼音匹配,所述第一拼音中存在与所述第二拼音匹配的所述拼音组合。可选的,如果所述第二拼音存在相似拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:判断所述第一拼音中是否存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,如果所述第一拼音中存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,则表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合;如果所述第二拼音不存在相似拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:判断所述第一拼音中是否存在与所述第二拼音一致的拼音组合,如果所述第一拼音中存在与所述第二拼音一致的所述拼音组合,表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合。可选的,所述拼音组合为所述短信的文本中每个字的拼音与相邻字的拼音的组合。可选的,在所述将短信的文本转化为对应的第一拼音之前,还包括:检查所述短信的文本中是否存在不满足预设规则的文本;如果所述短信的文本中存在不满足所述预设规则的文本,则执行所述将短信的文本转化为对应的第一拼音的步骤。第二方面,本专利技术提供了一种垃圾短信鉴别的装置,包括:转化模块,用于将短信的文本转化为对应的第一拼音;判断模块,用于判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;鉴别模块,用于如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。可选的,所述装置还包括分词模块,用于在将短信的文本转化为对应的第一拼音之前,对所述短信的文本进行分词,获得一个或多个词组;所述转化模块用于将分词得到的每个所述词组转化为对应的拼音组合。可选的,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。可选的,所述第二拼音也包括所述预设关键词中每个字的拼音和所述预设关键词词组的拼音,所述判断模块用于按照相同顺位,比较所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音,判断所述拼音组合中每个字的拼音是否与所述第二拼音中每个字的拼音均匹配;判断所述拼音组合中所述词组的拼音是否与所述预设关键词词组的拼音匹配;如果所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音均匹配,且所述拼音组合中所述词组的拼音与所述预设关键词词组的拼音匹配,则表示所述拼音组合与所述第二拼音匹配,所述第一拼音中存在与所述第二拼音匹配的所述拼音组合。可选的,如果所述第二拼音存在相似拼音,所述判断模块用于判断所述第一拼音中是否存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,如果所述第一拼音中存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,则表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合;如果所述第二拼音不存在相似拼音,所述判断模块用于判断所述第一拼音中是否存在与所述第二拼音一致的拼音组合,如果所述第一拼音中存在与所述第二拼音一致的所述拼音组合,表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合。可选的,所述拼音组合为所述短信的文本中每个字的拼音与相邻字的拼音的组合。可选的,所述装置还包括检查模块,用于在将短信的文本转化为对应的第一拼音之前,检查所述短信的文本中是否存在不满足预设规则的文本;如果所述短信的文本中存在不满足所述预设规则的文本,通知所述转化模块执行所述将短信的文本转化为对应的第一拼音的步骤。第三方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一项所述方法的步骤。第四方面,本专利技术提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:在本专利技术实施例的技术方案中,将短信的文本转化为对应的第一拼音,判断第一拼音中是否存在与预设关键词对应的第二拼音匹配拼音组合,如果第一拼音中存在与第二拼音匹配拼音组合,例如判断出短信文本中“刷單”的拼音组合“shuadan”与“刷单”的第二拼音“shuadan”匹配,则将该短信鉴别为垃圾短信。所以,本专利技术实施例的技术方案能够鉴别出部分或全部关键词文本替换的垃圾短信,解决了垃圾短信漏检率高的技术问题,降低了漏检率。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例中垃圾短信鉴别的方法流程图;图2为本专利技术实施例中垃圾短信鉴别的装置结构示意图;图3为本专利技术实施例中计算机设备的结构示意图。具体实施方式本专利技术实施例提供了一种垃圾短信鉴别的方法、装置、存储介质和本文档来自技高网...

【技术保护点】
1.一种垃圾短信鉴别的方法,其特征在于,包括:将短信的文本转化为对应的第一拼音;判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。

【技术特征摘要】
1.一种垃圾短信鉴别的方法,其特征在于,包括:将短信的文本转化为对应的第一拼音;判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。2.如权利要求1所述的方法,其特征在于,在所述将短信的文本转化为对应的第一拼音之前,还包括:对所述短信的文本进行分词,获得一个或多个词组;所述将短信的文本转化为对应的第一拼音,包括:将分词得到的每个所述词组转化为对应的拼音组合。3.如权利要求2所述的方法,其特征在于,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。4.如权利要求3所述的方法,其特征在于,所述第二拼音也包括所述预设关键词中每个字的拼音和所述预设关键词词组的拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:按照相同顺位,比较所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音,判断所述拼音组合中每个字的拼音是否与所述第二拼音中每个字的拼音均匹配;判断所述拼音组合中所述词组的拼音是否与所述预设关键词词组的拼音匹配;如果所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音均匹配,且所述拼音组合中所述词组的拼音与所述预设关键词词组的拼音匹配,则表示所述拼音组合与所述第二拼音匹配,所述第一拼音中存在与所述第二拼音匹配的所述拼音组合。5.如权利要求1或4所述的方法,其特征在于,如果所述第二拼音存在相似拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:判断所述第一拼音中是否存在与所述第二拼音一致、或者与所述第二...

【专利技术属性】
技术研发人员:李佳李强
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1