The embodiment of the invention provides a method, device, storage medium and device for identifying spam short messages, which is used to reduce the missed detection rate of spam short messages. The method includes: converting text of short message into corresponding first pinyin; judging whether there is a Pinyin combination matching the second Pinyin corresponding to the preset keyword in the first pinyin; identifying the short message as spam message if the Pinyin combination matching the second Pinyin exists in the first pinyin.
【技术实现步骤摘要】
一种垃圾短信鉴别的方法、装置、存储介质和设备
本专利技术涉及信息安全
,尤其涉及一种垃圾短信鉴别的方法、装置、存储介质和设备。
技术介绍
随着用户对信息安全的需求增长,垃圾短信鉴别技术也日益普及化和精准化。其中一种鉴别方法为从短信文本中识别预设关键词,如果从该短信文本中识别到了预设关键词,则将该短信鉴别为垃圾短信,反之,如果从该短信文本中未识别到预设关键词,则将该短信鉴别为非垃圾短信。然而,垃圾短信发送者为了规避以上鉴别方法,将短信文本中的关键词部分或全部文本以其他形式替代。举例来说,对于邀请用户刷单的垃圾短信,其预设关键词通常为“刷单”,而为了规避“刷单”这个关键词,发送者会将“刷单”替换为“刷單”,即将简体“单”字替换为其繁体。进而在鉴别过程中,由于“刷單”并不能与“刷单”匹配上,从而导致该条垃圾短信被漏检。所以,现有技术中垃圾短信的漏检率还很高。
技术实现思路
本专利技术实施例提供了一种垃圾短信鉴别的方法、装置、存储介质和设备,用于降低垃圾短信的漏检率。第一方面,本专利技术提供了一种垃圾短信鉴别的方法,包括:将短信的文本转化为对应的第一拼音;判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。可选的,在所述将短信的文本转化为对应的第一拼音之前,还包括:对所述短信的文本进行分词,获得一个或多个词组;所述将短信的文本转化为对应的第一拼音,包括:将分词得到的每个所述词组转化为对应的拼音组合。可选的,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。可选 ...
【技术保护点】
1.一种垃圾短信鉴别的方法,其特征在于,包括:将短信的文本转化为对应的第一拼音;判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。
【技术特征摘要】
1.一种垃圾短信鉴别的方法,其特征在于,包括:将短信的文本转化为对应的第一拼音;判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。2.如权利要求1所述的方法,其特征在于,在所述将短信的文本转化为对应的第一拼音之前,还包括:对所述短信的文本进行分词,获得一个或多个词组;所述将短信的文本转化为对应的第一拼音,包括:将分词得到的每个所述词组转化为对应的拼音组合。3.如权利要求2所述的方法,其特征在于,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。4.如权利要求3所述的方法,其特征在于,所述第二拼音也包括所述预设关键词中每个字的拼音和所述预设关键词词组的拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:按照相同顺位,比较所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音,判断所述拼音组合中每个字的拼音是否与所述第二拼音中每个字的拼音均匹配;判断所述拼音组合中所述词组的拼音是否与所述预设关键词词组的拼音匹配;如果所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音均匹配,且所述拼音组合中所述词组的拼音与所述预设关键词词组的拼音匹配,则表示所述拼音组合与所述第二拼音匹配,所述第一拼音中存在与所述第二拼音匹配的所述拼音组合。5.如权利要求1或4所述的方法,其特征在于,如果所述第二拼音存在相似拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:判断所述第一拼音中是否存在与所述第二拼音一致、或者与所述第二...
【专利技术属性】
技术研发人员:李佳,李强,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。