一种垃圾短信识别方法与系统技术方案

技术编号:11408073 阅读:151 留言:0更新日期:2015-05-06 07:23
本发明专利技术公开了一种垃圾短信识别方法和系统,检索垃圾短信关键词时以字为单位,实现了从数量众多的有序规则中包含的数量庞大的关键词的处理,简化到有限的字的处理,通过在关键词库数据结构中逐层匹配得到关键词,短信中关键词的查找借助根据关键词构造的哈希森林,深度仅有1~2层,每一层代表所有需要检索的关键词组的字,层内采用哈希查找,查找出目标关键词后再根据有序规则数据结构判断关键词是否依次满足预置规则的关键词组合内容与要求的顺序,由于算法时间复杂度仅与哈希森林的平均深度有关,所以可以在规则多且复杂、关键词数量众多的情况下保证算法时间复杂度为常数,从而实现了快速地对短信中的垃圾短信进行识别。

【技术实现步骤摘要】

【技术保护点】
一种垃圾短信识别方法,其特征在于,包括:步骤A:在短信中未被确定为关键词的各个字符中,按顺序选择一个作为目标检测字;步骤B:在预先设置的各个关键词组中,判断是否具有一个首字符与所述目标检测字一致的关键词组,如果否,则返回步骤A,直至检测完所述短信的各个字符;如果是,则执行步骤C;步骤C:通过对根据所述关键词构造的哈希森林判断所述短信中是否具有与目标关键词组一致的词组,如果是,则将所述词组作为待组合关键词组,并返回步骤A,直至检测完所述短信的各个字符;否则,返回步骤A,直至检测完所述短信的各个字符;其中,所述目标关键词组为步骤B中所确定的首字符与所述目标检测字一致的关键词组,所述哈希森林的每一层包含组成所述关键词的字,所述每一层内采用哈希查找;当检测得到待组合关键词组时,判断各个待组合关键词组的组合是否符合预置的规则,如果是,则确定所述短信为垃圾短信。

【技术特征摘要】

【专利技术属性】
技术研发人员:黃筱芬夏天高金容曾斯生胡玉龙
申请(专利权)人:上海大汉三通通信股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1