一种违规短信检测方法及系统技术方案

技术编号:14602677 阅读:53 留言:0更新日期:2017-02-09 09:38
本发明专利技术公开了一种违规短信检测方法,包括获取短信内容中的链接,获取链接指向的网页;根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接;如果短信包含违规链接,则判定短信为违规短信。同时提供了一种违规短信检测系统,包括链接获取模块,用于获取短信内容中的链接,获取链接指向的网页;违规关键词过滤模块,用于根据链接获取模块获取网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接;判定模块,用于根据违规关键词过滤模块的判断结果,判定短信包含违规链接,则判定短信为违规短信。通过本发明专利技术公开的技术方案实现对短信进行链接内容检测,有效提高违规短信拦截成功率。

【技术实现步骤摘要】

本专利技术涉及通讯
,尤其涉及一种违规短信检测方法和实现改方法的系统。
技术介绍
短信业务是手机通信业务中的重要组成部分,虽然在移动社交应用的冲击下个人使用短信交流的比重有所下降,但是基于群发短信的推广模式还是有其特别的优势而一直沿用。作为推广媒介的群发短信总会包含用户所要传达的信息,比如会有其产品名,或者会有链接,期望短信接收者通过链接查看他们的产品,给他们带来利益。短信发送平台作为服务方,有责任对群发短信的内容进行审查,保证其短信内容不包含赌博、色情等违法法律法规的相关内容。现有的违规短信的检测和监控方式大致可分为两类:一种是短信发送运营商的检测,通过人工查看或者对短信内容进行违规关键词过滤两种方式,筛选出违规短信并拦截其发送;运营商端检测能够从根本上拦截违规短信发送,但是短信发送商家为了避免被拦截会在短信中加入链接直接指向推广网页,而在文字内容中不出现违规词,轻易地避免被拦截。另一种是在手机端通过应用软件和违规词库,对手机接收到的短信进行关键词过滤,屏蔽包含违规内容的短信。由于手机端和服务端在性能和短信流量方面的巨大差距,该方法很难适用于短信发送平台的违规短信检测。
技术实现思路
本专利技术是为了克服现有技术中的短信发送平台难以对短信链接内容进行违规内容检测,而导致不能完全屏蔽违规短信发送的不足,提供了一种能够对发送短信进行链接内容检测,有效提高违规短信拦截成功率的一种违规短信检测方法及系统。为实现上述目的,本专利技术采用以下技术方案:本专利技术的一种违规短信检测方法,具体包括以下步骤:获取短信内容中的链接,获取链接指向的网页;根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接;如果短信包含违规链接,则判定短信为违规短信。作为优选,所述获取短信内容中的链接的步骤,进一步包括:获取短信的全部内容,利用正则表达式匹配方法,提取短信内容中的链接。作为优选,所述的根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接的步骤,进一步包括:解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源;对文字内容进行分词处理获得分词词组,将分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组;根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。作为优选,所述的网页要素包括未带超链接文字和带超链接文字,来源为未带超链接文字的违规词组的加权系数小于来源为带超链接文字的违规词组的加权系数。作为优选,所述的网页要素包括未带超链接图片和带超链接图片,来源为未带超链接图片的违规词组的加权系数小于来源为带超链接图片的违规词组的加权系数;所述的解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源的步骤,进一步包括:获取网页中的图片,并区分未带超链接图片和带超链接图片;使用光学字符识别技术识别并提取未带超链接图片中的文字内容,标记这部分文字内容的网页要素来源为未带超链接图片;使用光学字符识别技术识别并提取带超链接图片中的文字内容,标记这部分文字内容的网页要素来源为带超链接图片。本专利技术还提供一种违规短信检测系统,所述的系统包括:链接获取模块,用于获取短信内容中的链接,获取链接指向的网页;违规关键词过滤模块,用于根据链接获取模块获取网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接;判定模块,用于根据违规关键词过滤模块的判断结果,判定短信包含违规链接,则判定短信为违规短信。作为优选,所述的违规关键词过滤模块具体包括:文字解析单元,用于解析网页要素并提取文字内容;来源标记单元,用于标记文字解析单元提取的各部分文字内容的网页要素来源;分词单元,用于对文字解析单元提取的文字内容进行分词处理获得分词词组;违规词组识别单元,用于将分词单元获得的分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组;计算单元,用于根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;链接判定单元,用于当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。作为优选,所述的网页要素包括未带超链接文字和带超链接文字,来源为未带超链接文字的违规词组的加权系数小于来源为带超链接文字的违规词组的加权系数。作为优选,所述的网页要素包括未带超链接图片和带超链接图片,来源为未带超链接图片的违规词组的加权系数小于来源为带超链接图片的违规词组的加权系数;所述的文字解析单元包括光学字符识别子单元,用于识别提取网页中未带超链接图片和带超链接图片中的文字内容。本专利技术公开了一种违规短信检测方法,通过提取短信中的链接,并访问链接指向的网页,通过对网页的文字内容进行违规关键词过滤,判断该网页是否包含违规内容,从而判定链接是否为违规链接,如果短信包含违规链接则判定该短信为违规短信,并进行相应的拦截等操作。本方法中所述的违规关键词过滤的对象包括网页的纯文字内容和图片中的字符,并且根据内容是否带有链接,赋予不同的加权系数计算违规词组的词频,从而根据用户习惯更为合理地判定链接指向网页的合法性。同时,本专利技术还公开了一种违规短信检测系统,通过链接获取模块,获取短信内容中的链接并获取链接指向的网页,通过违规关键词过滤模块对所述的网页内容进行违规关键词过滤,从而判定网页是否为违规网页,检测并拦截包含违规链接的短信。本技术方案区别于现有技术能够对短信中的链接内容进行检测,从而保证违规短信拦截准确性,商家无法通过加入链接的方式避免违规短信被拦截,谋取不法利益。附图说明图1为本专利技术实施提供的一种违规短信检测系统的示意图。图2为本专利技术实施提供的违规关键词过滤模块的第一示意图。图3为本专利技术实施提供的违规关键词过滤模块的第二示意图。具体实施方式下面结合附图和具体实施方式对本专利技术做进一步描述。本专利技术公开了一种违规短信检测方法和一种违规短信检测系统,通过提取短信中的链接,并访问链接指向的网页;通过对网页的文字内容进行违规关键词过滤,判断该网页是否包含违规内容,从而判定链接是否为违规链接,如果短信包含违规链接则判定该短信为违规短信,并进行相应的拦截等操作。本技术方案区别于现有技术能够对短信中的链接内容进行检测,从而保证违规短信拦截准确性,商家无法通过加入链接的方式避免违规短信被拦截,谋取不法利益。一种违规短信检测方法具体实施例:实施例1:一种违规短信检测方法具体包括以下步骤:S101获取短信内容中的链接,获取链接指向的网页。该步骤具体包括获取短信的全部内容,利用正则表达式匹配方法,提取短信内容中的链接。正则表达式是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。该步骤将短信内容中的空格和无含义的标点删除后获得短信的文字内容,再通过预设的正则表达式识别其中的链接,这样相比直接方法链接,可以有效避免商家在短信编辑中通过加入空格和无效字符隐藏链接,从而有效提高链接的识别率。S102根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接。优选的,所述步骤进一步包本文档来自技高网...

【技术保护点】
一种违规短信检测方法,其特征是,包括以下步骤:获取短信内容中的链接,获取链接指向的网页;根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接;如果短信包含违规链接,则判定短信为违规短信。

【技术特征摘要】
1.一种违规短信检测方法,其特征是,包括以下步骤:获取短信内容中的链接,获取链接指向的网页;根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接;如果短信包含违规链接,则判定短信为违规短信。2.根据权利要求1所述的一种违规短信检测方法,其特征是,所述获取短信内容中的链接的步骤,进一步包括:获取短信的全部内容,利用正则表达式匹配方法,提取短信内容中的链接。3.根据权利要求1所述的一种违规短信检测方法,其特征是,所述的根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接的步骤,进一步包括:解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源;对文字内容进行分词处理获得分词词组,将分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组;根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。4.根据权利要求3所述的一种违规短信检测方法,其特征是,所述的网页要素包括未带超链接文字和带超链接文字,来源为未带超链接文字的违规词组的加权系数小于来源为带超链接文字的违规词组的加权系数。5.根据权利要求3或4所述的一种违规短信检测方法,其特征是,所述的网页要素包括未带超链接图片和带超链接图片,来源为未带超链接图片的违规词组的加权系数小于来源为带超链接图片的违规词组的加权系数;所述的解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源的步骤,进一步包括:获取网页中的图片,并区分未带超链接图片和带超链接图片;使用光学字符识别技术识别并提取未带超链接图片中的文字内容,标记这部分文字内容的网页要素来源为未带超...

【专利技术属性】
技术研发人员:肖耿
申请(专利权)人:杭州云片网络科技有限公司
类型:发明
国别省市:浙江;33

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1