短信处理方法及其相关设备技术

技术编号:38548285 阅读:10 留言:0更新日期:2023-08-22 20:56
本申请涉及一种短信处理方法及其相关设备,该方法包括:获取历史短信,历史短信包括历史放行短信和历史拦截短信;对历史短信具有的字符进行统计,获得字符在过去预定时间段内出现在历史放行短信中的第一总出现频次,以及字符在过去预定时间段内出现在历史拦截短信中的第二总出现频次,并基于历史短信具有的字符,生成基础字符集;根据第一总出现频次和第二总出现频次,确定基础字符集中各个字符的权重,权重用于反映字符出现在需要被拦截的短信中的概率;利用基础字符集基于权重对待识别短信进行识别,以确定是否需要对待识别短信进行拦截。本申请解决了对黑灰产短信进行拦截时,误拦截率较高的问题。误拦截率较高的问题。误拦截率较高的问题。

【技术实现步骤摘要】
短信处理方法及其相关设备


[0001]本申请涉及通信
,特别是涉及短信处理方法及其相关设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。不应以此处的描述包括在本部分中就承认是现有技术。
[0003]短信是用户通过终端发送或接收的文字信息或数字信息,具有高时效、强触达、不能撤回等特性。大量企业通过短信来实现登录验证、促销拓客等服务诉求,以使相关诉求得到及时有效的处理。与此同时,危害互联网生态安全的黑灰产也利用短信来从事违法活动,对此,黑灰产通常通过编辑出的不同于正常短信表达方式的图文信息作为短信内容来对抗用于对短信进行识别的风险检测方,以达到将违法短信发送至接收方的目的,从而诱导接收方点击网站、添加电话或添加其他通信方式的账号等,从事黄赌毒诈骗等违法行为获利。其中,编辑的不同于正常短信表达方式的图文信息如采用异体字、繁体字、火星文、emoji符号(即表情符号,是电子通信中用来表达情绪的数字图像)等编辑的变异型短信内容,通过上述变异型短信内容能够规避风险检测方的关键字检测从而将相应短信顺利发送至接收方,因此,如何在保障短信触达时效的前提下尽量精准的对黑灰产短信进行拦截是从事商业短信服务人员面临的一大挑战。
[0004]目前,风险检测方一般采用由英文字符集、常见标点符号、常见中文字符集等构成的基础字符集,来对黑灰产短信进行识别并拦截,但该方案的基础字符集未考虑相关字符在实际短信服务中的使用情况,即该基础字符集的选定脱离了具体短信服务,采用该基础字符集对黑灰产短信进行拦截时,误拦截率较高。

技术实现思路

[0005]本专利技术实施例提供的短信处理方法及其相关设备,至少解决现有技术对黑灰产短信进行拦截时,误拦截率较高的问题。
[0006]根据本专利技术的一个方面,提供了一种短信处理方法,包括:
[0007]获取历史短信,所述历史短信包括历史放行短信和历史拦截短信;
[0008]对所述历史短信具有的字符进行统计,获得所述字符在过去预定时间段内出现在所述历史放行短信中的第一总出现频次,以及所述字符在过去预定时间段内出现在所述历史拦截短信中的第二总出现频次,并基于所述历史短信具有的所述字符,生成基础字符集;
[0009]根据所述第一总出现频次和所述第二总出现频次,确定所述基础字符集中各个所述字符的权重,所述权重用于反映所述字符出现在需要被拦截的短信中的概率;
[0010]利用所述基础字符集基于所述权重对待识别短信进行识别,以确定是否需要对所述待识别短信进行拦截。
[0011]在其中的一些实施例中,根据所述第一总出现频次和所述第二总出现频次,确定所述基础字符集中各个所述字符的权重的步骤包括:
[0012]根据所述第一总出现频次,确定所述基础字符集中属于所述历史放行短信的所述字符的第一总字符数,以及根据所述第二总出现频次,确定所述基础字符集中属于所述历史拦截短信的所述字符的第二总字符数;
[0013]计算所述第一总字符数和所述第二总字符数之比,获得权重系数;
[0014]根据所述第一总出现频次、所述第二总出现频次以及所述权重系数,确定所述字符的所述权重。
[0015]在其中的一些实施例中,根据所述第一总出现频次、所述第二总出现频次以及所述权重系数,确定所述字符的所述权重的步骤包括:
[0016]将所述第一总出现频次,减去所述第二总出现频次和所述权重系数之积,获得权重初始值,以对所述权重初始值进行归一化处理,获得所述权重。
[0017]在其中的一些实施例中,利用所述基础字符集基于所述权重对待识别短信进行识别之前,所述方法还包括:
[0018]通过预先确定的噪音词对所述待识别短信进行预处理,预处理时,若所述待识别短信中存在所述噪音词,将所述噪音词从所述待识别短信中移除,其中,所述噪音词为利用所述基础字符集基于所述权重对所述待识别短信进行识别时,会将无需拦截的所述待识别短信进行拦截的词。
[0019]在其中的一些实施例中,利用所述基础字符集基于所述权重对待识别短信进行识别的步骤包括:
[0020]基于所述权重,确定第一权重阈值,其中,所述权重大于所述第一权重阈值的所述字符出现在需要被拦截的短信中的概率,小于所述权重小于所述第一权重阈值的所述字符出现在需要被拦截的短信中的概率;
[0021]根据所述第一权重阈值和所述基础字符集,生成目标字符集,以利用所述目标字符集对所述待识别短信进行识别。
[0022]在其中的一些实施例中,利用所述目标字符集对所述待识别短信进行识别的步骤包括:
[0023]根据所述待识别短信具有的待识别字符中,出现于所述目标字符集的字符数,确定是否需对所述待识别短信进行拦截。
[0024]在其中的一些实施例中,根据所述第一权重阈值和所述基础字符集,生成目标字符集之前,所述方法还包括:
[0025]确定所述第一权重阈值的第一候选值,根据所述第一候选值和所述基础字符集确定所述目标字符集的候选字符集;
[0026]利用所述候选字符集对所述历史短信进行识别,以确定利用所述候选字符集拦截的所述历史短信中,所述历史拦截短信的第一占比值;
[0027]判断所述第一占比值是否达到预设的第一占比阈值,若是,则将所述第一候选值作为所述第一权重阈值的取值。
[0028]在其中的一些实施例中,利用所述候选字符集对所述历史短信进行识别的步骤包括:
[0029]分别根据所述历史放行短信和所述历史拦截短信具有的所述字符中,出现于所述候选字符集的字符数,确定是否需对所述历史放行短信和/或所述历史拦截短信进行拦截。
[0030]在其中的一些实施例中,利用所述基础字符集基于所述权重对待识别短信进行识别的步骤还包括:
[0031]确定所述待识别短信中各个待识别字符的权重,所述待识别字符的权重为,将所述基础字符集中与所述待识别字符相同的所述字符的所述权重赋予所述待识别字符获得;
[0032]基于各个所述待识别字符的权重,确定所述待识别字符的平均权重,其中,所述平均权重为对各个所述待识别字符的权重相加取平均值后获得;
[0033]判断所述平均权重是否小于预先确定的第二权重阈值,若是,则对所述待识别短信进行拦截。
[0034]在其中的一些实施例中,判断所述平均权重是否小于预先确定的第二权重阈值之前,所述方法还包括:
[0035]确定所述第二权重阈值的第二候选值,并对所述历史短信中,各条所述历史放行短信具有的所述字符的权重相加取平均值获得第一历史平均权重,以及各条所述历史拦截短信具有的所述字符的权重相加取平均值获得第二历史平均权重;
[0036]分别判断所述第一历史平均权重和所述第二历史平均权重是否小于所述第二候选值,若是,则对所述历史放行短信和所述历史拦截短信进行拦截,并获得被拦截的所述历史放行短信和所述历史拦截短信的总条数,以根据所述总条数,确定被拦截的所述历史拦截短信的第二占比值;...

【技术保护点】

【技术特征摘要】
1.一种短信处理方法,包括:获取历史短信,所述历史短信包括历史放行短信和历史拦截短信;对所述历史短信具有的字符进行统计,获得所述字符在过去预定时间段内出现在所述历史放行短信中的第一总出现频次,以及所述字符在过去预定时间段内出现在所述历史拦截短信中的第二总出现频次,并基于所述历史短信具有的所述字符,生成基础字符集;根据所述第一总出现频次和所述第二总出现频次,确定所述基础字符集中各个所述字符的权重,所述权重用于反映所述字符出现在需要被拦截的短信中的概率;利用所述基础字符集基于所述权重对待识别短信进行识别,以确定是否需要对所述待识别短信进行拦截。2.根据权利要求1所述的方法,其中,根据所述第一总出现频次和所述第二总出现频次,确定所述基础字符集中各个所述字符的权重的步骤包括:根据所述第一总出现频次,确定所述基础字符集中属于所述历史放行短信的所述字符的第一总字符数,以及根据所述第二总出现频次,确定所述基础字符集中属于所述历史拦截短信的所述字符的第二总字符数;计算所述第一总字符数和所述第二总字符数之比,获得权重系数;根据所述第一总出现频次、所述第二总出现频次以及所述权重系数,确定所述字符的所述权重。3.根据权利要求2所述的方法,其中,根据所述第一总出现频次、所述第二总出现频次以及所述权重系数,确定所述字符的所述权重的步骤包括:将所述第一总出现频次,减去所述第二总出现频次和所述权重系数之积,获得权重初始值,以对所述权重初始值进行归一化处理,获得所述权重。4.根据权利要求1所述的方法,其中,利用所述基础字符集基于所述权重对待识别短信进行识别之前,所述方法还包括:通过预先确定的噪音词对所述待识别短信进行预处理,预处理时,若所述待识别短信中存在所述噪音词,将所述噪音词从所述待识别短信中移除,其中,所述噪音词为利用所述基础字符集基于所述权重对所述待识别短信进行识别时,会将无需拦截的所述待识别短信进行拦截的词。5.根据权利要求1所述的方法,其中,利用所述基础字符集基于所述权重对待识别短信进行识别的步骤包括:基于所述权重,确定第一权重阈值,其中,所述权重大于所述第一权重阈值的所述字符出现在需要被拦截的短信中的概率,小于所述权重小于所述第一权重阈值的所述字符出现在需要被拦截的短信中的概率;根据所述第一权重阈值和所述基础字符集,生成目标字符集,以利用所述目标字符集对所述待识别短信进行识别。6.根据权利要求5所述的方法,其中,利用所述目标字符集对所述待识别短信进行识别的步骤包括:根据所述待识别短信具有的待识别字符中,出现于所述目标字符集的字符数,确定是否需对所述待识别短信进行拦截。7.根据权利要求6所述的方法,其中,根据所述第一权重阈值和所述基础字符集,生...

【专利技术属性】
技术研发人员:高政卢彬彬邱俊凯
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1