本申请实施例公开了一种数据检测方法,用于移动通信领域。具体包括:终端获取字符串集合,所述字符串集合包括t条N位的等长字符串;所述终端获取所述等长字符串的前i位字符,得到t条目标字符串;所述终端分别统计所述目标字符串中的相同字符串对应的条数;所述终端根据所述相同字符串对应的条数,计算集中度数据;所述终端将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常,本申请实施例可以利用等长字符串集合中,每个字符串的前几位字符的集中程度,来判断该等长字符串集合是否存在异常状态。
A data detection method, device and storage medium
【技术实现步骤摘要】
一种数据检测方法、装置及存储介质
本申请实施例涉及移动通信领域,特别涉及一种数据检测方法、装置及存储介质。
技术介绍
在信息社会中,字符串序列往往是最常用的标识方式,比如手机号是手机终端的标识,银行卡号是账户的标识,车牌号是车辆的标识等,一个字符串对应一个用户,该字符串对应该用户的全部信息。通常,在风险控制业务场景下,需要对用户的大量等长字符串信息(通讯录、通话记录、银行卡、信用卡卡号等)进行分析,判断其是否存在异常。通常情况下,使用监督对比的方式来进行异常判断,例如,在判断用户的通讯录是否存在异常时,需要对用户通信录中的每个电话号码进行识别,发现电话号码是否存在异常特征,例如是否有大量空号,是否有大量电话号码被标记为骚扰电话等,进而判断出该用户是否存在异常。现有技术中,由于需要对等长字符串逐一进行对比,且判断异常状态时,一般还需要借助外部标签,比如骚扰电话标记、空号标记等来进行判断,当无法获取到外部标签时,就不能确定异常状态,因此该分析方法局限大,适用范围小。
技术实现思路
本申请实施例提供了一种数据检测方法、装置及存储介质,旨在判断等长字符串集合是否存在异常状态。本申请实施例第一方面提供了一种数据检测方法,包括:终端获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数;所述终端获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数;所述终端分别统计所述目标字符串中的相同字符串对应的条数;所述终端根据所述相同字符串对应的条数,计算集中度数据;所述终端将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常。基于本申请实施例第一方面,本申请实施例第一方面的第一种实施方式中,所述数据检测方法还包括:所述终端对所述i依次进行k次取值,得到k组所述t条目标字符串,其中,k为不小于2的自然数;所述终端分别对每组所述目标字符串计算所述集中度数据,得到k个目标集中度数据。基于本申请实施例第一方面的第一种实施方式,本申请实施例第一方面的第二种实施方式中,所述终端根据所述相同字符串对应的条数,计算集中度数据,包括:所述终端根据公式计算所述集中度数据;其中,N-centralization表示所述集中度数据,m表示所述目标字符串中有m种所述相同字符串,n表示所述相同字符串对应的条数。本申请实施例第二方面提供了一种数据检测方法,包括:服务器接收终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;所述服务器判断所述集中度数据是否在预设范围之外;若在所述预设范围之外,则所述服务器确定所述等长字符串异常。基于本申请实施例第二方面,本申请实施例第二方面的第一种实施方式中,所述集中度数据包括依次对所述i进行k次取值后,得到的k个目标集中度数据;所述预设范围包括k个目标范围,其中所述k为不小于2的自然数;所述服务器判断所述集中度数据是否在预设范围之外,包括:所述服务器依次判断所述目标集中度数据是否在所述目标范围之外;所述若在所述预设范围之外,则所述服务器确定所述等长字符串异常,包括:当所述目标集中度数据全部在所述目标范围之外时,所述服务器确定所述等长字符串异常。基于本申请实施例第二方面的第一种实施方式,本申请实施例第二方面的第二种实施方式中,所述方法还包括:所述服务器判断第n个所述目标集中度数据是否小于第n-1个所述目标集中度数据,其中,所述n为不大于k且不小于2的自然数;若不小于,则所述服务器确定所述等长字符串异常。本申请实施例第三方面提供了一种数据检测装置,包括:第一获取单元,用于获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数;第二获取单元,用于获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数;统计单元,用于分别统计所述目标字符串中的相同字符串对应的条数;计算单元,用于根据所述相同字符串对应的条数,计算集中度数据;发送单元,用于将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常。本申请实施例第四方面提供了一种数据检测装置,包括:接收单元,用于接收终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;判断单元,用于判断所述集中度数据是否在预设范围之外;确定单元,用于当所述判断单元判断结果为在所述预设范围之外时,确定所述等长字符串异常。本申请实施例第五方面提供了一种数据检测服务器,包括:处理器、存储器、总线、输入输出设备;所述处理器与所述存储器、输入输出设备相连;所述总线分别连接所述处理器、存储器以及输入输出设备相连;所述输入输出设备用于终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;所述存储器中存储有预设范围;所述处理器用于根据所述集中度数据,从所述存储器中获取所述预设范围,判断所述集中度数据是否在预设范围之外;若在所述预设范围之外,则所述服务器确定所述等长字符串异常。本申请实施例第六方面提供了一种计算机存储介质,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至3或4至6中任一项所述的方法。从以上技术方案可以看出,本申请实施例具有以下优点:使用本专利技术,可以利用等长字符串集合中每个字符串的前几位字符的集中程度,来判断该等长字符串集合是否存在异常状态。由于通讯录、信用卡卡号等字符串应该是随机的字符序列,所以当这些字符序列的前几位字符的集中度过高时,就意味着这些字符序列的相似度高,与随机这一特性相违背,可以直接判断出该等长字符串集合为异常状态;这样,无需对等长字符串集合中的每个字符串进行对比分析,也无需借助外部标签来进行判断,而是直接对字符串的字符本身进行分析,适用情况更广,局限性更小。附图说明图1为本申请实施例提供的数据检测方法的一个流程示意图;图2为本申请实施例提供的数据检测方法的另一个流程示意图;图3为本申请实施例提供的数据检测方法的一个信令流程图;图4为本申请实施例提供的数据检测装置的一个结构示意图;图5为本申请实施例提供的数据检测装置的另一个结构示意图;图6为本申请实施例提供的数据检测服务器的另一结构示意图。具体实施方式本申本文档来自技高网...
【技术保护点】
1.一种数据检测方法,其特征在于,所述方法包括:/n终端获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数;/n所述终端获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数;/n所述终端分别统计所述目标字符串中的相同字符串对应的条数;/n所述终端根据所述相同字符串对应的条数,计算集中度数据;/n所述终端将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常。/n
【技术特征摘要】
1.一种数据检测方法,其特征在于,所述方法包括:
终端获取字符串集合,所述字符串集合包括t条N位的等长字符串,所述t为不小于2的自然数,所述N为不小于3的自然数;
所述终端获取所述等长字符串的前i位字符,得到t条目标字符串;其中,所述i为不大于所述N的自然数;
所述终端分别统计所述目标字符串中的相同字符串对应的条数;
所述终端根据所述相同字符串对应的条数,计算集中度数据;
所述终端将所述集中度数据发送至服务器,以使得所述服务器根据所述集中度数据判断所述字符串集合是否存在异常。
2.根据权利要求1所述的数据检测方法,其特征在于,所述方法还包括:
所述终端对所述i依次进行k次取值,得到k组所述t条目标字符串,其中,k为不小于2的自然数;
所述终端分别对每组所述目标字符串计算所述集中度数据,得到k个目标集中度数据。
3.根据权利要求2所述的数据检测方法,其特征在于,所述终端根据所述相同字符串对应的条数,计算集中度数据,包括:
所述终端根据公式计算所述集中度数据;
其中,N-centralization表示所述集中度数据,m表示所述目标字符串中有m种所述相同字符串,n表示所述相同字符串对应的条数。
4.一种数据检测方法,其特征在于,所述方法包括:
服务器接收终端发送的集中度数据;所述集中度数据用于表示多个N位等长字符串前i位字符的集中程度,其中所述N为不小于3的自然数,所述i为不大于所述N的自然数;
所述服务器判断所述集中度数据是否在预设范围之外;
若在所述预设范围之外,则所述服务器确定所述等长字符串异常。
5.根据权利要求4所述的方法,其特征在于,所述集中度数据包括依次对所述i进行k次取值后,得到的k个目标集中度数据;所述预设范围包括k个目标范围,其中所述k为不小于2的自然数;
所述服务器判断所述集中度数据是否在预设范围之外,包括:
所述服务器依次判断所述目标集中度数据是否在所述目标范围之外;
所述若在所述预设范围之外,则所述服务器确定所述等长字符串异常,包括:
当所述目标集中度数据全部在所述目标范围之外时,所述服务器确定所述等长字符串异常。
6.根据...
【专利技术属性】
技术研发人员:胡仕军,
申请(专利权)人:深圳市前海随手数据服务有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。