程序批量刷单鉴别方法、装置、存储介质及服务器制造方法及图纸

技术编号:27059209 阅读:14 留言:0更新日期:2021-01-15 14:38
本发明专利技术公开了一种基于手机信息熵分析的程序批量刷单鉴别方法、装置、存储介质及服务器;其中,所述方法包括:在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据;对所述订单数据进行信息提取处理,获得订单数据中的手机号字段;对所述手机号字段进行特征分析,获得手机号字段中三个特征,其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码;对手机号字段中三个特征进行信息熵计算,获得手机号字段中三个特征的信息熵;基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。在本发明专利技术实施例中,只需要收集订单数据中的手机号,并通过计算信息熵,即可识别出在一段时间内是否存在批量刷单情况。

【技术实现步骤摘要】
程序批量刷单鉴别方法、装置、存储介质及服务器
本专利技术涉及大数据
,尤其涉及一种基于手机信息熵分析的程序批量刷单鉴别方法、装置、存储介质及服务器。
技术介绍
随着互联网技术的发展以及移动终端的普及,网购行为越来越普及,在平台提供下单和收款服务,第三方上家负责销售和发货的虚拟商品交易平台上,第三方商户通过程序调用交易接口,大量伪造虚假数据刷单作弊的方法;现有的一些刷单识别方式中,通过分析用户关系,先预设一批黑名单用户,如交易平台内部员工、有不良交易记录的第三方商户等,通过用户之间的交易、评论、社交、通讯等数据查找与黑名单用户有密切往来的商户,以发现高风险商户;或者设定单个商户在一定时间内的交易频率和交易金额限制,超出限制时触发刷单告警。然而,分析用户关系的方法要求大量收集用户数据,涉及隐私问题,而且要求交易系统具备相应的功能,提高了系统复杂性;合理设定交易频率和交易金额限制非常困难,因大小商户的交易额差异巨大,而且交易额的时间波动性本身就很大。
技术实现思路
本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种基于手机信息熵分析的程序批量刷单鉴别方法、装置、存储介质及服务器,只需要收集订单数据中的手机号,并通过计算信息熵,即可识别出在一段时间内是否存在批量刷单情况。为了解决上述技术问题,本专利技术实施例提供了一种基于手机信息熵分析的程序批量刷单鉴别方法,所述方法包括:在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据;对所述订单数据进行信息提取处理,获得所述订单数据中的手机号字段;对所述手机号字段进行特征分析,获得所述手机号字段中三个特征,其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码;对所述手机号字段中三个特征进行信息熵计算,获得手机号字段中三个特征的信息熵;基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。可选的,所述订单数据的数量至少为100单。可选的,所述对所述订单数据进行信息提取处理,获得所述订单数据中的手机号字段,包括:基于NLP分析模型对所述订单数据进行信息提取分析处理,并提取所述订单数据中的手机号字段,获得所述订单数据中的手机号字段。可选的,所述对所述手机号字段进行特征分析,获得所述手机号字段中三个特征,包括:按照预设的拆分规则对所述手机号字段进行数字段拆分处理,获得拆分后的三个数字段数据;利用拆分后的三个数字段数据分别在对应的数据库内进行特征匹配,获得所述手机号字段中三个特征;其中,所述手机号字段中三个特征包括网络识别号、归属地和用户号码;所述预设的拆分规则为将所述手机号字段由左向右依次拆分为第一数字段、第二数字段和第三数字段;所述第一数字段包括3位数字;所述第二数字段和第三数字段分别包括4为数字。可选的,所述信息熵计算的计算公式如下:其中,n表示该特征包含的不同取值数量;pi表示第i个取值在该特征中出现的概率;该公式中的对数函数的底数根据对应的特征进行设定,其中,当n表示网络识别号时,对数函数的底数为网络识别号的号段数量;当n表示归属地时,对数函数的底数为城市数量;当n为用户号码时,对数函数的底数为10000和订单数据中的最小值。可选的,所述对所述手机号字段中三个特征进行信息熵计算,获得手机号字段中三个特征的信息熵,包括:将所述手机号字段中的三个特征代入信息熵计算的计算公式中进行信息熵计算,获得手机号字段中三个特征的信息熵;其中,网络识别号信息熵接近或大于1,则网络识别号分布过于随机分散;归属地信息熵接近或大于1,则归属地分布过于随机分散;网络识别号信息熵接近0,则网络识别号分布过于集中;归属地信息熵接近0,则归属地分布过于集中;用户号码信息熵接近0,则用户号码分布过于集中。可选的,所述基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单,包括:基于预先计算的多个自有商户和可信商户的订单数据的三个特征信息熵,获得可信三个特征信息熵;将所述可信三个特性信息熵作为所述手机字段中的三个特性信息熵中的各特征信息熵接近0或者接近1的阈值标准进行是否在程序批量刷单的判断。另外,本专利技术实施例还提供了一种基于手机信息熵分析的程序批量刷单鉴别装置所述装置包括:选取模块:用于在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据;信息提取模块:用于对所述订单数据进行信息提取处理,获得所述订单数据中的手机号字段;特征分析模块:用于对所述手机号字段进行特征分析,获得所述手机号字段中三个特征,其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码;信息熵计算模块:用于对所述手机号字段中三个特征进行信息熵计算,获得手机号字段中三个特征的信息熵;判断模块:用于基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。另外,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述中任意一项所述的程序批量刷单鉴别方法。另外,本专利技术实施例还提供了一种服务器,其包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行上述中任意一项所述的程序批量刷单鉴别方法。在本专利技术实施例中,只需要收集订单数据中的手机号,并通过计算信息熵,即可识别出在一段时间内是否存在批量刷单情况,并且在计算信息熵时,即使在大量数据中混入少量噪音数据对信息熵计算结果影响甚微,可以应对刷单和真实交易在统一时间段进行,刷单交易量远超真实交易量的情况;提供多样的判断标准,使用一套计算结果,能同时应对随机生成数据和重复数据;并且不涉及更多的用户隐私数据;无需设置商户的交易频率和交易金额的限制;并且计算识别过程高效且相对简单。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例中的基于手机信息熵分析的程序批量刷单鉴别方法的流程示意图;图2是本专利技术实施例中的基于手机信息熵分析的程序批量刷单鉴别装置的结构组成示意图;图3是本专利技术实施例中的服务器的结构组成示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。实施例请参阅图1,图1是本专利技术实施例中的基于手机信息熵本文档来自技高网...

【技术保护点】
1.一种基于手机信息熵分析的程序批量刷单鉴别方法,其特征在于,所述方法包括:/n在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据;/n对所述订单数据进行信息提取处理,获得所述订单数据中的手机号字段;/n对所述手机号字段进行特征分析,获得所述手机号字段中三个特征,其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码;/n对所述手机号字段中三个特征进行信息熵计算,获得手机号字段中三个特征的信息熵;/n基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。/n

【技术特征摘要】
1.一种基于手机信息熵分析的程序批量刷单鉴别方法,其特征在于,所述方法包括:
在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据;
对所述订单数据进行信息提取处理,获得所述订单数据中的手机号字段;
对所述手机号字段进行特征分析,获得所述手机号字段中三个特征,其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码;
对所述手机号字段中三个特征进行信息熵计算,获得手机号字段中三个特征的信息熵;
基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。


2.根据权利要求1所述的程序批量刷单鉴别方法,其特征在于,所述订单数据的数量至少为100单。


3.根据权利要求1所述的程序批量刷单鉴别方法,其特征在于,所述对所述订单数据进行信息提取处理,获得所述订单数据中的手机号字段,包括:
基于NLP分析模型对所述订单数据进行信息提取分析处理,并提取所述订单数据中的手机号字段,获得所述订单数据中的手机号字段。


4.根据权利要求1所述的程序批量刷单鉴别方法,其特征在于,所述对所述手机号字段进行特征分析,获得所述手机号字段中三个特征,包括:
按照预设的拆分规则对所述手机号字段进行数字段拆分处理,获得拆分后的三个数字段数据;
利用拆分后的三个数字段数据分别在对应的数据库内进行特征匹配,获得所述手机号字段中三个特征;
其中,所述手机号字段中三个特征包括网络识别号、归属地和用户号码;所述预设的拆分规则为将所述手机号字段由左向右依次拆分为第一数字段、第二数字段和第三数字段;所述第一数字段包括3位数字;所述第二数字段和第三数字段分别包括4为数字。


5.根据权利要求1所述的程序批量刷单鉴别方法,其特征在于,所述信息熵计算的计算公式如下:



其中,n表示该特征包含的不同取值数量;pi表示第i个取值在该特征中出现的概率;该公式中的对数函数的底数根据对应的特征进行设定,其中,当n表示网络识别号时,对数函数的底数为网络识别号的号段数量;当n表示归属地时,对数函数的底数为城市数量;当n为用户号码时,对数函数的底数为10000和订单数据中的最小值。


6.根据权利要求5所...

【专利技术属性】
技术研发人员:梁达俊
申请(专利权)人:蜂助手股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1