一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:39055293 阅读:9 留言:0更新日期:2023-10-12 19:48
本发明专利技术公开了一种数据处理方法、装置、设备及存储介质,涉及深度数据包检测技术和数据分析技术领域,包括:基于初始化后的反欺诈识别模型定义流式标签规则和流式指标计算规则;对利用深度数据包检测技术采集到的原始数据进行过滤处理,并对过滤后数据进行标准化处理;根据流式指标计算规则对标准化数据进行实时指标计算;将标准化数据转发至风险计算分析节点,以便风险计算分析节点利用与标准化数据对应的指标结果进行实时风险计算得到与存在涉赌涉诈风险的用户行为对应的风险信息,并输出风险信息。本发明专利技术的技术方案实现了用户行为存在涉赌涉诈风险的秒级预警,并提高了涉赌涉诈数据处理的时效性和准确性。诈数据处理的时效性和准确性。诈数据处理的时效性和准确性。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质


[0001]本专利技术涉及深度数据包检测技术和数据分析
,特别涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]当前,DPI(Deep Packet Inspection,深度数据包检测)在传统IP(Internet Protocol,网络之间互连的协议)数据包检测技术之上增加了对应用层数据的应用协议识别、数据包内容检测与深度解码,得到海量的网络数据,也即DPI数据,运营商层面的DPI数据主要由用户上网行为、业务APP使用产生,按照其流量产生方式可以分为基于http和4G技术进行通信时产生的流量、基于https和4G技术进行通信时产生的流量、基于http和5G技术进行通信时产生的流量和于https和5G技术进行通信时产生的流量,通过对海量DPI数据中用户上网行为的分析,可以捕获用户访问轨迹、使用偏好等特征,针对其中的异常访问记录,构建反赌反诈信息库,但是由于DPI数据存在海量化的特点,导致运算量大以及计算时间长,采用批式数据结合名单碰撞的方式所构建的反赌反诈信息库,需要T+1级别产生预警,预警时效低、名单质量差、预警准确性有限,会带来工作人力、时间等各项成本的提高,无法满足具有高时效需求的涉赌涉诈数据处理预警场景。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种数据处理方法、装置、设备及存储介质,能够提高涉赌涉诈数据处理的时效性和准确性。其具体方案如下:
[0004]第一方面,本专利技术公开了一种数据处理方法,包括:
[0005]基于初始化后的反欺诈识别模型定义流式标签规则和流式指标计算规则;
[0006]根据预设白名单规则对利用深度数据包检测技术采集到的原始数据进行过滤处理得到过滤后数据,并对所述过滤后数据进行标准化处理得到相应的标准化数据;
[0007]根据所述流式指标计算规则对所述标准化数据进行实时指标计算得到相应的指标结果;
[0008]将所述标准化数据转发至风险计算分析节点,以便所述风险计算分析节点利用与所述标准化数据对应的所述指标结果进行实时风险计算得到与存在涉赌涉诈风险的用户行为对应的风险信息,并输出所述风险信息。
[0009]可选的,所述根据预设白名单规则对利用深度数据包检测技术采集到的原始数据进行过滤处理得到过滤后数据,包括:
[0010]利用预设的正常网址清单构建布隆过滤器,并利用所述布隆过滤器对利用深度数据包检测技术采集到的原始数据进行过滤处理得到过滤后数据。
[0011]可选的,所述利用所述布隆过滤器对利用深度数据包检测技术采集到的原始数据进行过滤处理得到过滤后数据,包括:
[0012]利用所述布隆过滤器判断利用深度数据包检测技术采集到的原始数据所携带的
域名是否满足预设过滤条件;其中,所述原始数据为包含用户号码字段、访问时间字段、访问域名字段、访问统一资源标志符字段、服务端IP地址字段和用户访问基站信息字段的数据;
[0013]如果所述原始数据所携带的所述域名满足所述预设过滤条件,则过滤所述原始数据;
[0014]如果所述原始数据所携带的所述域名未满足所述预设过滤条件,则保留所述原始数据得到过滤后数据。
[0015]可选的,所述对所述过滤后数据进行标准化处理得到相应的标准化数据,包括:
[0016]根据所述过滤后数据所携带的域名所属类型对所述过滤后数据进行划分得到银行类型的数据、APK类型的数据以及其他可疑类型的数据;
[0017]根据所述流式标签规则对所述其他可疑类型的数据进行标签补充处理得到打标后的其他可疑类型的数据;
[0018]将所述银行类型的数据、所述APK类型的数据以及所述打标后的其他可疑类型的数据进行合并处理得到合并处理后数据;
[0019]利用目标信息对所述合并处理后数据进行字段补全处理得到标准化数据;其中,所述目标信息包括服务器端的IP归属地信息、用户访问基站信息以及当前时间戳信息。
[0020]可选的,所述基于初始化后的反欺诈识别模型定义流式标签规则和流式指标计算规则之前,还包括:
[0021]对离线数据进行线索挖掘处理和特征抽取处理得到相应的抽取后特征;所述离线数据包括用户信息、基站信息、案情信息以及访问记录;
[0022]利用所述抽取后特征对预先构建的所述反欺诈识别模型进行初始化得到所述初始化后的反欺诈识别模型。
[0023]可选的,所述对离线数据进行线索挖掘处理和特征抽取处理得到相应的抽取后特征,包括:
[0024]利用自然语言处理技术从所述案情信息中提取出案发周期和涉案链接,并根据所述案发周期和和所述涉案链接确定出相应的IP地址、域名和统一资源标志符信息;
[0025]对所述IP地址、所述域名和所述统一资源标志符信息进行规则归纳以构建出相应的预警指标;
[0026]从所述访问记录中确定出用户的访问路径和访问频次,并根据所述访问路径和所述访问频次抽取出相应的风险特征;
[0027]对所述用户信息和所述基站信息中进行规则归纳以确定出用户特征和基站位置特征;所述用户特征包括用户年龄、用户性别、用户所使用的设备;
[0028]相应的,所述利用所述抽取后特征对预先构建的所述反欺诈识别模型进行初始化得到所述初始化后的反欺诈识别模型,包括:
[0029]利用所述预警指标、所述风险特征、所述用户特征和基站位置特征对预先构建的所述反欺诈识别模型进行初始化得到所述初始化后的反欺诈识别模型。
[0030]可选的,所述数据处理方法,还包括:
[0031]利用存入预设数据库系统中的所述风险信息和所述标准化数据进行数据分析以定期更新基于所述反欺诈识别模型所定义的所述流式标签规则和所述流式指标计算规则
或增加新的反欺诈识别模型。
[0032]第二方面,本专利技术公开了一种数据处理装置,包括:
[0033]规则定义模块,用于基于初始化后的反欺诈识别模型定义流式标签规则和流式指标计算规则;
[0034]数据过滤模块,用于根据预设白名单规则对采集到的原始数据进行过滤处理得到过滤后数据;
[0035]数据标准化处理模块,用于对所述过滤后数据进行标准化处理得到相应的标准化数据;
[0036]数据指标计算模块,用于根据所述流式指标计算规则对所述标准化数据进行实时指标计算得到相应的指标结果;
[0037]数据风险计算模块,用于将所述标准化数据转发至风险计算分析节点,以便所述风险计算分析节点利用与所述标准化数据对应的所述指标结果进行实时风险计算得到与存在涉赌涉诈风险的用户行为对应的风险信息,并输出所述风险信息。
[0038]第三方面,本专利技术公开了一种电子设备,包括:
[0039]存储器,用于保存计算机程序;
[0040]处理器,用于执行所述计算机程序,以实现前述公开的数据处理方法的步骤。
[0041]第四方面,本专利技术公开了一种计算机可读存储介质,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:基于初始化后的反欺诈识别模型定义流式标签规则和流式指标计算规则;根据预设白名单规则对利用深度数据包检测技术采集到的原始数据进行过滤处理得到过滤后数据,并对所述过滤后数据进行标准化处理得到相应的标准化数据;根据所述流式指标计算规则对所述标准化数据进行实时指标计算得到相应的指标结果;将所述标准化数据转发至风险计算分析节点,以便所述风险计算分析节点利用与所述标准化数据对应的所述指标结果进行实时风险计算得到与存在涉赌涉诈风险的用户行为对应的风险信息,并输出所述风险信息。2.根据权利要求1所述的数据处理方法,其特征在于,所述根据预设白名单规则对利用深度数据包检测技术采集到的原始数据进行过滤处理得到过滤后数据,包括:利用预设的正常网址清单构建布隆过滤器,并利用所述布隆过滤器对利用深度数据包检测技术采集到的原始数据进行过滤处理得到过滤后数据。3.根据权利要求2所述的数据处理方法,其特征在于,所述利用所述布隆过滤器对利用深度数据包检测技术采集到的原始数据进行过滤处理得到过滤后数据,包括:利用所述布隆过滤器判断利用深度数据包检测技术采集到的原始数据所携带的域名是否满足预设过滤条件;其中,所述原始数据为包含用户号码字段、访问时间字段、访问域名字段、访问统一资源标志符字段、服务端IP地址字段和用户访问基站信息字段的数据;如果所述原始数据所携带的所述域名满足所述预设过滤条件,则过滤所述原始数据;如果所述原始数据所携带的所述域名未满足所述预设过滤条件,则保留所述原始数据得到过滤后数据。4.根据权利要求1所述的数据处理方法,其特征在于,所述对所述过滤后数据进行标准化处理得到相应的标准化数据,包括:根据所述过滤后数据所携带的域名所属类型对所述过滤后数据进行划分得到银行类型的数据、APK类型的数据以及其他可疑类型的数据;根据所述流式标签规则对所述其他可疑类型的数据进行标签补充处理得到打标后的其他可疑类型的数据;将所述银行类型的数据、所述APK类型的数据以及所述打标后的其他可疑类型的数据进行合并处理得到合并处理后数据;利用目标信息对所述合并处理后数据进行字段补全处理得到标准化数据;其中,所述目标信息包括服务器端的IP归属地信息、用户访问基站信息以及当前时间戳信息。5.根据权利要求1所述的数据处理方法,其特征在于,所述基于初始化后的反欺诈识别模型定义流式标签规则和流式指标计算规则之前,还包括:对离线数据进行线索挖掘处理和特征抽取处理得到相应的抽取后特征;所述离线数据包...

【专利技术属性】
技术研发人员:金路杨志强王雷陈浩彭聪
申请(专利权)人:浙江邦盛科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1