一种用于识别企业IP的方法和装置制造方法及图纸

技术编号:21434218 阅读:23 留言:0更新日期:2019-06-22 12:32
本发明专利技术公开了一种用于识别企业IP的方法和装置,装置包括数据清理模块、特征提取模块、特征融合提取模块、IP客群提取模块及IP客群更新模块。对数据源预处理,并提取IP关联数据;从IP关联数据中提取数据特征;根据数据特征过滤IP关联数据,并将多个数据特征进行融合,形成IP集合;给IP集合中的IP账户做客群标签;并循环操作不断更新IP客群标签。本发明专利技术可以有效将固定用户群体的IP和公共场所IP进行区分,有效将长期固定IP和短时间内的固定IP区分,对电商CRM精准别企业客户IP以及背后的客户群起到关键作用。

【技术实现步骤摘要】
一种用于识别企业IP的方法和装置
本专利技术属于数据挖掘领域,具体来说,涉及电商系统中IP地址和关联的账户的分群分析。
技术介绍
IP地址的识别通常是通过提取不同的用户行为特征进行多维度的IP画像构建来实现的。多数维度特征聚焦在黑产常见的行为识别上,如垃圾注册,薅羊毛,刷单,黄牛,撞库,垃圾信息等。每种特征的提取主要通过设备聚集性,行为聚集性实现对高危IP的标签化定义。基于IP地址的特征提取,不同的风险业务类型的建模分析以及数据建模流程是有差异的。如垃圾注册的特征表现为连续短时间内(间隔时间在1分钟以内),大量的账户注册行为;黄牛的表现特征为多账户多笔订单的收货地址一致,或者单账户订单数量巨大等。目前市面上第三方提供的IP甄别服务大多数是通过IP上的账户行为分析,辅助设备聚集性等实现的。但是这些IP标签存在两个问题:1.由于我国本身IP地址资源不足,运营商对IP地址的分配存在动态调整,且调整规律,幅度等都不透明,导致对IP的标记存在着不准确的问题。如Ip地址发生变更,新用户的表现和旧IP标签不匹配导致用于风险判断时出现问题。2.当前大部分标签都是基于“坏”的行为的标签,因为对不同的企业,“好”的特征,标准都是不一致的,因此没有统一的好的标签标记。这些标签用在反欺诈领域时,存在着大量的误杀,或者漏杀的情况,在标签不及时更新的情况下,对业务会造成误判的影响。传统IP的识别是通过第三方企业构建的IP特征标签来判定的,第三方对IP地址的标签处理是不透明的,其时效性也有待确认,如ipip.net,同盾科技等提供的IP地址也存在准确的问题。在访问’221.226.125.133’IP地址时,第三方给出的信息如图1所示,实际上该IP地址为苏宁金融公司的外部IP之一。又如查询’101.230.205.17’得到的反馈结果如图2所示,当碰到描述为“商圈”的IP地址,这类标记无法清楚的告诉我们它是写字楼的办公使用IP还是饭馆,咖啡馆提供的公共wifiIP。这对电商企业判断来访IP背后的客户时,无法做出更为精准的判断。对于电商公司来讲,用于稳定的工作,稳定的收入的顾客群体属于优质顾客群,可对该客户群体推广精准营销,互联网金融营销等活动。然而企业IP的精准识别存在错误、更新滞后等问题,导致我们使用外部IP数据标签做参考时,会出现错误的判断。
技术实现思路
专利技术目的:为了解决现有技术存在的企业IP识别精准度不高的问题,本专利技术提供一种用于识别企业IP的方法和装置。技术方案:一种用于识别企业IP的方法,包括以下步骤:(1)对时间段内的数据源进行预处理,提取设备指纹表中的IP关联数据;(2)设置活跃阈值判断活跃度,筛选出IP地址出现频率高于活跃阈值的IP地址作为活跃组IP;(3)提取活跃组的IP地址24小时账户活跃特征、IP地址周度账户活跃度特征、IP地址账户稳定性特征;(4)对于步骤(3)提取的特征,分别设置阈值进行IP特征的过滤,保留阈值范围内的IP关联数据,形成IP集合;(5)将多个时间段的IP集合进行融合,得到过滤后IP关联数据的汇总;(6)对汇总后的IP关联数据中的账户做客群标签;(7)重复步骤(1)至(6)不断融合IP集合,追加新的IP特征记录。进一步的,步骤(1)还包括提取商品实时交易表中的IP关联数据。进一步的,步骤(4)还包括对IP集合进行进一步过滤,包括:从IP集合中提取IP地址的账户收货地址聚集性特征、IP地址账户群体消费特征及IP地址账户支付类型特征;分别设置阈值进行IP特征的过滤,保留阈值范围内的IP关联数据,形成最终IP集合。进一步的,步骤(1)中设备指纹表中的IP关联数据包括IP,账户号,事件类型,发生时间,发生日期,网络类型。进一步的,步骤(1)中商品实时交易表中的IP关联数据包括IP,账户号,收货地址,商品类型、支付类型。进一步的,步骤(2)中出现频率低于活跃阈值的IP地址作为不活跃组IP,将不活跃组的IP关联数据存储并与其它时间段内的IP关联数据进行融合后再进行活跃度判断。进一步的,步骤(2)中的IP地址出现频率提取方法为:统计给定时间段内IP地址按照天出现的频率,形成频率特征数据集合IPf1:指在指定时间段[d1,d2)内,IP地址出现的次数。进一步的,步骤(3)IP地址周度账户活跃度特征提取方法为:对每个IP构建长度为7位的特征向量Vec7d,每位对应周一到周日每天的账户统计数,形成IP特征集IPf3:(IP,Vec7d)whereVec7d=[∑Mon∑(Acct),∑Tue∑(Acct),...,∑Sun∑(Acct)],其中∑(Acct)为每个周一到周日去重后的账户统计数量,∑Mon*将每个周一的统计数值进行加和处理。进一步的,步骤(3)IP地址账户稳定性特征提取方法为:对于每个IP地址,统计每天出现的账户列表,并合并给定时间段内的所有账户列表信息,计算去重后的账户数和没去重的账户列表长度统计,形成IP特征集IPf4:(IP,∪Acct,∪dist(Acct),len2/len1)∪Acct是每天去重后账户列表在给定时间段内的账户合并的集合,∪dist(Acct)是对∪Acct去重后形成的集合,len1、len2分别是∪Acct、∪dist(Acct)的大小记录,定义a=len2/len1表示该IP地址上账户的稳定性,账户越稳定,则频率越高,则a越小,a∈[0,1]。一种用于识别企业IP的装置,包括数据清理模块、特征提取模块、特征融合提取模块、IP客群提取模块及IP客群更新模块,所述数据清理模块用于对数据源进行预处理,并提取IP关联数据;特征提取模块用于从IP关联数据中提取数据特征,数据特征包括IP地址24小时账户活跃特征、IP地址周度账户活跃度特征、IP地址账户稳定性特征;特征融合提取模块用于根据数据特征过滤IP关联数据,并将多个数据特征进行融合,形成IP集合;IP客群提取模块用于给IP集合中的IP账户做客群标签;IP客群更新模块用于实时更新IP客群标签。有益效果:本专利技术提供一种用于识别企业IP的方法和装置,有效将固定用户群体的IP和公共场所IP进行区分,有效将长期固定IP和短时间内的固定IP区分,对电商CRM精准别企业客户IP以及背后的客户群起到关键作用。附图说明图1为传统IP识别的第三方给出的识别信息示例一;图2为传统IP识别的第三方给出的识别信息示例二;图3为用于识别企业IP的方法的流程图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明。用户在登录互联网运营的企业时,每次登录,页面的浏览,以及发生购买的各种行为,都会生成相应的记录事项,存储到一个或者多个表格中。账户从登录到页面浏览,完成商品选购,下单,结算完成等全流程都会触发不同的事件,系统会记录各种触发的时间,触发时间,IP地址来源,设备硬件地址,网络信号标记(WiFi,4G),业务类型,订单价格等多种信息。以上信息通常存在在两类重要的表中:1.设备指纹表-用于记录用户触发的各种事件,核心的数据包括:账户,设备号,事件标记,发生时间,登录IP,网络类型等多种信息。2.商品实时交易表-用于记录某账户的购买订单记录,核心数据包括:账户,订单号,商品记录,订单总额,IP地址,交易时间,收货地址等信息。通过IP,账户,本文档来自技高网
...

【技术保护点】
1.一种用于识别企业IP的方法,其特征在于,包括以下步骤:(1)对时间段内的数据源进行预处理,提取设备指纹表中的IP关联数据;(2)设置活跃阈值判断活跃度,筛选出IP地址出现频率高于活跃阈值的IP地址作为活跃组IP;(3)提取活跃组的IP地址24小时账户活跃特征、IP地址周度账户活跃度特征、IP地址账户稳定性特征;(4)对于步骤(3)提取的特征,分别设置阈值进行IP特征的过滤,保留阈值范围内的IP关联数据,形成IP集合;(5)将多个时间段的IP集合进行融合,得到过滤后IP关联数据的汇总;(6)对汇总后的IP关联数据中的账户做客群标签;(7)重复步骤(1)至(6)不断融合IP集合,追加新的IP特征记录。

【技术特征摘要】
1.一种用于识别企业IP的方法,其特征在于,包括以下步骤:(1)对时间段内的数据源进行预处理,提取设备指纹表中的IP关联数据;(2)设置活跃阈值判断活跃度,筛选出IP地址出现频率高于活跃阈值的IP地址作为活跃组IP;(3)提取活跃组的IP地址24小时账户活跃特征、IP地址周度账户活跃度特征、IP地址账户稳定性特征;(4)对于步骤(3)提取的特征,分别设置阈值进行IP特征的过滤,保留阈值范围内的IP关联数据,形成IP集合;(5)将多个时间段的IP集合进行融合,得到过滤后IP关联数据的汇总;(6)对汇总后的IP关联数据中的账户做客群标签;(7)重复步骤(1)至(6)不断融合IP集合,追加新的IP特征记录。2.根据权利要求1所述的用于识别企业IP的方法,其特征在于,步骤(1)还包括提取商品实时交易表中的IP关联数据。3.根据权利要求2所述的用于识别企业IP的方法,其特征在于,步骤(4)还包括对IP集合进行进一步过滤,包括:从IP集合中提取IP地址的账户收货地址聚集性特征、IP地址账户群体消费特征及IP地址账户支付类型特征;分别设置阈值进行IP特征的过滤,保留阈值范围内的IP关联数据,形成最终IP集合。4.根据权利要求1所述的用于识别企业IP的方法,其特征在于,步骤(1)中设备指纹表中的IP关联数据包括IP,账户号,事件类型,发生时间,发生日期,网络类型。5.根据权利要求2所述的用于识别企业IP的方法,其特征在于,步骤(1)中商品实时交易表中的IP关联数据包括IP,账户号,收货地址,商品类型、支付类型。6.根据权利要求1所述的用于识别企业IP的方法,其特征在于,步骤(2)中出现频率低于活跃阈值的IP地址作为不活跃组IP,将不活跃组的IP关联数据存储并与其它时间段内的IP关联...

【专利技术属性】
技术研发人员:郑清正
申请(专利权)人:江苏苏宁银行股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1