基于大数据处理识别实体账号营业场所唯一性的判断方法技术

技术编号:23149474 阅读:31 留言:0更新日期:2020-01-18 13:37
本发明专利技术公开了一种基于大数据处理识别多账号实体营业场所唯一性的判断方法,通过业务上报的物理设备相关数据入库,累计到一定量之后,得到历史数据,将业务上报的数据与历史数据进行匹配,根据不同帐号之间的物理设备属性进行判断,并按照一定的匹配规则对匹配后结果进行分类;对于匹配率高于阈值的帐号会被识别为同一个经营场所实体账号,低于阈值的帐号则不认为同一实体账号。本发明专利技术通过实体账号的识别来帮助业务进行渠道推广,了解市场和真实的覆盖情况,监控市场变动。

Identification of the uniqueness of the business place of entity account based on big data processing

【技术实现步骤摘要】
基于大数据处理识别实体账号营业场所唯一性的判断方法
本专利技术属于数据处理及应用
,具体涉及一种基于大数据处理识别实体账号营业场所唯一性的判断方法。
技术介绍
实体经营场所换账号情况一般多发生于免费软件较多、未强制绑定用户唯一账号所导致的。在没有做网吧实体经营场所的唯一性判断方法时,我们面临的问题是:一个实体网吧使用过多个网吧账号,但无法根据网吧账号信息判断是否同一家实体营业场所。网吧对于实体经营场所的唯一性判断方法的需求根源,就是一个实体网吧可以使用多个网维大师的网吧账号,这个现象和之前电信行业中,一个用户使用过多个电话号码,同样的道理。当我们使用网吧账号去统计公司的业务覆盖及网吧的增减时,这个计算得到的数据只是账号的数据变动情况,得到的并不是真实实体营业场所的状态,并不能反映实际情况。为了解决此问题之前我们想到了网吧的电脑,平均每个网吧有70台左右的电脑,每台电脑都有自己网内唯一的MAC地址,且该地址一般情况下不会被人为的更改,因此可通过电脑的MAC地址定位实体经营场所。我们对已有的数据分析发现,网吧工作日所有的电脑超过70%的网维大师被启用过,周末所有的电脑超过80%的网维大师被启用过,一周7天,网吧几乎会将所有的电脑网维大师启用一遍,那么上报了一周的数据,基本就等于上报到了这个网吧的所有电脑的MAC地址;于是开始做匹配计算,计算周期还是定为一周计算一次,因为一周至少覆盖了超过70%的电脑。首先我们需要将业务数据上报至数据上报组件并入库到大数据数据仓库中,然后按照实体经营场所的唯一性判断规则计算数据,得到实体账号、网吧账号、MAC地址对应关系,由此知道每个账号对应的真实实体经营场所。通过网吧唯一性,我们不但能将上述疑问解决,还能监控我们的市场变动,比如对新增和流失的网吧进行监控,可以及时发现问题,尽早的介入维系和挽留,还可以对于业务的一些开拓市场的活动进行监控,防止作弊,评估活动效果。通过对这些用户变更网吧账号的数据分析和回访,可以挖掘用户变更的意图,是不是换帐号的成本比续费的成本低?换帐号能带来更多利益?从而改进我们的业务。但上述方法存在的弊端是:网吧主还是可以人为修改MAC地址的,这样会导致被修改的网吧电脑匹配率降低,被修改的电脑数未达到本网吧30%以上的电脑理论上不影响结果,若超过30%的电脑被修改了MAC地址,则会新增实体账号来标记被修改后的网吧账号。另一个问题是若某家网吧高于30%的电脑一周内未启用过网维大师,会导致上报的数据匹配率低于阈值即会新增实体网吧账号,而实际上未新增实体经营机构,即一家网吧账号由于MAC地址变动或产品启用较低而新增实体账号,导致一家网吧对应两个实体账号,这种情况下我们一般取匹配率高的实体账号标记此为网吧账号。
技术实现思路
鉴于上述,本专利技术提供了一种基于大数据处理识别多账号实体营业场所唯一性的判断方法,通过业务上报的物理设备相关数据入库,累计到一定量之后训练数据样本,将业务上报的数据与历史上报样本进行匹配,得到真实实体账号数据。一种基于大数据处理识别多账号实体营业场所唯一性的判断方法,包括如下步骤:(1)收集最近一周网吧电脑上报的业务数据,并将数据入库;(2)根据业务数据初始化历史实体样本数据表并对其进行更新直至当前;(3)根据网吧电脑客户端的启用率确定阈值;(4)对于新上报的网吧账号,使其与历史实体样本数据表中的账号进行匹配,通过所述阈值判断新上报网吧账号对应的实体为新增实体、单账号实体或是多账号实体。进一步地,所述网吧电脑每一次上报的业务数据包括日期(处理数据当天日期)、网吧账号、MAC地址以及上报时间。进一步地,所述步骤(2)的具体实现方法为:对于任一网吧电脑,取其最早一期上报的业务数据,在该业务数据中为网吧账号生成一个唯一的实体账号,并新增该实体账号关联的MAC地址数量,从而初始化得到一张关于网吧账号、实体账号、MAC地址数量对应关系的历史实体样本数据表,该表中每一条数据包括日期(处理数据当天日期)、网吧账号、实体账号、MAC地址数量、MAC地址、更新时间;然后利用网吧电脑后续每一期上报的业务数据对表中数据进行更新:若网吧账号、实体账号、MAC地址数量之间的对应关系及数据发生变动,则取本期业务数据对表中对应数据进行更新,若未发生变动则保持表中数据不变。进一步地,所述步骤(3)中根据最近一周网吧电脑客户端(如网维大师)的启用率确定阈值,所述启用率即为一周内开启过客户端的网吧电脑数/安装客户端的网吧电脑总数。进一步地,所述步骤(4)的具体实现过程如下:4.1对于新上报的网吧账号,将该网吧账号与历史实体样本数据表中实体账号对应的网吧账号进行匹配,若匹配上则执行步骤4.3并将表中对应匹配上的网吧账号记为X,若未匹配上则执行步骤4.2;4.2统计新上报网吧账号关联的MAC地址与表中账号X对应的实体账号关联的MAC地址匹配上的数量i,若i/k大于等于所述阈值,则执行步骤4.3,否则判定新上报网吧账号对应的实体为新增实体,k为表中与账号X对应的实体账号关联的MAC地址数量;4.3统计新上报网吧账号关联的MAC地址与表中账号X关联的MAC地址匹配上的数量m,若m/n大于等于所述阈值,则执行步骤4.4并记账号X为实际运作账号,否则判定新上报网吧账号对应的实体为新增实体,n为表中账号X关联的MAC地址数量;4.4在表中查找账号X对应的实体账号下是否还存在有其他的实际运作账号:若是则判定新上报网吧账号对应的实体为多账号实体,若否则判定新上报网吧账号对应的实体为单账号实体。进一步地,所述步骤(4)完成判定后,根据新上报的网吧账号信息以及判定结果对历史实体样本数据表进行更新,用于下一次网吧实体账号唯一性判定。本专利技术通过业务上报的物理设备相关数据入库,累计到一定量之后,得到历史数据,将业务上报的数据与历史数据进行匹配,根据不同帐号之间的物理设备属性进行判断,并按照一定的匹配规则对匹配后结果进行分类;对于匹配率高于阈值的帐号会被识别为同一个经营场所实体账号,低于阈值的帐号则不认为同一实体账号。这样就可以知道它所对应的经营实体是哪一家,便可以帮助了解市场和我们真实的覆盖情况及流动情况,可以对新增及流失的营业实体网吧进行监控,可以对公司的业务活动效果进行统计,同时还可以挖掘用户变更意图等。在不同的需求和业务场景下本专利技术可以将实体经营场所相关数据做成专题应用和OLAP分析报表及仪表盘来等帮助业务进行渠道推广,了解市场和真实的覆盖情况,监控市场变动。附图说明图1为本专利技术多账号实体营业场所唯一性判断方法的流程示意图。图2为业务数据表的结构示意图。图3为历史实体样本数据表的结构示意图。具体实施方式为了更为具体地描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。如图1所示,本专利技术基于大数据处理识别多账号实体营业场所唯一性的判断方法,包括如下步骤:(1)业务数据由网维产品上报本文档来自技高网
...

【技术保护点】
1.一种基于大数据处理识别多账号实体营业场所唯一性的判断方法,包括如下步骤:/n(1)收集最近一周网吧电脑上报的业务数据,并将数据入库;/n(2)根据业务数据初始化历史实体样本数据表并对其进行更新直至当前;/n(3)根据网吧电脑客户端的启用率确定阈值;/n(4)对于新上报的网吧账号,使其与历史实体样本数据表中的账号进行匹配,通过所述阈值判断新上报网吧账号对应的实体为新增实体、单账号实体或是多账号实体。/n

【技术特征摘要】
1.一种基于大数据处理识别多账号实体营业场所唯一性的判断方法,包括如下步骤:
(1)收集最近一周网吧电脑上报的业务数据,并将数据入库;
(2)根据业务数据初始化历史实体样本数据表并对其进行更新直至当前;
(3)根据网吧电脑客户端的启用率确定阈值;
(4)对于新上报的网吧账号,使其与历史实体样本数据表中的账号进行匹配,通过所述阈值判断新上报网吧账号对应的实体为新增实体、单账号实体或是多账号实体。


2.根据权利要求1所述基于大数据处理识别多账号实体营业场所唯一性的判断方法,其特征在于:所述网吧电脑每一次上报的业务数据包括日期、网吧账号、MAC地址以及上报时间。


3.根据权利要求1所述基于大数据处理识别多账号实体营业场所唯一性的判断方法,其特征在于:所述步骤(2)的具体实现方法为:对于任一网吧电脑,取其最早一期上报的业务数据,在该业务数据中为网吧账号生成一个唯一的实体账号,并新增该实体账号关联的MAC地址数量,从而初始化得到一张关于网吧账号、实体账号、MAC地址数量对应关系的历史实体样本数据表,该表中每一条数据包括日期、网吧账号、实体账号、MAC地址数量、MAC地址、更新时间;然后利用网吧电脑后续每一期上报的业务数据对表中数据进行更新:若网吧账号、实体账号、MAC地址数量之间的对应关系及数据发生变动,则取本期业务数据对表中对应数据进行更新,若未发生变动则保持表中数据不变。


4.根据权利要求1所述基于大数据处理识别多账号实体营业场所唯一性的判断方法,其特征在于:所述步骤(3)中根据最近一周网吧电脑客户端的启用率确定阈值,所述启用率即为一周内开启过客户端的网吧电脑数/安装客户端的网吧电脑总数。


5.根据权利要求1所述基于大数据处理识别多账号实体营业场所唯一性的判断方法,其特征在于:所述步骤(4)的具体实现过程如下:
4.1对于新上报的网吧账号,将该网吧账号与历史实体样本数据表中实体账号对应的网吧账号进行匹配,若匹配上则执行步骤4.3并将表中对应...

【专利技术属性】
技术研发人员:干熔张彩红
申请(专利权)人:杭州顺网科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1