ID数据网处理方法、装置、计算设备及计算机存储介质制造方法及图纸

技术编号:20160623 阅读:32 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种ID数据网处理方法、装置、计算设备及计算机存储介质,其中,ID数据网处理方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据;对ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。该技术方案能够快速地将ID数据网划分为数个ID数据子网,与ID数据网相比,ID数据子网所包含的ID数据具有较强的、可靠的关联关系,可识别为同一用户的ID数据,有助于构建完整、有效的用户画像。

【技术实现步骤摘要】
ID数据网处理方法、装置、计算设备及计算机存储介质
本专利技术涉及互联网
,具体涉及一种ID数据网处理方法、装置、计算设备及计算机存储介质。
技术介绍
为了满足用户不同的使用需求,人们已开发了上网、购物、订餐、订火车票、支付等多个业务可供用户选择与使用。业务会根据用户在业务中的账号或者用户所使用的设备等,为用户设置ID数据,用于对用户进行标识。可根据来自于多个业务的ID数据,构造ID数据网,基于ID数据网能够对用户性别、用户年龄、浏览喜好、点击喜好、活跃度、物品购买喜好、物品购买潜力、游戏喜好等用户特征进行分析,构建完整、有效的用户画像,以实现对新闻、游戏、广告等的精准推荐。然而多个业务的ID数据繁多,ID数据之间的关联关系复杂,数据处理量较大,且不同业务对于ID数据的设置规则不同,无法准确、快速地从ID数据网所包含的大量的ID数据中识别出对应于同一用户的ID数据。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的ID数据网处理方法、装置、计算设备及计算机存储介质。根据本专利技术的一个方面,提供了一种ID数据网处理方法,该方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;ID数据包括:用户ID数据和/或设备ID数据;对ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。进一步地,在获取包含ID数据以及ID数据之间的关联关系的ID数据网之前,该方法还包括:对多个业务的日志数据进行数据分析,确定ID数据以及ID数据之间的关联关系;将ID数据作为节点,按照ID数据之间的关联关系,确定节点之间的连接关系,构造得到ID数据网。进一步地,在对ID数据网进行数据分析,得到数个ID数据子网之前,该方法还包括:对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网;对ID数据网进行数据分析,得到数个ID数据子网进一步包括:对剪枝预处理后的ID数据网进行数据分析,得到数个ID数据子网。进一步地,对ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网进一步包括:对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次;针对ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理;得到剪枝预处理后的ID数据网。进一步地,对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次进一步包括:对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次;依据ID数据之间的实际关联频次、ID数据对应的日志数据的时间信息以及时间权重,计算得到ID数据之间的关联频次。进一步地,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:判断与该ID数据直接关联的其他ID数据的数量是否大于第一阈值且该ID数据与任一其他ID数据之间的关联频次小于或等于第二阈值;若是,则去除该ID数据与该任一其他ID数据之间的关联关系。进一步地,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:判断与该ID数据直接关联的其他ID数据的数量是否大于第三阈值且该ID数据与各个其他ID数据之间的关联频次之和大于或等于第四阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。进一步地,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理进一步包括:判断该ID数据与各个其他ID数据之间的关联频次之和是否大于或等于第五阈值;若是,则去除该ID数据与各个其他ID数据之间的关联关系。进一步地,对ID数据网进行数据分析,得到数个ID数据子网进一步包括:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对;全量复制ID关系数据至内存中;将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网。进一步地,将ID关系数据与全量复制到内存中的ID关系数据进行比对组合,根据比对组合结果进行数据整合,得到数个ID数据子网进一步包括:将ID关系数据划分为多个分片;将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果;将所有分片的比对组合结果进行数据整合,得到数个ID数据子网。进一步地,将多个分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到所有分片的比对组合结果进一步包括:针对任一分片,将该分片与全量复制到内存中的ID关系数据进行比对组合,得到该分片的比对组合中间结果;迭代执行本步骤,直至符合预设迭代条件:将所有分片的比对组合中间结果划分为多个中间子分片,并将多个中间子分片并行地与全量复制到内存中的ID关系数据进行比对组合,得到下一次迭代运行的所有分片的比对组合中间结果;迭代过程结束后,得到所有分片的比对组合结果。进一步地,预设迭代条件包括:迭代次数达到预设迭代次数。进一步地,对ID数据网进行数据分析,得到数个ID数据子网进一步包括:根据ID数据网所包含的ID数据以及ID数据之间的关联关系,构建ID关系数据;ID关系数据包括数个ID关系对,每个ID关系对包含:两个ID及两个ID之间的关系;将每个ID关系对进行有向正序和有向逆序处理,得到每个ID关系对所对应的两个ID有向关系对;其中任一ID有向关系对中按照预设规则确定主键ID;利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网。进一步地,该方法还包括:为每个ID有向关系对设置关系位;其中,同一ID关系对所对应的两个ID有向关系对的关系位相同,不同ID关系对所对应的ID有向关系对的关系位不同;利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网进一步包括:利用依主键ID分组方法,对所有ID有向关系对进行分组,得到数个第一分组;针对任一第一分组,根据该第一分组所包含的ID有向关系对的数量确定该第一分组的计数位;提取计数位为第一计数值的至少一个第一分组,按照关系位对所提取的至少一个第一分组所包含的ID有向关系对进行组合处理,得到至少一个第一ID数据子网;第一ID数据子网所包含的ID数据的数量为2。进一步地,利用依主键ID分组方法,对所有ID有向关系对进行分组,根据分组结果得到数个ID数据子网还包括:提取计数位为第二计数值的至少一个第一分组;针对所提取的任一第一分组,根据该第一分组所包含的ID有向关系对,得到该第一分组所对应的ID有向关系组;每个ID有向关系组包含:三个ID及三个ID之间的关系;其中任一ID有向关系组中按照预设规则确定主键ID;为每个ID有向关系组设置关系位;本文档来自技高网...

【技术保护点】
1.一种ID数据网处理方法,所述方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;所述ID数据包括:用户ID数据和/或设备ID数据;对所述ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将所述数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。

【技术特征摘要】
1.一种ID数据网处理方法,所述方法包括:获取包含ID数据以及ID数据之间的关联关系的ID数据网;所述ID数据包括:用户ID数据和/或设备ID数据;对所述ID数据网进行数据分析,得到数个ID数据子网;其中依据ID数据子网所包含的ID数据的数量将所述数个ID数据子网划分到n个ID数据子网集中,n为大于0的自然数;不同ID数据子网集中的ID数据子网所包含的ID数据的数量不同。2.根据权利要求1所述的方法,其中,在所述获取包含ID数据以及ID数据之间的关联关系的ID数据网之前,所述方法还包括:对多个业务的日志数据进行数据分析,确定ID数据以及ID数据之间的关联关系;将所述ID数据作为节点,按照所述ID数据之间的关联关系,确定所述节点之间的连接关系,构造得到所述ID数据网。3.根据权利要求1或2所述的方法,其中,在所述对所述ID数据网进行数据分析,得到数个ID数据子网之前,所述方法还包括:对所述ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网;所述对所述ID数据网进行数据分析,得到数个ID数据子网进一步包括:对所述剪枝预处理后的ID数据网进行数据分析,得到数个ID数据子网。4.根据权利要求3所述的方法,其中,所述对所述ID数据网进行剪枝预处理,得到剪枝预处理后的ID数据网进一步包括:对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次;针对所述ID数据网中的任一ID数据,根据与该ID数据直接关联的其他ID数据的数量和/或该ID数据与其他ID数据之间的关联频次,对该ID数据与其他ID数据之间的关联关系进行剪枝预处理;得到剪枝预处理后的ID数据网。5.根据权利要求4所述的方法,其中,所述对多个业务的日志数据进行数据分析,得到ID数据之间的关联频次进一步包括:对多个业务的日志数据进行数据分析,计算ID数据之间的实际关联频次;依据所述ID数据之间的实际关联频次、所述ID数据对应的日志数据的时间信息以及时间...

【专利技术属性】
技术研发人员:王斌锋马征李晓明
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1