一种ID发现方法和装置制造方法及图纸

技术编号:23898453 阅读:33 留言:0更新日期:2020-04-22 09:40
本发明专利技术涉及互联网技术领域,提供了一种ID发现方法和装置。其中方法包括将对应IP相同且Host‑Key相同且Host‑Key的value值相同情况的标识设定为IV;将对应IP相同且Host‑Key相同且Host‑Key的value值不同情况的标识设定为Iv;将对应IP不同且Host‑Key相同且Host‑Key的value值相同情况的标识设定为iV;将对应IP不同且Host‑Key相同且Host‑Key的value值不同情况的标识设定为iv;给每一组Host‑Key计算得分,从而动态的筛选出当前数据分析场景中的ID。本发明专利技术对ID的发现是通过现场数据学习到的,而非预先设置好的,具有现场自适应性。

【技术实现步骤摘要】
一种ID发现方法和装置
本专利技术涉及互联网
,特别是涉及一种ID发现方法和装置。
技术介绍
由于网络共享检测等技术应用和普及,急需要一种能够唯一标识设备的ID,使用这种ID就能够匹配出一个IP用户的流量是由几个设备发出的。通过将某IP发出的流量与唯一标识设备的ID进行匹配,如果匹配出N个不同值,则能够检测出这个IP的流量是由N个设备组成的。现有的ID标识技术是从已知的认知当中枚举出唯一标识设备的ID,例如设备IP、MAC地址、手机号、用户名、应用ID、IMEI号等,这样做的问题有:问题一、对于实际现场情况可能存在不匹配情况,因为实际现场的信息因地而异,一个统一提前预置的唯一标识设备的ID,可能对于某些场景并不适用,甚至不存在。例如:明文的手机号、明文的用户账号等ID信息由于隐私保护的需要,可能会在待检测数据中被抹去。但会以其他加密或者信息组合的方式出现。又或者在某些地区,例如一二线城市和三四线城市,由于用户的应用使用有区别,导致某些在一二线城市高频的应用,在三四线城市却是低频的。问题二、预置的唯一标识设备ID数量有限。因为提前预置的唯一标识设备的ID,是综合所有场景,找到用户群使用最多的那些能代表身份的信息,并且这些信息是需要逐个通过具体分析每个协议来提取出ID的标示方法。现有技术思路是:寻找那些能作为唯一标识设备的ID,因此由于人力工作量,以及预先假想到的ID数量,限制了所能达到的ID数量。鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。【专利技术内容】本专利技术要解决的技术问题是现有的ID生成方法存在以下问题:对于实际现场情况可能存在不匹配情况,因为实际现场的信息因地而异,一个统一提前预置的唯一标识设备的ID,可能对于某些场景并不适用,甚至不存在;另外,现有的ID实现方式一旦指定,通常就不会再改变,从而造成适用场景类型较为传统,以及使用场景的受局限。本专利技术采用如下技术方案:第一方面,本专利技术提供了一种ID发现方法,设定对应IP相同情况的标识为I、对应IP不同情况的标识为i、对应Host-Key相同且Host-Key的value值相同情况的标识为V、对应Host-Key相同且Host-Key的value值不同情况的标识为v,方法包括:将对应IP相同且Host-Key相同且Host-Key的value值相同情况的标识设定为IV;将对应IP相同且Host-Key相同且Host-Key的value值不同情况的标识设定为Iv;将对应IP不同且Host-Key相同且Host-Key的value值相同情况的标识设定为iV;将对应IP不同且Host-Key相同且Host-Key的value值不同情况的标识设定为iv;依据IV和iv的参数值越大越优、Iv和iV的参数值越小越优的对应关系,根据对应每一组Host-Key统计的IV、iv、Iv和iV,计算每一组Host-Key的得分;根据每一组Host-Key的得分,动态的筛选出当前数据分析场景中的ID。优选的,所述根据对应每一组Host-Key统计的IV、iv、Iv和iV,计算每一组Host-Key的得分,具体包括:根据公式Score=(IV*iv)/(Iv*iV)来计算每一组Host-key的得分;或者,根据公式Score=(IV-Iv)*(iv-iV)来计算每一组Host-key的得分;或者,根据公式Score=(IV+iv)/(IV+iv+Iv+iV)*100来计算每一组Host-key的得分。优选的,所述根据每一组Host-Key的得分,动态的筛选出当前数据分析场景中的ID,具体包括:取Host-Key计算得分位于预设第一排名值之前的Host-Key作为当前数据分析场景动态生成的ID。优选的,所述根据每一组Host-Key的得分,动态的筛选出当前数据分析场景中的ID中,具体为针对同一IP地址,需要确定相应IP地址的ID时,方法包括:针对同一IP地址下,将对应的多个Host-Key计算得分进行排序,取其中排名位于第二预设排名之前的Host-Key作为所述IP地址对应的ID。优选的,所述预设第一排名值为200-500或者排名位于总的前10%作为所述预设第一排名值。优选的,在根据对应每一组Host-Key统计的IV、iv、Iv和iV,计算每一组Host-Key的得分之前,所述方法还包括:根据所述Iv和/或iV的参数值在总的统计数量中的占比,确定相应占比是否超过第一预设阈值;若所述Iv和/或iV在总的统计数量中的占比超过所述第一预设阈值,则跳过相应Host-Key组合的得分计算。优选的,若所述Iv和/或iV在总的统计数量中的占比超过所述第一预设阈值,所述方法还包括:对于Iv在总的统计数量中的占比超过所述第一预设阈值,进一步分析IP相同情况下出现Iv情况的各Key名称;确定其中Key为用户名或者其中Key为设备MAC地址,则在日志中记录相应IP为潜在的工作室。优选的,所述Host-Key中的Key包括设备MAC地址、手机号、用户名、应用ID、IMEI号、位置信息中的任意一种。优选的,对于获取到数据,按照统计出的Host(i)-Key(i),根据公式:Host(i)-Key(i):[IP(1),Value(1),IV(1),Iv(1),iV(1),iv(1)],[IP(2),Value(2),IV(2),Iv(2),iV(2),iv(2)],…,[IP(j),Value(j),IV(j),Iv(j),iV(j),iv(j)]进行数据梳理;其中,i为Host-Key组合的标志号,j为对应各Host-Key组合下具体的IP数量。第二方面,本专利技术还提供了一种ID发现装置,用于实现第一方面所述的ID发现方法,所述装置包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的ID发现方法。第三方面,本专利技术还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的ID发现方法。本专利技术对ID的发现是通过现场数据学习到的,而非预先设置好的,具有现场自适应性。通过现场数据能够学习到全量唯一标识设备的ID,因此数量较人为定义更全面、客观、准确。【附图说明】为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种ID发现方法的流程示意图;图2是本专利技术实施例提供的一种ID发现方法的分析流程示意图;图3是本专利技术实施例提供的一种ID本文档来自技高网...

【技术保护点】
1.一种ID发现方法,其特征在于,设定对应IP相同情况的标识为I、对应IP不同情况的标识为i、对应Host-Key相同且Host-Key的value值相同情况的标识为V、对应Host-Key相同且Host-Key的value值不同情况的标识为v,方法包括:/n将对应IP相同且Host-Key相同且Host-Key的value值相同情况的标识设定为IV;将对应IP相同且Host-Key相同且Host-Key的value值不同情况的标识设定为Iv;将对应IP不同且Host-Key相同且Host-Key的value值相同情况的标识设定为iV;将对应IP不同且Host-Key相同且Host-Key的value值不同情况的标识设定为iv;/n依据IV和iv的参数值越大越优、Iv和iV的参数值越小越优的对应关系,根据对应每一组Host-Key统计的IV、iv、Iv和iV,计算每一组Host-Key的得分;/n根据每一组Host-Key的得分,动态的筛选出当前数据分析场景中的ID。/n

【技术特征摘要】
1.一种ID发现方法,其特征在于,设定对应IP相同情况的标识为I、对应IP不同情况的标识为i、对应Host-Key相同且Host-Key的value值相同情况的标识为V、对应Host-Key相同且Host-Key的value值不同情况的标识为v,方法包括:
将对应IP相同且Host-Key相同且Host-Key的value值相同情况的标识设定为IV;将对应IP相同且Host-Key相同且Host-Key的value值不同情况的标识设定为Iv;将对应IP不同且Host-Key相同且Host-Key的value值相同情况的标识设定为iV;将对应IP不同且Host-Key相同且Host-Key的value值不同情况的标识设定为iv;
依据IV和iv的参数值越大越优、Iv和iV的参数值越小越优的对应关系,根据对应每一组Host-Key统计的IV、iv、Iv和iV,计算每一组Host-Key的得分;
根据每一组Host-Key的得分,动态的筛选出当前数据分析场景中的ID。


2.根据权利要求1所述的ID发现方法,其特征在于,所述根据对应每一组Host-Key统计的IV、iv、Iv和iV,计算每一组Host-Key的得分,具体包括:
根据公式Score=(IV*iv)/(Iv*iV)来计算每一组Host-key的得分;或者,
根据公式Score=(IV-Iv)*(iv-iV)来计算每一组Host-key的得分;或者,
根据公式Score=(IV+iv)/(IV+iv+Iv+iV)*100来计算每一组Host-key的得分。


3.根据权利要求2所述的ID发现方法,其特征在于,所述根据每一组Host-Key的得分,动态的筛选出当前数据分析场景中的ID,具体包括:
取Host-Key计算得分位于预设第一排名值之前的Host-Key作为当前数据分析场景动态生成的ID。


4.根据权利要求3所述的ID发现方法,其特征在于,所述预设第一排名值为200-500或者排名位于总的前10%作为所述预设第一排名值。


5.根据权利要求2所述的ID发现方法,其特征在于,所述根据每一组Host-Key的得分,动态的筛选出当前数据分析场景中的ID中,具...

【专利技术属性】
技术研发人员:白司特雷葆华谭国权
申请(专利权)人:武汉绿色网络信息服务有限责任公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1