一种基于伽罗瓦域的流量日志多视图匿名方法技术

技术编号:30223680 阅读:59 留言:0更新日期:2021-09-29 09:44
本发明专利技术公开了一种基于伽罗瓦域的流量日志多视图匿名方法,包括如下步骤:(1)生成种子日志的算子选取方案;(2)获取基于伽罗瓦域的分布式种子日志;(3)生成多视图算子选取方案;(4)企业和第三方进行通信。本发明专利技术能实现取消对于企业指定的密钥有限制;伽罗瓦域不仅能够准确表示IP地址空间的结构特征,而且是从单个流量包的层面对IP地址进行映射,所以对于所有流量日志都适用;求逆运算可以在不受时空影响地情况下确定性地将一个原始IP地址映射成一个匿名IP地址,所以种子日志能在分布式环境下生成;降低企业与第三方的通讯成本。降低企业与第三方的通讯成本。降低企业与第三方的通讯成本。

【技术实现步骤摘要】
一种基于伽罗瓦域的流量日志多视图匿名方法


[0001]本专利技术涉及流量日志多视图匿名方法,尤其涉及一种基于伽罗瓦域的流量日志多视图匿名方法。

技术介绍

[0002]收集到真实有效的流量数据并外包给专业机构进行分析,有助于促进企业的网络系统研究。将先进的流量分析技术应用到企业妥善收集和保存的流量数据上,对于企业而言有着重要的技术价值和商业价值,包括优化服务器部署、挖掘用户商业行为、审查网络安全等等。同时,随着企业网络流量的规模越来越大,对于流量数据的分析往往需要外包给专业的分析者。
[0003]然而企业面临着发布流量日志和保护隐私的困境。一个最主要的原因就是流量数据真实保存了很多敏感信息,特别是服务器IP地址,用户IP地址等等,这些敏感信息代表了企业和用户的隐私,而将未经处理的流量数据文件转交给第三方会有很大的可能导致隐私信息泄露。因此企业在将日志外包给专业的分析者时由于担心隐私被泄露而迟疑不决。流量日志中包含的真实数据特征代表了日志的有效性,暴露的真实信息反映了日志的隐私性,业界公认有效性和隐私性之间存在一种权衡,正是这种权衡给企业造成了困境。为了解决这一困境,匿名手段被广泛研究并且应用在流量日志中的IP地址字段。TCPdpriv采用随机映射的方式进行匿名。该方法随机的将IP地址一对一映射到一个32位的整数,经过这个方法匿名后的IP地址与匿名前的地址没有关联特征,很大程度上保护了隐私性;然而随机的映射使得分布式收集的IP地址无法进行统一的汇总,因此有效性随之大幅度降低。CryptoPAn使用前缀保留方案在分布式环境中替换原始IP。该方法不仅可以实现共享前缀的IP地址匿名后依然共享前缀,而且可以被部署在分布式环境中获取流量日志,这就意味着企业在不同流量节点获取的日志可以合并分析,因此一经提出就被广泛的采用;然而保留了前缀的日志也被实验证明在抵御指纹攻击和注入攻击时表现很脆弱,也就意味着牺牲了一部分的隐私性。
[0004]多视图方案提供了一种范式,将有效性和隐私性的权衡转移到有效性隐私性和计算开销的权衡。在匿名阶段,企业根据原始的流量日志生成多个流量日志,其中只有一个是真实的;在外包的阶段,企业同时将多个流量日志发布给分析机构进行分析。在这种情况下,保证有效性和隐私性是通过增加计算开销实现的。
[0005]为了拥有较小的通信开销,多视图方案根据流量日志生成一个种子日志以及多个参数作为沟通成本。其中每个参数可以跟种子日志进行运算生成新的日志,这样企业在与第三方通信的时候就不需要发布多个日志本身,仅需要发布种子日志和参数。
[0006]然而现有基于伪随机数的多视图方案有很多局限性,包括:
[0007](1)对于企业指定的密钥有限制,否则不能保证有效性;
[0008](2)对于流量日志本身的IP地址数据特征有很高的要求,否则不能保证隐私性;
[0009](3)这种方案也不能实现分布式环境下的流量匿名;
[0010](4)企业与第三方的沟通成本会随着日志中流量的增多而增加。

技术实现思路

[0011]专利技术目的:本专利技术的目的是提供一种在保证有效性和隐私性的情况下,取消企业使用密钥的限制,对所有流量日志都适用,能够实现分布式环境下的流量日志匿名,以更小的沟通成本实现企业与第三方的基于伽罗瓦域的流量日志多视图匿名方法。
[0012]技术方案:本专利技术的流量日志多视图匿名方法,包括如下步骤:
[0013](1)确定生成种子日志的算子选取方案;
[0014](2)获取基于伽罗瓦域的分布式种子日志;
[0015](3)确定生成多视图算子选取方案;
[0016](4)企业将种子日志和多视图算子外包给分析机构。
[0017]进一步,步骤(1)中,所述生成种子日志的算子的步骤为:
[0018](11)在部署前,企业需要选择伽罗瓦域中的求逆运算作为算子的一部分,将原始IP地址以符合双射标准的形式映射到匿名IP地址;
[0019](12)通过伽罗瓦域中的求逆运算和不可约多项式实现IP地址的匿名转化。
[0020]进一步,步骤(2)中,种子日志由真实日志经过匿名得到,因此企业需要在收集真实日志的所有节点均部署所述步骤(1)得出的不可约多项式和相应求逆算法;部署后,进行分布式的流量日志获取同时匿名,包括步骤如下:
[0021](21)获取经过流量节点的每个流量包;
[0022](22)对每个流量包中的信息进行解析;
[0023](23)将需要保存到种子日志中的具体信息进行提取;
[0024](24)将提取的信息中的原始IP地址构造为多项式f(x),并选用拓展欧几里得算法对多项式f(x)进行关于不可约多项式的求逆运算,得到新的多项式f
‑1(x);再接着将多项式f
‑1(x)构造为匿名IP地址;
[0025](25)最后使用匿名IP地址替换提取的信息中的原始IP地址,并将提取出来的信息组织成企业指定的格式写入种子日志。
[0026]进一步,步骤(3)中,所述生成多视图算子是基于伽罗瓦域的多项式求逆运算,包括步骤:
[0027](31)首先企业选取多个不可约多项式组V,作为求逆运算的参数,求逆运算能保证不同的不可约多项式组得到与种子日志形成双射的不同日志;
[0028](32)其次企业需要将步骤(1)中部署的不可约多项式组插入选取的不可约多项式组V中。
[0029]本专利技术与现有技术相比,其显著效果如下:1、求逆运算可以在不受时空影响地情况下确定性地将一个原始IP地址映射成一个匿名IP地址,所以种子日志能在分布式环境下生成;2、不可约多项式组v
L
用于将种子日志映射为真实日志,因而真实的分析报告能够生成;3、步骤(3)中的匿名v
L
和V中的其他不可约多项式组不可区分,即真实日志和伪日志不可区分,所以企业的隐私得以保护;4、伽罗瓦域不仅能够准确表示IP地址空间的结构特征,而且是从单个流量包的层面对IP地址进行映射,所以对于所有流量日志都适用;5、步骤(2)中使用伽罗瓦域可以根据任意不可约多项式实现原始IP地址到匿名IP地址的确定性映射,
所以企业能够任意指定不可约多项式,取消了对企业使用密钥的限制;6、通信成本的多视图算子M大小固定,且不会随着真实日志中地流量数增加而增加,所以企业和第三方分析机构的通信成本降低。
附图说明
[0030]图1为本专利技术的总流程示意图。
具体实施方式
[0031]下面结合说明书附图和具体实施方式对本专利技术做进一步详细描述。
[0032]本专利技术的总流程图如图1所示,以对流量日志中的IP地址进行匿名为例,包括如下步骤:
[0033](1)确定生成种子日志的算子选取方案;
[0034](2)获取基于伽罗瓦域的分布式种子日志;
[0035](3)确定生成多视图的算子选取方案;
[0036](4)企业和第三方进行通信,企业将种子日志本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于伽罗瓦域的流量日志多视图匿名方法,其特征在于,包括如下步骤:(1)确定生成种子日志的算子选取方案;(2)获取基于伽罗瓦域的分布式种子日志;(3)确定生成多视图算子选取方案;(4)企业将种子日志和多视图算子外包给分析机构。2.根据权利要求1所述的基于伽罗瓦域的流量日志多视图匿名方法,其特征在于,步骤(1)中,所述生成种子日志的算子的步骤为:(11)在部署前,企业需要选择伽罗瓦域中的求逆运算作为算子的一部分,将原始IP地址以符合双射标准的形式映射到匿名IP地址;(12)通过伽罗瓦域中的求逆运算和不可约多项式实现IP地址的匿名转化。3.根据权利要求2所述的基于伽罗瓦域的流量日志多视图匿名方法,其特征在于,步骤(2)中,种子日志由真实日志经过匿名得到,因此企业需要在收集真实日志的所有节点均部署所述步骤(1)得出的不可约多项式和相应求逆算法;部署后,进行分布式的流量日志获取同时匿名,包括步骤如下:(21)获取经过...

【专利技术属性】
技术研发人员:董恺周俊杰
申请(专利权)人:南京逸智网络空间技术创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1