一种采用多元信息融合的科研数据匿名化方法及系统技术方案

技术编号：30317648 阅读：26 留言：0更新日期：2021-10-09 23:20

本发明专利技术公开了一种采用多元信息融合的科研数据匿名化方法及系统。所述方法包括：通过学者基本学术行为、同行评议和项目评审多元数据获取学者交互列表，并学习学者交互列表向量表示；利用学得的学者交互向量序列，使用自注意力机制获取学者交互序列之间关系，提取学者交互所包含敏感特征的特征敏感度向量；根据学者个人信息、学术影响力特征信息的不同，自适应的调整特征敏感度向量；将调整后的特征敏感度向量，连同项目信息和论文信息一起作为全连接预测层输入向量，给出基于K

全部详细技术资料下载

【技术实现步骤摘要】
一种采用多元信息融合的科研数据匿名化方法及系统

[0001]本专利技术涉及数据匿名化
，具体涉及一种采用多元信息融合的科研数据匿名化方法及系统。

技术介绍

[0002]在学术搜索推荐系统和学术画像系统中，需要集成融合学者人口学特征、基本科研信息、学术影响力、学术行为、同行评议和项目评审评估行为数据等多种异构数据源，在关键科研行为数据的集成融合汇聚过程中易造成敏感信息及用户个体隐私泄露。一种广泛采用的数据匿名化技术为K
‑
匿名算法，该方法采用隐匿和泛化等技术，使得数据集中的每条记录至少与数据集中其他K
‑
1条记录拥有相同的标识符属性值。然而，针对科研数据集融合学者个人信息、学术影响力特征信息、项目信息、论文信息、学术行为、同行评议和项目评审评估行为等多元数据，不同维度的特征具有不同的敏感度，如学者的详细通讯信息和他们在同行评议中的观点敏感度相对较高；而学者所发表的论文和获得授权的专利信息则敏感度较低。传统的K
‑
匿名方法难以实现细粒度和个性化的科研数据匿名化，导致成本过高或者匿名化效果不好。

技术实现思路

[0003]针对上述现有技术的不足，本专利技术的目的在于提出一种采用多元信息融合的科研数据匿名化方法及系统，将学者基本信息和学者基本学术行文信息引入到网络表示学习模型中，利用网络表示学习的原理和自动编解码器的强表达能力，找到基于K匿名的多维特征敏感度最佳K值预测，实现科研数据多维敏感度和细粒度的匿名化方法，从而提升科研数据匿名化效果。
>[0004]为了达到上述目的，本专利技术采用如下技术方案：
[0005]第一方面，一种采用多元信息融合的科研数据匿名化方法，包括以下步骤：
[0006]S1、从多种异构数据源中获取学者交互列表，并学习学者交互列表向量表示；
[0007]S2、利用学得的学者交互向量序列，使用自注意力机制获取学者交互序列之间关系，提取学者交互所包含敏感特征的特征敏感度向量；
[0008]S3、根据学者个人信息、学术影响力特征信息的不同，自适应的调整特征敏感度向量；
[0009]S4、将动态调整的特征敏感度向量，连同项目信息论文信息、学者信息以及学术影响力特征信息一起作为全连接预测层的输入向量，给出基于K
‑
匿名的多维敏感度最佳K值。
[0010]于本专利技术第一方面的一些实施例中，所述步骤S1包括：
[0011]从学者基本学术行为、同行评议和项目评审原始数据集中提取出学者交互特征，构建学者交互列表集合，构建学者基本信息的独热编码；
[0012]将学者基本信息稀疏的独热编码表示转换为稠密的向量形式，再把异构的学者交互列表结构转换为维度统一的向量形式。
[0013]于本专利技术第一方面的一些实施例中，所述步骤S1包括：
[0014]根据原始数据集，提取学者基本信息的独热编码V，将每个学者视为一个节点，当两个节点在交互列表中连续出现时，通过有向边连接它们，得到初始序列；
[0015]建立最大化平均对数概率的目标函数：
[0016][0017]其中N(a
i
)表示节点a
i
的邻居，s＝{a1,a2,
…
,a
n
}∈S中s表示学术交互行为，a1,a2,
…
,a
n
表示一次学术交互行为涉及到的学者，S则表示一段时间所有学术交互行为列表；P(c|f(a
i
))是观察给定节点a
i
的上下文邻域的条件概率，定义为：
[0018][0019]其中v
a
和v
′
a
分别为节点a的输入和输出向量表示，v
′
c
表示a
i
任意邻居节点c的输出向量表示，v
′
n
表示图中任意节点n对应的输出向量表示；
[0020]采用随机梯度下降法对所述目标函数进行优化，得到一组固定长度的特征向量。
[0021]于本专利技术第一方面的一些实施例中，所述步骤S2中使用自注意力机制获取学者交互序列之间关系通过基于编码器和解码器的序列到序列映射模型来完成，其中编码器部分由六组完全相同的编码器首尾相接堆叠而成，解码器部分也由六组完全相同的解码器首尾相接堆叠而成，堆叠的编码器和解码器虽然结构完全相同，但是彼此之间并不共享参数，编码器的输入为一组学者交互向量，解码器的输出为每个交互向量对应多维特征敏感度的向量表示。
[0022]于本专利技术第一方面的一些实施例中，每一个编码器包含自注意力层和前馈神经网络层，编码器的输入部分首先经过自注意力层，这一层使得在编码一个序列中特定的某个交互信息表示时，也能同时注意到该学者交互序列中其他的交互信息表示，计算过程形式化为：
[0023][0024]其中d
k
表示查询向量的维度，Q、L、V分别为每一组输入构成的查询矩阵、键矩阵和值矩阵；
[0025]对多组查询矩阵、键矩阵和值矩阵，每组权重矩阵随机初始化，经过训练后，将输入向量映射到不同的表示子空间，通过不同的注意力头计算，得到多个不同的自注意力表示矩阵，将所有的矩阵首尾拼接并乘上一个额外的权重矩阵，最终得到一个压缩的多注意力头输出矩阵作为自注意力层的输出：
[0026]Z＝Concat(Z0,Z1,
…
,Z7)W
[0027]其中Z为最终的输出矩阵，Z
i
表示第i个自注意力的输出矩阵，W为额外的权重矩阵；
[0028]经过自注意力层的输出被进一步输入到一个前馈神经网络中，输入序列中每一个
位置对应的前馈神经网络都彼此独立，当数据经过前馈神经网络层时，对模型进行并行训练，对于每一个位置的向量，都进行两次线性变换，并使用ReLu作为激活函数；
[0029]每一个解码器也包含上述的自注意力层和前馈神经网络层，经过解码器得到每个学者交互向量对应的特征敏感度向量。
[0030]于本专利技术第一方面的一些实施例中，所述步骤S3包括如下计算过程：
[0031][0032][0033]其中x
i
表示待预测特征的向量表示，W为权重矩阵，z
j
表示多维特征敏感度序列中第j个向量，ω
j
表示权重矩阵W中的第j行向量，m表示权重矩阵的行数，v
u
(i)表示当待预测特征为i时学者u的特征敏感度向量。
[0034]第二方面，一种采用多元信息融合的科研数据匿名化系统，包括：
[0035]学者交互向量学习模块，通过学者基本学术行为、同行评议和项目评审等多元数据获取学者交互列表，并学习学者交互列表向量表示；
[0036]特征敏感度表示模块，利用学得的学者交互向量序列，使用自注意力机制获取学者交互序列之间关系，提取学者交互所包含的敏感特征；
[0037]动态特征敏感度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种采用多元信息融合的科研数据匿名化方法，其特征在于，所述方法包括以下步骤：S1、从多种异构数据源中获取学者交互列表，并学习学者交互列表向量表示；S2、利用学得的学者交互向量序列，使用自注意力机制获取学者交互序列之间关系，提取学者交互所包含敏感特征的特征敏感度向量；S3、根据学者个人信息、学术影响力特征信息的不同，自适应的调整特征敏感度向量；S4、将动态调整的特征敏感度向量，连同项目信息论文信息、学者信息以及学术影响力特征信息一起作为全连接预测层的输入向量，给出基于K
‑
匿名的多维敏感度最佳K值。2.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法，其特征在于，所述步骤S1包括：从学者基本学术行为、同行评议和项目评审原始数据集中提取出学者交互特征，构建学者交互列表集合，构建学者基本信息的独热编码；将学者基本信息稀疏的独热编码表示转换为稠密的向量形式，再把异构的学者交互列表结构转换为维度统一的向量形式。3.根据权利要求2所述的采用多元信息融合的科研数据匿名化方法，其特征在于，所述步骤S1包括：根据原始数据集，提取学者基本信息的独热编码V，将每个学者视为一个节点，当两个节点在交互列表中连续出现时，通过有向边连接它们，得到初始序列；建立最大化平均对数概率的目标函数：其中N(a
i
)表示节点a
i
的邻居，s＝{a1，a2，...，a
n
}∈S中s表示学术交互行为，a1，a2，...，a
n
表示一次学术交互行为涉及到的学者，S则表示一段时间所有学术交互行为列表；P(c|f(a
i
))是观察给定节点a
i
的上下文邻域的条件概率，定义为：其中v
a
和v
′
a
分别为节点a的输入和输出向量表示，v
′
c
表示a
i
任意邻居节点c的输出向量表示，v
′
n
表示图中任意节点n对应的输出向量表示；采用随机梯度下降法对所述目标函数进行优化，得到一组固定长度的特征向量。4.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法，其特征在于，所述步骤S2中使用自注意力机制获取学者交互序列之间关系通过基于编码器和解码器的序列到序列映射模型来完成，其中编码器部分由六组完全相同的编码器首尾相接堆叠而成，解码器部分也由六组完全相同的解码器首尾相接堆叠而成，堆叠的编码器和解码器虽然结构完全相同，但是彼此之间并不共享参数，编码器的输入为一组学者交互向量，解码器的输出为每个交互向量对应多维特征敏感度的向量表示。5.根据权利要求4所述的采用多元信息融合的科研数据匿名化方法，其特征在于，每一个编码器包含自注意力层和前馈神经网络层，编码器的输入部分首先经过自注意力层，这一层使得在编码一个序列中特定的某个交互信息表示时，也能同时注意到该学者交互序列
...

【专利技术属性】
技术研发人员：李文中，余泽鹏，叶保留，陆桑璐，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人