一种基于知识图谱的隐私保护数据发布风险评估方法技术

技术编号:24518520 阅读:21 留言:0更新日期:2020-06-17 07:06
本发明专利技术公开了一种基于知识图谱的隐私保护数据发布风险评估方法,方法包括以下步骤:获取数据申请者提交的信息,判断基本信息是否符合规范;将数据申请者的信息映射为RDF数据集,然后转化为知识图谱中的图数据;基于知识图谱利用相关算法完成对数据申请者的基本信息风险评估、身份异常风险评估、组团欺诈风险评估、个体信用风险评估;结合所有风险评估数据,构建风险模型,对数据申请者进行风险评分;对综合风险评估的得分进行标签化,得出风险评估结论以及具体的风险项评估结果。本方案能够自动抽取数据申请者的信息并分析风险,主动防护隐私保护数据发布的过程,大量减少了人工审核的工作量,更直观的描述了隐私保护数据发布的风险。

A risk assessment method of privacy data publishing based on Knowledge Map

【技术实现步骤摘要】
一种基于知识图谱的隐私保护数据发布风险评估方法
本专利技术属于数据处理
,具体涉及一种基于知识图谱的隐私保护数据发布风险评估方法。
技术介绍
随着大数据技术的广泛应用,数据已经成为许多公司的重要资产之一。目前的隐私保护数据发布系统仅对脱敏后数据的隐私泄露风险进行评估,而忽略了主动对数据申请者进行风险评估,恶意攻击者虽然无法从技术方面窃取隐私数据,但是可以利用社会工程学进行数据欺诈窃取,例如通过用户仿冒、组团欺诈等手段获取不同的数据,然后再用数据分析手段解析得到隐私数据。知识图谱作为一种基于图结构的技术,可以快速分析出其中的节点之间的关系。所以,将数据申请者映射到知识图谱中,基于知识图谱分析它们的隐含关系,可以有效的防范利用社会工程学窃取隐私数据。
技术实现思路
本专利技术目的在于提供一种基于知识图谱的隐私保护数据发布风险评估方法,可以有效防范隐私数据被窃取欺诈。本专利技术的目的是通过以下技术方案来实现的:一种基于知识图谱的隐私保护数据发布风险评估方法,包括以下步骤:S1,获取数据申请者的信息并将获取的信息映射为RDF数据集,然后转化为知识图谱中的图数据,然后转化为知识图谱中的图数据;S2,基于知识图谱对数据申请者的基本信息进行检测,完成基本信息风险评估;S3,基于知识图谱利用异常检测算法对数据申请者进行身份异常检测,完成身份异常风险评估;S4,基于知识图谱利用社区发现算法对数据申请者团体之间进行社团划分,计算组团欺诈风险,完成数据申请者组团欺诈风险评估;S5,基于知识图谱利用改进的个性化PageRank算法对数据申请者进行个体信用计算分析,完成数据申请者个体信用风险评估;S6,结合所有风险评估数据,构建风险模型,按照评估标准对数据申请者进行风险评分,完成数据申请者的综合风险评估;S7,对综合风险评估的得分采取分层标签化的方法进行处理,汇总得出风险评估结论以及具体的风险项评估结果。进一步的,所述步骤S1中包含以下子步骤:S101,根据关系型数据库的逻辑表,生成映射文件;S102,解析映射文件,获取其中包含的映射元素;S103,分析映射元素,获取其中的子元素和逻辑表及其属性列的映射规则;S104,从关系型数据库中获取逻辑表中的元组,按照映射规则将元组中对应属性列映射为RDF术语;S105,将得到的RDF术语组合为RDF三元组,输出到RDF数据集。进一步的,所述的步骤S3中的身份异常风险评估包含以下子步骤:S301,给定一个检测的目标用户其中是该目标用户的第i个属性;S302,给定一个正常用户集合U={u1,u2,...,um},将每个正常用户的第k个属性提取出来得到属性集其中表示第j个用户的第k个属性;S303,从每个正常用户中提取出l个属性,构成一个多用户多属性集Muti_UP={P1,P2,...,Pl},然后从待检测目标用户中提取出对应的l个属性,构成一个待检测属性集PTest={p1,p2,...,pl};S304,将多用户多属性集Muti_UP映射到一个l维的聚类空间中,然后进行聚类操作,再将待检测属性集PTest={p1,p2,...,pl}映射到该聚类空间,使用异常检测算法,计算异常检测结果,完成身份异常风险评估。进一步的,所述的步骤S4中的组团欺诈风险评估包含以下子步骤:S401,给定欺诈用户的样本集其中是一个欺诈用户样本,该欺诈用户样本的属性为其中是该欺诈用户样本的第j个属性;S402,初始化一个欺诈团体集并将其初始化为空,即S403,选取欺诈用户m个属性中的l个属性,构成一个属性子集S404,根据上面的l个属性使用社区发现算法对所有欺诈用户进行分类,将具有相似特征的欺诈用户分为一类,最终得到一个用户分类集U'={U1,U2,...,Up},该集合中的每个元素表示一类欺诈团体;将不同类型的欺诈团体作为一个元素加入欺诈团体集,得到欺诈团体集Group={U1,U2,...,Up},完成组团欺诈风险评估。进一步的,所述的步骤S5中的个体信用风险评估包含以下子步骤:S501,给定一个用户关系网络U=<GU,VU>,其中GU是关系网络中的用户节点集合,VU是关系网络中的边集合;S502,假设有一个风险权重为w的用户节点u,与用户节点u相连的n个用户节点为U={u1,u2,...,un};S503,假设用户节点u发生了某个不良信用事件,有一个时间相关函数δ(u,t)将节点u的风险权重传导给与u相连的节点;S504,使用改进的个性化PageRank算法遍历所有节点同时完成不良信用事件风险权重传导计算,最后按照风险权重,对该用户关系网络中的所有用户进行排序,得到用户风险排序集合,完成个体信用风险评估。进一步的,所述的步骤S6中的构建的风险模型为:score(u)=μ(B,F)其中,μ是风险评分函数,B表示数据使用者的基本信息,F表示基于数据使用者的身份异常风险、组团欺诈风险、个体信用风险的评估结果。本专利技术的有益效果:(1)大量减少人工审核数据申请者信息的工作,对隐私保护数据发布的过程提供主动防护;(2)自动的抽取数据申请者的背景信息、关联关系分析等信息,分析其风险;(3)给出了风险评估定量和定性方案,更直观的描述隐私保护数据发布的风险;(4)可以减少复杂关系网络中,对数据申请者身份验证的复杂度,最终通过标签化得到风险评估结果进行语义化表达,直观易懂。附图说明图1是本专利技术的方法步骤图。图2是本专利技术的分层标签化方法图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图说明本专利技术的具体实施方式。在本专利技术的实施例中,如图1所示,一种基于知识图谱的隐私保护数据发布风险评估方法,包括以下步骤:获取数据申请者的信息并将获取的信息映射为RDF数据集,然后转化为知识图谱中的图数据;基于知识图谱对数据申请者的基本信息进行检测,完成基本信息风险评估;基于知识图谱利用异常检测算法对数据申请者进行身份异常检测,完成身份异常风险评估;基于知识图谱利用社区发现算法对数据申请者团体之间进行社团划分,计算组团欺诈风险,完成数据申请者组团欺诈风险评估;基于知识图谱利用改进的个性化PageRank算法对数据申请者进行个体信用计算分析,完成数据申请者个体信用风险评估;结合所有风险评估数据,构建风险模型,按照评估标准对数据申请者进行风险评分,完成数据申请者的综合风险评估;对综合风险评估的得分采取分层标签化的方法进行处理,汇总得出风险评估结论以及具体的风险项评估结果。进一步的,在获取数据申请者的信息转化为知识图谱的步骤中还包括判断数据申请者提交的信息基本信息是否符合规范。数据申请者信息的知识图谱映射具体过程如下:在数据申请者信息的知识图谱映射过程中,数据申请者的信息一般以结构化本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的隐私保护数据发布风险评估方法,其特征在于,包括以下步骤:/nS1,获取数据申请者的信息并将获取的信息映射为RDF数据集,然后转化为知识图谱中的图数据;/nS2,基于知识图谱对数据申请者的基本信息进行检测,完成基本信息风险评估;/nS3,基于知识图谱利用异常检测算法对数据申请者进行身份异常检测,完成身份异常风险评估;/nS4,基于知识图谱利用社区发现算法对数据申请者团体之间进行社团划分,计算组团欺诈风险,完成数据申请者组团欺诈风险评估;/nS5,基于知识图谱利用改进的个性化PageRank算法对数据申请者进行个体信用计算分析,完成数据申请者个体信用风险评估;/nS6,结合所有风险评估数据,构建风险模型,按照评估标准对数据申请者进行风险评分,完成数据申请者的综合风险评估;/nS7,对综合风险评估的得分采取分层标签化的方法进行处理,汇总得出风险评估结论以及具体的风险项评估结果。/n

【技术特征摘要】
1.一种基于知识图谱的隐私保护数据发布风险评估方法,其特征在于,包括以下步骤:
S1,获取数据申请者的信息并将获取的信息映射为RDF数据集,然后转化为知识图谱中的图数据;
S2,基于知识图谱对数据申请者的基本信息进行检测,完成基本信息风险评估;
S3,基于知识图谱利用异常检测算法对数据申请者进行身份异常检测,完成身份异常风险评估;
S4,基于知识图谱利用社区发现算法对数据申请者团体之间进行社团划分,计算组团欺诈风险,完成数据申请者组团欺诈风险评估;
S5,基于知识图谱利用改进的个性化PageRank算法对数据申请者进行个体信用计算分析,完成数据申请者个体信用风险评估;
S6,结合所有风险评估数据,构建风险模型,按照评估标准对数据申请者进行风险评分,完成数据申请者的综合风险评估;
S7,对综合风险评估的得分采取分层标签化的方法进行处理,汇总得出风险评估结论以及具体的风险项评估结果。


2.根据权利要求1所述的一种基于知识图谱的隐私保护数据发布风险评估方法,其特征在于,所述步骤S1中包含以下子步骤:
S101,根据关系型数据库的逻辑表,生成映射文件;
S102,解析映射文件,获取其中包含的映射元素;
S103,分析映射元素,获取其中的子元素和逻辑表及其属性列的映射规则;
S104,从关系型数据库中获取逻辑表中的元组,按照映射规则将元组中对应属性列映射为RDF术语;
S105,将得到的RDF术语组合为RDF三元组,输出到RDF数据集。


3.根据权利要求1所述的一种基于知识图谱的隐私保护数据发布风险评估方法,其特征在于,所述的步骤S3中的身份异常风险评估包含以下子步骤:
S301,给定一个检测的目标用户其中是该目标用户的第i个属性;
S302,给定一个正常用户集合U={u1,u2,...,um},将每个正常用户的第k个属性提取出来得到属性集其中表示第j个用户的第k个属性;
S303,从每个正常用户中提取出l个属性,构成一个多用户多属性集Muti_UP={P1,P2,...,Pl},然后从待检测目标用户中提取出对应的l个属性,构成一个待检测属性集PTest={p1,p2,...,pl};
S304,将多用户多属性集Muti_UP映射到一个l维的聚类空间中,然后进行聚类操作,再将待检测属性集PTe...

【专利技术属性】
技术研发人员:王瑞锦张凤荔何兴高张巍琦唐榆程郭鹏宇谭琪
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1