当前位置: 首页 > 专利查询>广西大学专利>正文

基于改进Apriori算法和贝叶斯网络推理的数据可靠性评价方法技术

技术编号:26171552 阅读:41 留言:0更新日期:2020-10-31 13:44
本发明专利技术公开了基于改进Apriori算法和贝叶斯网络推理的数据可靠性评价方法,属于数据处理领域,评价方法首先采用了聚类和局部线性嵌入的学习算法,对输入的数据矩阵进行数据编码,然后通过各维度数据的相关关系,通过领域背景建立贝叶斯网络的有向无环图,并通过改进的Apriori算法得到条件概率表,得到多维数据局部和全局的可靠值。该算法是从数据结构本身和数据之间的关系来评价数据的可靠性,无需确定可靠性指标,数据分布情况,减少以往数据可靠性评价的主观性。该算法具有普适性,不仅适用于离散的数据值,对于区间数的可靠性同样适用。该算法准确性较高,有助于挖掘高维数据相同维度和不同维度之间的关联关系,得到各个数据的局部可靠性和全局可靠性。

【技术实现步骤摘要】
基于改进Apriori算法和贝叶斯网络推理的数据可靠性评价方法
本专利技术涉及数据处理领域,尤其涉及基于改进Apriori算法和贝叶斯网络推理的数据可靠性评价方法。
技术介绍
随着大数据时代的到来,数据挖掘算法被广泛应用于各个领域,使得数据成为许多组织最有价值的生产原料。许多组织都在出售数据,其他组织则提供挖掘数据的服务和解决方案。事实上,人们越来越依赖估算和预测等次级数据来源,这些次级数据可能具有影响总体可靠性的不同特征。这时,更为传统的可靠性的方法变得不那么有用,因为元数据需要包含某些信息,而这些信息是由系统的数据表示隐藏在后台的。可靠性起源于工业工程质量控制领域,最初被定义为产品在规定的条件下在预定时间内成功运行的能力。而这种能力通常归结于一个概率值,即可靠性定义为在给定的环境条件下,在规定的时间和范围内,完成规定功能的概率。数据作为一种产品,与一般产品可靠性的定义不同,数据可靠性的定义未有一个统一的标准。根据以往的可靠性理论,提出了更加客观的数据的可靠性的定义,即数据的可靠性是关于不同维度数据之间的条件概率。传统本文档来自技高网...

【技术保护点】
1.基于改进Apriori算法和贝叶斯网络推理的数据可靠性评价方法,其特征在于:所述评价方法包括如下步骤/n步骤1:设输入的多样性特征的多维相关数据S

【技术特征摘要】
1.基于改进Apriori算法和贝叶斯网络推理的数据可靠性评价方法,其特征在于:所述评价方法包括如下步骤
步骤1:设输入的多样性特征的多维相关数据Sij={aji}为区间值和离散值的混合集,其中i表示数据的维度i=1,2,…,n,j表示样本的数量j=1,2,…,m,若将每个数据都视为区间数aji=[xji,yji],其中xji,yji可以相等,记数据Sij左端点的集合为数据Sij的极小值集合,Sij右端点的集合为数据的极大值集合,将多维的具有极小值和极大值的区间数集形成样本矩阵即对极大值集Sij-和极小值集Sij+进行数据编码化处理,得到数据编码Code和编码规则Rule;
步骤2:根据数据相关关系和属性特征,构建贝叶斯网络有向无环图,将按步骤1进行数据编码后的原始数据的各维度数据表示为贝叶斯网络中的节点其中i表示数据的维度,k表示该维度的状态即在相应编码下的编码的规则Rule。计算得到构建的贝叶斯网络的节点变量其中表示没有父节点的独立节点变量,表示有父节点的非独立节点变量,及有向边该有向边表示各个维度数据的关系,其中为节点的父节点;
步骤3:采用改进的Apriori算法求得各个节点的支持度并作为贝叶斯网络的条件概率表L(V);
步骤4:依据证据相关法对数据的贝叶斯网络进行推理,计算数据的可靠性。


2.根据权利要求1所述的基于改进Apriori算法和贝叶斯网络推理的数据可靠性评价方法,其特征在于:所述步骤1中,数据编码化处理的处理过程为:
步骤1.1:分别对数据和进行无监督聚类学习,求得最大的邻居数N。并按照邻居数N对样本矩阵Sij按照局部线性嵌入算法进行线性重构,计算得到样本矩阵的特征向量。将该特征向量进行聚类,得到样本矩阵的数据编码Code和数据各维度聚类的集合Rule,Rule即为编码规则。


3.根据权利要求2所述的基于改进Apriori算法和贝叶斯网络推理的数据可靠性评价方法,其特征在于:所述步骤1.1的具体过程为:
步骤1.1.1:输入数据矩阵Sij=(Sij-,Sij+),通过交叉检验确定阈值T;
步骤1.1.2:从数据集Sij-或者Sij+中任取一点,计入分类集Canopy;
步骤1.1.3:从数据集Sij-或者Sij+中任取一点P,计算P与分类集Canopy的距离;
步骤1.1.4:判定分类集Canopy,如果分类集Canopy距离小于T则将P存入分类集Canopy,否则将P从Sij-或者Sij+中删除;
步骤1.1.5:重复步骤1.1.3,1.1.4直到Sij-或者Sij+中没有数据,输出分类集Canopy中的数据数目K-或分类集K+,并求得聚类数目K;
步骤1.1.6:从Sij-或者Sij+中随机选择K个数据集,计入C-或者C+;
步骤1.1.7:根据欧氏距离,将Sij-或者Sij+中分配入C-或者C+,形成...

【专利技术属性】
技术研发人员:邓建新叶志兴谢彬曾向明贺德强李先旺
申请(专利权)人:广西大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1