数据关联性分析方法及系统、可读存储介质技术方案

技术编号:23765097 阅读:23 留言:0更新日期:2020-04-11 19:24
本发明专利技术提供的数据关联性分析方法及系统、可读存储介质,根据待分析数据对象的字段点的特性选择对应的相关系数计算模型,计算在同一时间段内不同的字段点两两之间的相关系数,以得到两两强显性相关的字段点及待分析数据对象,构建社会网络关系矩阵,绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;根据中心度对社会网络结构中的业务进行重要度排名;根据中心势确定社会网络结构中各业务的总体整合度。本发明专利技术提供的以上方案,将社会网络分析引入业务管理信息系统的众多数据资源的分析中,推动信息资源的精简及整合,明了不同平台或系统间业务数据的联动性。

Data association analysis method and system, readable storage medium

【技术实现步骤摘要】
数据关联性分析方法及系统、可读存储介质
本专利技术涉及数据统计及分析应用
,具体涉及一种数据关联性分析方法及系统和一种可读存储介质。
技术介绍
政务资源信息系统及共享平台包含的业务子系统众多,其涉及到的业务字段更多,且不同的业务字段分散在各自不同子系统的不同数据表中。难以确定不同平台或不同系统中的数据之间是否有关联,而且分辨及快速掌握哪些数据是关键业务数据也较为困难。操作人员不能确定各业务系统数据在整体系统中的重要程度如何,为各业务系统信息整合、相互间信息交换与共享及信息资源合理布局等工作的有效进行增添了障碍或降低了效率。
技术实现思路
本专利技术实施例旨在提供一种数据分析方法和系统、一种可读存储介质,以解决现有技术中难以对多系统中的多种数据进行关联性判断,整合数据难度大和效率低的技术问题。本专利技术提供一种数据关联性分析方法,包括如下步骤:获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果;根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是连续型数据时选择对应的Pearson相关系数计算模型,所述Pearson相关系数计算模型为:其中,σX和σY分别表示X,Y两个变量的标准差;Cov(X,Y)表示X,Y两个变量的协方差,且X,Y两个变量的标准差均不等于零。可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类有序型数据时选择对应的Spearman相关系数计算模型,所述Spearman相关系数计算模型为:其中,m为等级个数;d为二列成对变量的等级差数。可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类无序型数据时选择对应的相关系数Kendall计算模型,所述Kendall计算模型为:其中,n表示同类统计对象的个数;numberofconcordantpairs表示同序对的数量,numberofdiscordantpairs表示异序对的数量。可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,其中包含如下步骤:根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的初始相关系数;选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果。可选地,上述的数据关联性分析方法中,选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果的步骤中:所述回归预测模型包括曲线估计模型和机器学习模型,所述曲线估计模型包括一次函数关系、非线性三次函数关系和对数函数关系,所述机器学习模型包括随机森林回归、支持向量机回归及神经网络回归。可选地,上述的数据关联性分析方法中,根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数的步骤中:若两个字段点之间的相关系数大于设定阈值,则判定两个字段点两两强显性相关,两个字段点对应的待分析数据对象为两两强显性相关。本专利技术还提供一种数据关联性分析系统,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个所述处理器读取所述程序指令后执行以上任一项所述的数据关联性分析方法。本专利技术还提供一种可读存储介质,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行以上任一项所述的数据关联性分析方法。与现有技术相比,本专利技术实施例提供的上述技术方案至少具有以下有益效果:本专利技术实施例提供的数据关联性分析方法及系统、可读存储介质,其方法中,将社会网络分析引入业务管理信息系统的众多数据资源的分析中,将各业务系统中不同业务的数据对象的字段点作为节点将其组成复杂的整体网来看待,社会实体为不同系统大节点、其涉及的众多的业务数据指标及其指标涉及到的各个参数为小节点,来分析各系统各业务指标各业务字段之间的关系。本专利技术有助于推动信息资源的精简及整合,明了不同平台或系统间业务数据的联动性,发现业务关系及问题并指导及改善相关工作,实现平台或系统间的跨业务应用及信息资源的跨平台或系统共享。附图说明图1为本专利技术一个实施例所述数据关联性分析方法的流程图;图2为本专利技术一个实施例所述待分析数据对象相关分析汇总表;图3为本专利技术一个实施例所述实际工作场景分析得到的社会网络结构图的一种表现形式;图4为本专利技术一个实施例所述实际工作场景分析得到的社会网络结构图的另一种表现形式。具体实施方式下面将结合附图进一步说明本专利技术实施例。在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术的简化描述,而不是指示或暗示所指的装置或组件必需具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。其中,术语“第一位置本文档来自技高网...

【技术保护点】
1.一种数据关联性分析方法,其特征在于,包括如下步骤:/n获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;/n根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果;/n根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;/n根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;/n根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。/n

【技术特征摘要】
1.一种数据关联性分析方法,其特征在于,包括如下步骤:
获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果;
根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;
根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;
根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。


2.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是连续型数据时选择对应的Pearson相关系数计算模型,所述Pearson相关系数计算模型为:



其中,σX和σY分别表示X,Y两个变量的标准差;Cov(X,Y)表示X,Y两个变量的协方差,且X,Y两个变量的标准差均不等于零。


3.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类有序型数据时选择对应的Spearman相关系数计算模型,所述Spearman相关系数计算模型为:



其中,m为等级个数;d为二列成对变量的等级差数。


4.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此...

【专利技术属性】
技术研发人员:侯占杰周轶季学伟方理平李燕张艳艳陈明陈晓岚刘耀峰梅楠张维侯烺祎贾娜莉刘艳
申请(专利权)人:北京市安全生产科学技术研究院北京天之华软件系统技术有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1