基于关联演化大数据的关键模式自动定位与预警方法技术

技术编号:23787338 阅读:18 留言:0更新日期:2020-04-15 00:37
本发明专利技术提出了一种基于关联演化大数据的关键模式自动定位与预警方法,整体分为四个步骤,包括:S1,搭建多源异构巡视数据的三维扩展张量框架;S2,异构数据的动态因子概率化统一;S3,状态关联演化预估技术;S4,异常巡视数据的预警与定位。本发明专利技术分析与利用多源异构的纪检巡视巡查大数据对异常情况进行早期预警与定位,将巡视巡查收集到的多源异构数据施行动态因子概率化统一,将多源异构转变为多源同构;再基于离散随机过程原理对数据进行关联演化计算,得到数据演化的趋势;最后通过对张量化的演化概率进行阈值超限映射与三个层级的计算锁定可能发生异常的数据。

Automatic positioning and early warning method of key patterns based on Association evolution big data

【技术实现步骤摘要】
基于关联演化大数据的关键模式自动定位与预警方法
本专利技术涉及一种基于关联演化大数据的关键模式自动定位与预警方法。
技术介绍
巡视数据是一类典型的多源异构大数据,其数据属性通常包含异常事件等级,组织单位分类,人员类别,权利类别,政策影响分类,物资量及流向,资金量及流向等。这些数据来自不同的数据源,且具有各种不同的数据结构,按传统大数据技术处理则具有较大的预处理难度。关联数据分析一直是大数据技术的研究重点,按大数据类型主要分为简单关联分析,序列关联分析,因果关联分析等,相应的算法包括:Apriori算法[AgrawalR,ImielinskiT,SwamiA.DatabaseMining:APerformancePerspective[J].IEEETransactionsonKnowledge&DataEngineering,2002,5(6):914-925.];FP-tree算法[SongYQ,ZhuYQ,SunZH,etal.AnAlgorithmandItsUpdatingAlgorithmBasedonFP-TreeforMiningMaximumFrequentItemsets[J].JournalofSoftware,2003,14(9)];CHARM算法[NatarajRV,SelvanS.[ACMPressthe2ndBangaloreAnnualComputeConference-Bangalore,India(2009.01.09-2009.01.10)]Proceedingsofthe2ndBangaloreAnnualComputeConferenceon2ndBangaloreAnnualComputeConference-COMPUTE\"09-Aframeworkforminingtop-kfrequentcloseditemsetsusingorderpreservinggenerators[J].2009:1];DIC算法等[熊伟.不完整关系数据库中关联规则挖掘问题的研究[D].华中师范大学,2000]。这些算法相对成熟但是不具有演化能力,即他们能够分析出当前已存在数据中隐含的关联模式,但无法通过当前数据预测未来的关联模式,而巡视任务不仅需要对当前的海量数据进行关联分析,还需要对这些数据进行关联预测,提前对潜在出现风险的隐含关联模式进行定位与预警。巡视巡查数据蕴含发现腐败的关键线索,由于数据源不同,在过去办案人员搜集到的巡视数据属性之间往往是独立的、割裂的。数据属性之间的隐含关联并不能较好提取,同时巡视工作除了发现问题,更有预防问题的需求,这就要求对数据的分析不仅是停留在分析已存在的隐含关联模式中,更要求通过已有数据,预测未来可能发生的案件,起到预防与震慑效果。具体来看,巡视工作对巡视大数据的需求主要包含三个方面:1.发现数据中已存在的异常模式。2.预测将来可能发生的异常模式。3.异常模式自动定位。
技术实现思路
针对上述需求,本专利技术提出一种基于关联演化大数据的关键模式自动定位与预警方法,旨在建立一种利用巡视大数据对巡视对象进行数据结构统一、异常模式识别、预测、定位的快速且动实现方法。通过异构数据的动态因子概率化技术,将巡视数据的动态变化统一成概率估计,形成一个对整个调查对象多源数据状态转移的概率分布,再通过基于离散随机过程的状态转移趋势预估技术对调查对象的状态转移趋势进行预测,得到调查对象未来时间点上的状态概率分布,从而提前对对象的异常属性值进行定位与预警,最后通过阈值化映射技术,能够计算出预测到的异常模式及其发生位置。本专利技术的技术方案是这样实现的:一种基于关联演化大数据的关键模式自动定位与预警方法,包括以下步骤:S1,搭建多源异构巡视数据的三维扩展张量框架;S2,异构数据的动态因子概率化统一;S3,状态关联演化预估技术;S4,异常巡视数据的预警与定位。优选地,步骤S1具体包括:步骤1.1设置数据源集合定义巡视源集Wk={w1,w2,...,wk}(1)其中,Wk表示一个包含k个数据源的巡视数据集合,wi,(1≤i≤k)表示其中第i,(1≤i≤k)个数据源的数据,它作为数据源的符号对巡视数据集合进行按源划分;步骤1.2生成同源数据矩阵定义同源数据矩阵其中,w1i,w2i,...表示第i个源的数据的不同属性,将其不同属性的值按列记录在矩阵中,这个矩阵被称为同源数据矩阵,矩阵的每一行代表一个元组;该矩阵的行数由属性值最多的属性决定,其行数等于该属性的值的个数;其余长度小于行数的列向量,对剩余位置补上空值元素。即m=max{m1,m2,...,mn},其中m1,m2,...,mn分别表示每个属性包含的元组数量;步骤1.3将多源数据组成扩展张量定义巡视数据的三维扩展张量其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,其三个维度的值分别表示每个属性的元组个数,属性的个数,数据源的个数;张量中前两个维度定义了张量中每个数据源的规模,即一个切片矩阵的大小;最后一个维度定义了整个数据源的规模。优选地,步骤S2具体包括:步骤2.1划分属性值的状态数据的属性值可以分为离散或连续两种类型,对于离散数据,其值域可划分为有限或无限个互不相容的子集,并根据具体问题定义子集为离散数据属性值的状态。同理对于连续数据,规定对值域划分后形成的子集为连续数据属性的状态。数据状态的划分方式可根据具体巡视对象来具体设置;步骤2.2数据的状态转移当属性值的状态发生变化时,即值从当前状态转移到下一个状态,称属性值发生了一次状态转移;需要注意的是,规定整个巡视工作经历单位时间段后,状态未发生变化也需要定义为数据发生了状态转移,只是数据转移到初始状态;充分统计下的数据动态因子转移概率其中,表示数据经历t次转移从状态S1转移到状态S2的概率,表示进行充分统计后数据转移到状态S2的次数占所有转移次数的频率,根据大数定理,该频率依概率P收敛于状态转移概率步骤2.3构建数据状态转移张量按式(4)充分统计同一个数据源不同时间生成的每2个巡视数据扩展张量都可以被一一映射为一个数据状态转移张量,张量中的元素由概率值描述,每一个概率值代表巡视数据的扩展张量相应位置上的元素变化到一种新状态的概率;即其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,TSm×n×k表示Tm×n×k在两个时间段内依概率P映射出的数据状态转移张量;其任意一个元素xijk代表第k数据源的对应位置元素的转移概率,且有0≤xijk<1;需要注意的是其转移概率可发生在任意长度为t的时段上,t的时长可根据具体巡视审计问题设置,其三个维度的值分别表示每个属性的元组的个数、属性的个数、数据源的个数。优选地,步骤S3具体包括:...

【技术保护点】
1.一种基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,包括以下步骤:/nS1,搭建多源异构巡视数据的三维扩展张量框架;/nS2,异构数据的动态因子概率化统一;/nS3,状态关联演化预估技术;/nS4,异常巡视数据的预警与定位。/n

【技术特征摘要】
1.一种基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,包括以下步骤:
S1,搭建多源异构巡视数据的三维扩展张量框架;
S2,异构数据的动态因子概率化统一;
S3,状态关联演化预估技术;
S4,异常巡视数据的预警与定位。


2.如权利要求1所述的基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,步骤S1具体包括:
步骤1.1设置数据源集合
定义巡视源集
Wk={w1,w2,…,wk}(1)
其中,Wk表示一个包含k个数据源的巡视数据集合,wi,(1≤i≤k)表示其中第i,(1≤i≤k)个数据源的数据,它作为数据源的符号对巡视数据集合进行按源划分;
步骤1.2生成同源数据矩阵
定义同源数据矩阵



其中,w1i,w2i,...表示第i个源的数据的不同属性,将其不同属性的值按列记录在矩阵中,这个矩阵被称为同源数据矩阵,矩阵的每一行代表一个元组;该矩阵的行数由属性值最多的属性决定,其行数等于该属性的值的个数;其余长度小于行数的列向量,对剩余位置补上空值元素。即m=max{m1,m2,...,mn},其中m1,m2,...,mn分别表示每个属性包含的元组数量;
步骤1.3将多源数据组成扩展张量
定义巡视数据的三维扩展张量



其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,其三个维度的值分别表示每个属性的元组个数,属性的个数,数据源的个数;张量中前两个维度定义了张量中每个数据源的规模,即一个切片矩阵的大小;最后一个维度定义了整个数据源的规模。


3.如权利要求1所述的基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,步骤S2具体包括:
步骤2.1划分属性值的状态
数据的属性值可以分为离散或连续两种类型,对于离散数据,其值域可划分为有限或无限个互不相容的子集,并根据具体问题定义子集为离散数据属性值的状态。同理对于连续数据,规定对值域划分后形成的子集为连续数据属性的状态。数据状态的划分方式可根据具体巡视对象来具体设置;
步骤2.2数据的状态转移
当属性值的状态发生变化时,即值从当前状态转移到下一个状态,称属性值发生了一次状态转移;需要注意的是,规定整个巡视工作经历单位时间段后,状态未发生变化也需要定义为数据发生了状态转移,只是数据转移到初始状态;
充分统计下的数据动态因子转移概率



其中,表示数据经历t次转移从状态S1转移到状态S2的概率,表示进行充分统计后数据转移到状态S2的次数占所有转移次数的频率,根据大数定理,该频率依概率P收敛于状态转移概率
步骤2.3构建数据状态转移张量
按式(4)充分统计同一个数据源不同时间生成的每2个巡视数据扩展张量都可以被一一映射为一个数据状态转移张量,张量中的元素由概率值描述,每一个概率值代表巡视数据的扩展张量相应位置上的元素变化到一种新状态的概率;即






其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,TSm×n×k表示Tm×n×k在两个时间段内依概率P映射出的数据状态转移张量;其任意一个元素xijk代表第k数据源的对应位置元素的转移概率,且有0≤xijk<1;
需要注意的是其转移概率可发生在任意长度为t的时段上,t的时长可根据具体巡视审计问题设置,其三个维度的值分别表示每个属性的元组的个数、属性的个数、数据源的个数。


4.如权利要求1所述的基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,步骤S3具体包括:
步骤3.1构建状态转移矩阵
状态转移概率的状态s1与s2为任意给定,因此需要构造一种状态转移矩阵来描述这种概率在所有状态中转移时产生的概率分布,
定义状态转移矩阵



其中P代表状态转移概率矩阵,矩阵P第i行j列元素pij代表数据从...

【专利技术属性】
技术研发人员:胡涛刘腾红吴凡陈鹏胡海陈冬阳晟彪阮班辉李应柱
申请(专利权)人:武汉楚誉科技股份有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1