【技术实现步骤摘要】
基于关联演化大数据的关键模式自动定位与预警方法
本专利技术涉及一种基于关联演化大数据的关键模式自动定位与预警方法。
技术介绍
巡视数据是一类典型的多源异构大数据,其数据属性通常包含异常事件等级,组织单位分类,人员类别,权利类别,政策影响分类,物资量及流向,资金量及流向等。这些数据来自不同的数据源,且具有各种不同的数据结构,按传统大数据技术处理则具有较大的预处理难度。关联数据分析一直是大数据技术的研究重点,按大数据类型主要分为简单关联分析,序列关联分析,因果关联分析等,相应的算法包括:Apriori算法[AgrawalR,ImielinskiT,SwamiA.DatabaseMining:APerformancePerspective[J].IEEETransactionsonKnowledge&DataEngineering,2002,5(6):914-925.];FP-tree算法[SongYQ,ZhuYQ,SunZH,etal.AnAlgorithmandItsUpdatingAlgorithmBasedonFP-TreeforMiningMaximumFrequentItemsets[J].JournalofSoftware,2003,14(9)];CHARM算法[NatarajRV,SelvanS.[ACMPressthe2ndBangaloreAnnualComputeConference-Bangalore,India(2009.01.09-2009.01.10)]
【技术保护点】
1.一种基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,包括以下步骤:/nS1,搭建多源异构巡视数据的三维扩展张量框架;/nS2,异构数据的动态因子概率化统一;/nS3,状态关联演化预估技术;/nS4,异常巡视数据的预警与定位。/n
【技术特征摘要】
1.一种基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,包括以下步骤:
S1,搭建多源异构巡视数据的三维扩展张量框架;
S2,异构数据的动态因子概率化统一;
S3,状态关联演化预估技术;
S4,异常巡视数据的预警与定位。
2.如权利要求1所述的基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,步骤S1具体包括:
步骤1.1设置数据源集合
定义巡视源集
Wk={w1,w2,…,wk}(1)
其中,Wk表示一个包含k个数据源的巡视数据集合,wi,(1≤i≤k)表示其中第i,(1≤i≤k)个数据源的数据,它作为数据源的符号对巡视数据集合进行按源划分;
步骤1.2生成同源数据矩阵
定义同源数据矩阵
其中,w1i,w2i,...表示第i个源的数据的不同属性,将其不同属性的值按列记录在矩阵中,这个矩阵被称为同源数据矩阵,矩阵的每一行代表一个元组;该矩阵的行数由属性值最多的属性决定,其行数等于该属性的值的个数;其余长度小于行数的列向量,对剩余位置补上空值元素。即m=max{m1,m2,...,mn},其中m1,m2,...,mn分别表示每个属性包含的元组数量;
步骤1.3将多源数据组成扩展张量
定义巡视数据的三维扩展张量
其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,其三个维度的值分别表示每个属性的元组个数,属性的个数,数据源的个数;张量中前两个维度定义了张量中每个数据源的规模,即一个切片矩阵的大小;最后一个维度定义了整个数据源的规模。
3.如权利要求1所述的基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,步骤S2具体包括:
步骤2.1划分属性值的状态
数据的属性值可以分为离散或连续两种类型,对于离散数据,其值域可划分为有限或无限个互不相容的子集,并根据具体问题定义子集为离散数据属性值的状态。同理对于连续数据,规定对值域划分后形成的子集为连续数据属性的状态。数据状态的划分方式可根据具体巡视对象来具体设置;
步骤2.2数据的状态转移
当属性值的状态发生变化时,即值从当前状态转移到下一个状态,称属性值发生了一次状态转移;需要注意的是,规定整个巡视工作经历单位时间段后,状态未发生变化也需要定义为数据发生了状态转移,只是数据转移到初始状态;
充分统计下的数据动态因子转移概率
其中,表示数据经历t次转移从状态S1转移到状态S2的概率,表示进行充分统计后数据转移到状态S2的次数占所有转移次数的频率,根据大数定理,该频率依概率P收敛于状态转移概率
步骤2.3构建数据状态转移张量
按式(4)充分统计同一个数据源不同时间生成的每2个巡视数据扩展张量都可以被一一映射为一个数据状态转移张量,张量中的元素由概率值描述,每一个概率值代表巡视数据的扩展张量相应位置上的元素变化到一种新状态的概率;即
其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,TSm×n×k表示Tm×n×k在两个时间段内依概率P映射出的数据状态转移张量;其任意一个元素xijk代表第k数据源的对应位置元素的转移概率,且有0≤xijk<1;
需要注意的是其转移概率可发生在任意长度为t的时段上,t的时长可根据具体巡视审计问题设置,其三个维度的值分别表示每个属性的元组的个数、属性的个数、数据源的个数。
4.如权利要求1所述的基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,步骤S3具体包括:
步骤3.1构建状态转移矩阵
状态转移概率的状态s1与s2为任意给定,因此需要构造一种状态转移矩阵来描述这种概率在所有状态中转移时产生的概率分布,
定义状态转移矩阵
其中P代表状态转移概率矩阵,矩阵P第i行j列元素pij代表数据从...
【专利技术属性】
技术研发人员:胡涛,刘腾红,吴凡,陈鹏,胡海,陈冬,阳晟彪,阮班辉,李应柱,
申请(专利权)人:武汉楚誉科技股份有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。