【技术实现步骤摘要】
基于不完整网树的top-k自适应对比模式挖掘方法
本专利技术的技术方案涉及序列模式分析领域,具体地说是基于不完整网树的top-k自适应对比模式挖掘方法。
技术介绍
随着大数据时代的来临,诸多领域内涌现出大量序列数据,如交通出行数据、病人监护数据、设备运行监测数据以及各种时间序列数据等。这些数据具有多类别性和多维性,如何快速地从这些数据中提取或挖掘出有价值的信息已成为当前研究的热点。序列模式挖掘作为信息提取的有效手段,已得到了广泛的应用,但若对数据信息直接进行频繁模式挖掘,则忽略了数据的类别特性,不利于发现有价值的信息。对比模式挖掘意在发现不同类别或条件下信息的差异,不仅兼顾了数据的类别属性和信息的有效性,还有利于提高序列分类的精度和分类模型的科解释性。对比模式挖掘是指在二分类序列数据库D中找到差异显著的对比模式集合,其发展趋势主要有以下几种:①从用户给定正类频繁阈值和负类不频繁阈值到自动挖掘出k个差异度最大的对比模式;②从传统的对比模式挖掘到具有间隙约束的对比模式挖掘;③从具有间隙约束的对比模式挖掘到具有自适应间隙的
【技术保护点】
1.基于不完整网树的top-k自适应对比模式挖掘方法,具体步骤如下:/n第一步,读入给定的序列数据库D、密度阈值ρ
【技术特征摘要】
1.基于不完整网树的top-k自适应对比模式挖掘方法,具体步骤如下:
第一步,读入给定的序列数据库D、密度阈值ρτ和期望得到的对比模式数量k:
读入给定序列数据库D,确定其中包含的序列总数为N、确定序列数据库中的分类数,该序列数据库D中的每个序列分别记为序列s1、序列s2、…、序列snum、…、序列sN,其中1≤num≤N,序列snum中所包含的字符分别记作字符s1、字符s2、…、字符sn,得到字符集E和每个字符的位置集读入给定的密度阈值ρτ和期望得到的对比模式数量k;
第二步,处理字符集E中的模式:
以序列数据库中的一类作为正类序列数据库D+,剩余的所有类作为负类序列数据库D-,将上述第一步得到的字符集E中的字符作为候选模式p,依次根据公式(1)计算这些候选模式的对比度,将每个字符的位置集作为相应模式p的不完整网树结构
c(p,D)=r(p,D+)-r(p,D-)(1)
其中,c(p,D)为模式p在序列数据库D中的对比度,r(p,D+)为正类支持率,r(p,D-)为负类支持率;
根据对比度大小将这些模式p及其不完整网树结构降序存储在候选模式队列G中,将前k个对比度最大的模式升序存储到对比模式集F中;
第三步,生成新的候选模式q并判断其是否为top-k自适应对比模式:
第(3.1)步,生成候选模式q:
采用对比度优先挖掘策略生成候选模式q,其中:
对比度优先挖掘策略:将模式按对比度大小降序存储到候选队列中,每次让具有最高对比度的模式p出列,生成候选模式q=p⊕x(x∈E),然后计算候选模式q的对比度;
采用上述对比度优先挖掘策略生成候选模式q的具体处理方法如下:
当候选模式队列G不为空时,依据对比度优先挖掘策略遍历候选模式队列G,每次取出其中对比度最大的模式p,然后依次将字符集E中的字符x与模式p进行拼接生成候选模式q=p⊕x(x∈E);
第(3.2)步,计算候选模式q的正类支持率r(q,D+):
第(3.2.1)步,计算候选模式q在序列s中的支持度计数f(q,s):
模式q在序列s中的支持度计数f(q,s)通过如下步骤计算:
第(3.2.1.1)步,创建模式q的不完整网树并计算模式q在序列s中的支持度sup(q,s):
读入模式q,模式q是模式p的超模式,模式p是模式q的子模式,根据上述第二步中得到的模式q的子模式p的不完整网树结构和字符x的位置集直接创建模式q的不完整网树,由于是模式q的前一层网树结构,所以只需要继续创建第j层网树即可,因此根据字符x的位置集能直接创建的孩子结点,即子模式pj在网树的第j层中对应序列标签为i(1≤i≤n,n为序列长度)的结点,该结点记为创建完成模式q的不完整网树
当第j层网树中的结点被创建时,说明找到了模式q在序列s中的一个出现,不完整网树中包含的结点数就是模式q在序列s中的出现数,即支持度sup(q,s);
由此完成计算模式q在序列s中的模式支持度sup(q,s);
第(3.2.1.2)步,计算模式q在序列s中的支持度计数f(q,s):
通过上述第(3.2.1.1)步中得到的模式q在序列s中的支持度sup(q,s),通过下述公式(2)和(3)得到模式q在序列s中的支持度计数f(q,s);
ρ(q,s)=sup(q,s)/n(2)
公式(2)中,ρ(q,s)为模式q在序列s中的密度,s为正序列数据库D+中的一个序列,n为序列s的长度;公式(3)中,f(q,s)为模式q在序列s中的支持度计数,取值为0或1,ρτ为给定的密度阈值;
第(3.2.2)步,依次计算模式q在正序列数据库D+中的所...
【专利技术属性】
技术研发人员:王月华,李艳,陈明婕,赵晓倩,刘锦,王珠林,武优西,
申请(专利权)人:河北工业大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。