保序序列规则挖掘方法技术

技术编号:33837140 阅读:23 留言:0更新日期:2022-06-16 11:55
本发明专利技术为保序序列规则挖掘方法,该挖掘方法包括以下内容:获得对应时间序列的所有频繁保序序列模式,构成频繁保序序列模式集合,设定最小置信度阈值minconf,计算频繁保序序列模式y的前缀子模式x,若前缀子模式的相对顺序为频繁保序序列模式,则得到保序序列规则x=>y,迭代上述过程,得到所有的保序序列规则;根据conf(x=>y)=sup(y)/sup(x)计算x=>y的置信度,最终将置信度≥设定的最小置信度阈值minconf的保序序列规则加入到规则集合R中,小于minconf的保序序列规则称为强保序序列规则,挖掘所有的强保序序列规则称为保序序列规则挖掘。本发明专利技术实现了高效的频繁保序序列模式挖掘,之后在对频繁保序序列模式进行保序序列规则挖掘,寻找模式之间隐含的关系。寻找模式之间隐含的关系。寻找模式之间隐含的关系。

【技术实现步骤摘要】
保序序列规则挖掘方法


[0001]本专利技术的技术方案涉及电数字数据处理
,具体地说是保序序列规则挖掘方法,通过该方法得到的信息可以用于对未来变化的分析中,进行预测,能够提高系统运行效率,提高运行速度,缩小运行时间。

技术介绍

[0002]当今是一个大数据时代,由此产生诸多新问题,众多学者从多角度对大数据进行研究,该研究的核心就是从大量的数据中挖掘有价值的信息即数据挖掘。现如今,数据挖掘已经被广泛应用于生物医学、金融市场、互联网等众多领域。序列模式挖掘作为数据挖掘领域非常重要的研究课题,长期以来受到了广泛的关注。为了解决各种各样的问题,序列模式挖掘衍生出了多种挖掘方法,如负序列模式挖掘可以避免频繁但存在缺失项的丢失,对比序列模式挖掘可以提高分类的精度,间隙约束的序列模式挖掘可以更加灵活地挖掘满足特定需要的模式,Top

k序列模式挖掘可以避免挖掘过程中设置参数的不合理造成模式的丢失。
[0003]然而现有的序列模式挖掘方法大多针对字符序列,由于时间序列具有高维性和连续性的特点,很难直接应用到时间序列分析中。在最初本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种存储可执行指令的一个或多个计算机可读存储介质,当被一个或多个处理器执行时,使所述一个或多个处理器执行动作,包括:获得时间序列数据集中对应时间序列的所有频繁保序序列模式,构成频繁保序序列模式集合,设定最小置信度阈值minconf,计算频繁保序序列模式y的前缀子模式x,若前缀子模式的相对顺序为频繁保序序列模式,即前缀子模式的相对顺序也为上述获得的频繁保序序列模式集合中的元素,则得到保序序列规则x=>y,表示在序列中若x出现,那么y将以大概率出现;迭代上述过程,得到所有的保序序列规则;根据conf(x=>y)=sup(y)/sup(x)计算x=>y的置信度,sup(y)表示y的支持度,sup(x)表示x的支持度,最终将置信度≥设定的最小置信度阈值minconf的保序序列规则加入到规则集合R中,小于minconf的保序序列规则称为强保序序列规则,挖掘所有的强保序序列规则。2.一种系统,包括:一个或多个处理器;以及,存储可执行指令的存储器,所述可执行指令在被所述一个或多个处理器执行时,使所述一个或多个处理器执行下述动作,包括:获取时间序列数据;在处理器中对时间序列数据执行保序序列模式挖掘方法,该挖掘方法包括利用模式融合和剪枝策略生成候选模式,计算支持度时依据子模式匹配的结果获得超模式的匹配情况;获得2长度的频繁保序序列模式集合F2及其对应的位置集合Pos2;生成m+1长度的候选模式,由m长度的频繁保序序列模式集F
m
对应的子模式位置集合Pos
m
生成m+1长度子模式位置集合Pos
m+1
,其中m表示当前得到的频繁保序序列模式长度,m的初始值为2,生成m+1长度的模式r的匹配的位置集合为Lr,位置集合的计算方式有以下两种情况:1)一般情况:对于两个m长度的频繁保序序列模式p和频繁保序序列模式q,频繁保序序列模式p的每个元素分别为元素p1、元素p2、

、元素p
m
,频繁保序序列模式q的每个元素分别为元素q1、元素q2、

、元素q
m
,当频繁保序序列模式q的前缀子模式的相对顺序和频繁保序序列模式p的后缀子模式的相对顺序一致,但是频繁保序序列模式q的最后一位q
m
和频繁保序序列模式p的第一位p1不相等时,生成一个m+1长度候选模式,频繁保序序列模式p对应的位置集合Lp中的元素分别为元素lp1、元素lp2、

、元素lp
s
,其中s为位置集合Lp中元素的个数,频繁保序序列模式q对应的位置集合Lq中的元素分别元素lq1、元素lq2、

、元素lq
v
,其中v为位置集合Lq中元素的个数,生成的m+1长度的候选模式对应的位置集合表示为Lr,集合Lr中的元素分别为集合中的元素分别为元素lr1、元素lr2、

、元素lr
t


、元素lr
u
,其中u为得到的位置集合Lr中元素的个数,计算位置集合Lr中的元素lr
t
(1≤t≤u)值的方式如下:分别从第一个位置遍历位置集合Lp和位置集合Lq中的元素,若lq
b
=lp
a
+1(其中lp
a
为位置集合Lp中的元素,lq
b
为位置集合Lq中的元素),则lr
t
=lq
b
,将所有满足上述关系的元素加入到位置集合Lr中,最终得到的位置集合Lr即为m+1长度候选模式在序列t中匹配的位置集合;
2)特殊情况:对于两个m长度的频繁保序序列模式p和频繁保序序列模式q,频繁保序序列模式p的每个元素分别为元素p1、元素p2、

、元素p
m
,频繁保序序列模式q的每个元素分别为元素q1、元素q2、

、元素q
m
,当频繁保序序列模式q的前缀子模式的相对顺序和频繁保序序列模式p的后缀子模式的相对顺序一致,并且频繁保序序列模式q的最后一位q
m
和频繁保序序列模式p的第一位p1相等时,频繁保序序列模式p和频繁保序序列模式q通过模式融合得到2个m+1长度的候选模式r和z,频繁保序序列模式p对应的位置集合Lp中的元素分别为元素lp1、元素lp2、

、元素lp
s
,其中s为位置集合Lp中元素的个数,频繁保序序列模式q对应的位置集合Lq中的元素分别元素lq1、元素lq2、

、元素lq
v
,其中v为位置集合Lq中元素的个数,生成的候选模式对应的位置集合为Lr,Lz,模式r对应的集合Lr中的元素分别为元素lr1、元素lr2、

、元素lr
t


、元素lr
u
,其中u为得到的位置集合Lr中元素的个数,模式z对应的位置集合Lz中的元素分别为元素lz1、元素lz2、

、元素lz
g


、元素lz
w
,其中w为得到的位置集合Lz中元素的个数,计算位置集合Lr中的元素lr
t
(1≤t≤u)值和位置集合Lz中的元素lz
g
(1≤g≤w)的方式如下:分别从第一个元素遍历位置集合Lp和位置集合Lq中的元素,若lq
b
=lp
a
+1,其中lp
a
为位置集合Lp中的任意元素,lq
b
为位置集合Lq中的任意元素,接下来需要判断给定的时间序列t中元素t
first
和元素t
end
的大小,其中first=lq
b

m,end=lq
b
,若t
first
<t
end
,则lr
t
=lq
b
,将所有满足上述关系的元素加入到位置集合Lr中,最终得到的集合Lr即为m+1长度候选模式r匹配的位置集合;若t
first
>t
end
,则lz
g
=lq
b
,将所有满足上述关系的元素加入到位置集合Lz中,最终得到的集合Lz即为m+1长度候选模式z匹配的位置集合;上述获得的与相应候选模式匹配的位置集合中元素的个数即为对应候选模式的支持度,根据支持度判断其是否是频繁保序序列模式;设定最小置信度阈值minconf,计算频繁保序序列模式y的前缀子模式x,若前缀子模式的相对顺序为频繁保序序列模式,即前缀子模式的相对顺序也为上述获得的频繁保序序列模式集合中的元素,则得到保序序列规则x=>y,表示在序列中若x出现,那么y将以大概率出现;迭代上述过程,得到所有的保序序列规则;根据conf(x=>y)=sup(y)/sup(x)计算x=>y的置信度,sup(y)表示y的支持度,sup(x)表示x的支持度,最终将置信度≥设定的最小置信度阈值minconf的保序序列规则加入到规则集合R中,小于minconf的保序序列规则称为强保序序列规则,挖掘所有的强保序序列规则称为保序序列规则挖掘,即实现对时间序列数据的保序序列规则挖掘,用于实现时间序列规则推荐或者预测问题,提高系统运行效率。3.根据权利要求2所述的系统,其特征在于,由m长度的频繁保序序列模式p和q生成m+1长度的候选模式之前先采用剪枝策略实现模式的剪枝,所述剪枝策略为:m长度的频繁保序序列模式p和q对应的匹配的位置集合为Lp和Lq,若匹配的位置集合中元素个数<给定的最小支持度阈值minsup,那么模式p和q不能生成频繁保序序列模式,将模式p和q剪掉;若匹配的位置集合Lp或Lq中元素个数≥给定的最小支持度阈值minsup,则模式p和q能生成m+1长度的候选模式。4.根据权利要求1所述的计算机可读存储介质或权利要求2所述的系统,其特征在于,所述时间序列为商品销售量的时间序列、某地区温度变化的时间序列、生产车间零件日产
量的时间序列,避免了多次读取时间序列数据集,提高计算机可读存储介质或系统的运行效率,提高时间序列未来预测的效率。5.一种利用保序序列规则挖掘方法预测商品日销售量,其特征在于,所述保序序列规则挖掘方法的具体步骤是:第一步,输入某商品连续多天内日销售数量组成的时间序列t,时间序列t中的每个元素为该商品的日销售量,输入最小支持度阈值minsup和最小置信度阈值minconf;输入时间序列t,确定其长度n,该时间序列t中的每个元素分别记作元素t1、元素t2、

、元素t
i


、元素t
n
,其中1≤i≤n,输入最小支持度阈值minsup和最小置信度阈值minconf,最小支持度minsup是用户所期望的模式在时间序列t中的最小出现次数,最小置信度阈值minconf是用户所期望的模式在时间序列t中出现的可能性大小;第二步,扫描数据集,获得2长度的模式在时间序列t中匹配的位置集合l
21
、l
22
,得到2长度的频繁保序序列模式集合F2及其对应的位置集合Pos2;2长度模式的支持度计算方法如下:从序列t的第一个元素t1扫描原数据集,比较相邻两个元素的大小关系,模式(1,2)和(2,1)的最末位元素匹配的位置集合分别为l
21
、l
22
,对于序列中两个连续的元素t
i
,t
i+1
(1≤i≤n

1),采用公式(1)中的方法计算位置集合l
21
和l
22
中的元素,公式(1)中,依次比较相邻两个元素的大小,若后一个元素t
i+1
比前一个元素t
i
大,即满足模式(1,2)的一次出现,将位置索引(i+1)加入模式(1,2)对应的位置集合l
21
中;若后一个元素t
i+1
比前一个元素t
i
小,即满足模式(2,1)的一次出现,将位置索引(i+1)加入模式(2,1)对应的位置集合l
22
中;当t
i
与t
i+1
的值相等时,不记录该位置索引,遍历完原数据集时就得到模式(1,2)和模式(2,1)的所有匹配信息,其中集合l
21
和l
22
中元素的个数就是2长度模式(1,2)和(2,1)的支持度,接着,判断模式(1,2)和模式(2,1)的支持度和minsup的大小关...

【专利技术属性】
技术研发人员:武优西赵晓倩李艳马鹏飞耿萌谢婷萱杨克帅
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1