一种基于Pre-HUSPM的数据库序列插入处理方法技术

技术编号:37274838 阅读:10 留言:0更新日期:2023-04-20 23:42
本发明专利技术公开了一种基于Pre

【技术实现步骤摘要】
一种基于Pre

HUSPM的数据库序列插入处理方法


[0001]本专利技术属于数据挖掘领域,具体涉及一种基于Pre

HUSPM的数据库序列插入处理方法。

技术介绍

[0002]高效用序列模式挖掘(HUSPM)算法可以用于分析用户的购物习惯,HUSPM会考虑每个项目的权重、单位利润等。当序列集的效用大于用户设置的最小效用阈值时,则序列集为高效用序列模式。通常,HUSPM算法在静态数据库下运行,但在实际应用中,几乎每天都有新的数据添加,这可能导致原来发现的高效利用序列模式会失败,或者更新数据库后出现新的一些新信息。因此,在传统的动态数据挖掘中,每次有少量数据进入时,都需要重新扫描原始数据库,重新扫描原始数据库会消耗大量的资源和时间。尤其当插入少量数据时,实质对整个数据库没有影响,此时更新数据库会造成资源浪费,维护成本增加,因此高效地维护和更新挖掘的高效用序列模式变得尤为重要。

技术实现思路

[0003]为了解决上述问题,本专利技术提出了一种基于Pre

HUSPM的数据库序列插入处理方法,将pre

large概念和基于投影的挖掘算法P

HUSPM进行融合构建了增量算法Pre

HUSPM,用于高效挖掘高效用序列模式,减少原始数据库的重新扫描次数。
[0004]本专利技术的技术方案如下:
[0005]一种基于Pre

HUSPM的数据库序列插入处理方法,构建增量算法Pre

HUSPM来高效挖掘高效用序列模式,具体包括如下步骤:步骤1、向原始数据库中插入待插入数据库;步骤2、根据原始数据库的信息计算安全值;步骤3、扫描待插入数据库,计算待插入数据库中每一个序列的总效用和的总效用;步骤4、将自上次重新扫描原始数据库以来新事务的总效用值与待插入数据库中单个项目的序列加权效用最大值的总和与安全值进行比较,根据比较结果进行相应操作;步骤5、判断新数据库中的大序列加权效用序列集集合中的每个序列的效用比是否大于等于效用阈值上限,若是,则序列是高效用序列模式,将序列加入到高效用序列模式集合中并输出,否则,不需要进行任何操作;最终输出数据库更新后的新数据库及其高效用序列模式集。
[0006]进一步地,步骤1中,设原始数据库,为序列总个数,为序列的序号,表示第个序列,为项目集合,为项目总个数,项目是个不同项的集合,表示为,表示项目中的第个项。
[0007]进一步地,步骤2中,安全值的计算公式如下:

(1);其中,表示效用阈值上限,表示效用阈值下限,表示原始数据库的总效用,和的值预先设定;的计算公式如下: (2);其中,表示原始数据库中序列的总效用,计算公式如下: (3);其中,表示序列中项目中项的效用。
[0008]进一步地,步骤3中,按照与公式(2)和(3)相同的方式计算得到待插入数据库总效用,与此同时计算,计算时代入待插入数据库的相关数据。
[0009]进一步地,步骤4中的具体判断准则为:设为自上次重新扫描原始数据库以来新事务的总效用值,当时,进行步骤4.1和步骤4.2,当时,进行步骤4.3;步骤4.1、从待插入数据库扫描生成1

候选集,并设置=1,表示序列集中正在处理的项数;步骤4.2、扫描1

候选集,更新原有信息的序列效用和序列加权效用,依次产生2

候选集,继续更新原有信息的序列效用和序列加权效用,直到没有候选集的生成;同时,设置;步骤4.3、当时,生成新数据库,此时需要重新扫描原始数据库;将设置为0,并将赋值给。
[0010]进一步地,步骤4.2的具体过程如下:步骤4.2.1、计算新数据库的总效用,计算公式如下: (4);对于候选集中的每个候选,计算待插入数据库中序列的序列加权效用和序列效用,计算公式如下: (5); (6);其中,表示序列这一行总的效用值;表示序列中的子序列的效用是序列中所有出现的的效用中的最大效用,定义如下: (7);其中,表示序列中某项的最大内部效用是该序列中该项的最大效用值,定义如下: (8);其中,表示序列的项目中项的内部效用,定义如下: (9);
其中,表示序列中项目中项的数量,表示项的单位利润;步骤4.2.2、对于在大序列加权效用序列的原始数据库中设置的每个大序列加权效用序列,执行子步骤4.2.2.1

子步骤4.2.2.3;步骤4.2.3、对于原始数据库中的每个预大序列加权利用序列集,同样执行步骤4.2.2的子步骤4.2.2.1

子步骤4.2.2.3;如果原始数据库中的大序列加权序列集和原始数据库中的预大序列加权序列集包含待插入数据库中的序列,就将和中的项集的序列效用和序列加权效用的值进行更新,并将序列放入到1

候选集,用来生成2

候选集;如果和中不包含新数据库中的序列,就不需要更新,将从1

候选集中移除;步骤4.2.4、从

候选集生成候选(+1)

候选集;设=+1,重复步骤4.2.1到步骤4.2.4,直到没有发现更新的大或前大序列加权效用序列集。
[0011]进一步地,步骤4.2.2的子步骤如下:子步骤4.2.2.1、更新在新数据库中序列的序列加权效用,计算公式如下: (10);其中,为原始数据库中序列的序列加权效用,存储着序列的,为待插入数据库中序列的序列加权效用;子步骤4.2.2.2、更新新数据库中整个序列集的序列效用: (11);其中,表示序列在原始数据库中的序列效用,存储着序列的, 为待插入数据库中序列的序列效用;子步骤4.2.2.3、如果,则将序列放入,是新数据库中的大序列加权效用的序列集;如果,则将序列放入,是新数据库中的预大序列加权效用序列集;否则,丢弃序列。
[0012]进一步地,步骤4.3的具体过程如下:步骤4.3.1、合并待插入数据库和原始数据库,生成新数据库;步骤4.3.2、对于每个,采用与公式(5)相同的计算方式计算新数据库的序列加权效用,然后采用与公式(2)相同的计算方式计算新数据库的总效用;步骤4.3.3、设序列的加权效用比为,如果,则将序列放入;如果,则将序列放入;否则,丢弃序列;是新数据库中的大序列加权效用的序列集;是新数据库中的预大序列加权效用序列集;步骤4.3.4、执行递归挖掘算法,运用递归挖掘算法,生成多项集的投影数据库,并
生成多项集的和序列集,直到没有找到和序列集;执行挖掘过程时,从1序列集开始挖掘,再接着2序列集,直到最后一个序列集为空,此时停止挖掘过程,输出新数据库中的大序列加权效用序列集和预大序列加权效用序列集,和用于下次数据插入时使用。
[0013]进一步地,步骤4.3.4中,递归挖掘算法的具体过程如下:步骤4.3.4.1、遍历和,对属于和的每个序列构建它的投影数据库;步骤4.3.4.2、计算的序列加权效用值,其中是的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Pre

HUSPM的数据库序列插入处理方法,其特征在于,构建增量算法Pre

HUSPM来高效挖掘高效用序列模式,具体包括如下步骤:步骤1、向原始数据库中插入待插入数据库;步骤2、根据原始数据库的信息计算安全值;步骤3、扫描待插入数据库,计算待插入数据库中每一个序列的总效用和的总效用;步骤4、将自上次重新扫描原始数据库以来新事务的总效用值与待插入数据库中单个项目的序列加权效用最大值的总和与安全值进行比较,根据比较结果进行相应操作;步骤5、判断新数据库中的大序列加权效用序列集集合中的每个序列的效用比是否大于等于效用阈值上限,若是,则序列是高效用序列模式,将序列加入到高效用序列模式集合中并输出,否则,不需要进行任何操作;最终输出数据库更新后的新数据库及其高效用序列模式集。2.根据权利要求1所述基于Pre

HUSPM的数据库序列插入处理方法,其特征在于,所述步骤1中,设原始数据库,为序列总个数,为序列的序号,表示第个序列,为项目集合,为项目总个数,项目是个不同项的集合,表示为,表示项目中的第个项。3.根据权利要求2所述基于Pre

HUSPM的数据库序列插入处理方法,其特征在于,所述步骤2中,安全值的计算公式如下: (1);其中,表示效用阈值上限,表示效用阈值下限,表示原始数据库的总效用,和的值预先设定;的计算公式如下: (2);其中,表示原始数据库中序列的总效用,计算公式如下: (3);其中,表示序列中项目中项的效用。4.根据权利要求3所述基于Pre

HUSPM的数据库序列插入处理方法,其特征在于,所述步骤3中,按照与公式(2)和(3)相同的方式计算得到待插入数据库总效用,与此同时计算,计算时代入待插入数据库的相关数据。5.根据权利要求4所述基于Pre

HUSPM的数据库序列插入处理方法,其特征在于,所述步骤4中的具体判断准则为:设为自上次重新扫描原始数据库以来新事务的总效用值,当时,进行步骤4.1和步骤4.2,当时,进行步骤4.3;步骤4.1、从待插入数据库扫描生成1

候选集,并设置=1,表示序列集中正在处理的项数;步骤4.2、扫描1

候选集,更新原有信息的序列效用和序列加权效用,依次产生2

候选
集,继续更新原有信息的序列效用和序列加权效用,直到没有候选集的生成;同时,设置;步骤4.3、当时,生成新数据库,此时需要重新扫描原始数据库;将设置为0,并将赋值给。6.根据权利要求5所述基于Pre

HUSPM的数据库序列插入处理方法,其特征在于,所述步骤4.2的具体过程如下:步骤4.2.1、计算新数据库的总效用,计算公式如下: (4);对于候选集中的每个候选,计算待插入数据库中序列的序列加权效用和序列效用,计算公式如下: (5); (6);其中,表示序列这一行总的效用值;表示序列中的子序列的效用是序列中所有出现的的效用中的最大效用,定义如下: (7);其中,表示序列中某项的最大内部效用是该序列中该项的最大效用值,定义如下: (8);其中,表示序列的项目中项的内部效用,定义如下: (9);其中,表示序列中项目中项的数量,表示项的单位利润;步骤4.2.2、对...

【专利技术属性】
技术研发人员:吴明泰李凤洋潘正祥陈建铭吴祖扬
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1