一种基于时间序列的数据挖掘方法及系统技术方案

技术编号:14167653 阅读:61 留言:0更新日期:2016-12-12 14:38
本发明专利技术公开一种基于时间序列的数据挖掘方法及系统,该方法包括:获取设定时间段内的原始事件记录,并根据所述原始事件记录确定一个基础事件类型和M个关联事件类型;生成与所述基础事件类型对应的第一历史时间序列和M个第二历史时间序列;计算所述第一历史时间序列的低频时间序列与每个第二历史时间序列的低频时间序列的关联系数;确定所述关联系数大于第一阈值的K个第二历史时间序列的低频时间序列,并根据所述K个第二历史时间序列的低频时间序列和所述第一历史时间序列的低频时间序列建立预测模型,并根据所述预测模型得到所述基础事件类型的预测值,其中M为正整数,K为不大于M的整数,用以解决现有技术中存在预测结果不够准确的问题。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,尤其涉及一种基于时间序列的数据挖掘方法及系统
技术介绍
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,针对海量的事件记录数据(例如金融领域中某类信用卡的交易记录数据)生成时间序列,然后进行数据挖掘以预测该事件在未来的变化趋势变得越来越重要。其中,时间序列预测在目标跟踪、天气预报、市场分析和故障诊断领域中有广泛的应用,传统的预测方法大都采用线性模型来近似地表达预测对象的发展规律。现有技术通过结合使用小波分析理论,对时间序列进行预处理,基于预处理之后的数据建模进行预测,但是现有的基于小波分析的时间序列预测模型存在以下缺点:因为现有的做法仅利用了特定事件本身的历史时间序列进行预测,忽略了影响特定事件的各种影响因素,比如零售行业与不同行业之间存在着一定的关联关系,制造业的景气程度会影响零售行业的供给能力,而房地产的快速发展将拉动零售行业的消费需求。因而现有的基于时间序列的数据预测方法得到的预测结果不够精确。
技术实现思路
本专利技术实施例提供一种基于时间序列的数据挖掘方法及系统,用以解决现有技术中存在预测结果不够准确的问题。本专利技术方法包括一种基于时间序列的数据挖掘方法,该方法包括:获取设定时间段内的原始事件记录,并根据所述原始事件记录确定一个基础事件类型和M个关联事件类型;根据所述原始事件记录生成与所述基础事件类型对应的的第一历史时间序列,并根据所述原始事件记录生成与M个关联事件类型对应的M个第二历史时间序列;对所述第一历史时间序列和所述M个第二历史时间序列进行小波分解,得到所述第一历史时间序列的低频时间序列,以及所述M个第二历史时间序列的低频时间序列;针对每个第二历史时间序列的低频时间序列,计算所述第一历史时间序列的低频时间序列与每个第二历史时间序列的低频时间序列的关联系数;确定所述关联系数大于第一阈值的K个第二历史时间序列的低频时间序列,并根据所述K个第二历史时间序列的低频时间序列和所述第一历史时间序列的低频时间序列建立预测模型,并根据所述预测模型得到所述基础事件类型的预测值,其中M为正整数,K为不大于M的整数。基于同样的专利技术构思,本专利技术实施例进一步地提供一种基于时间序列的数据挖掘系统,该系统包括:获取单元,用于获取设定时间段内的原始事件记录,生成单元,用于,根据所述原始事件记录确定一个基础事件类型和M个关联事件类型;根据所述原始事件记录生成与所述基础事件类型对应的的第一历史时间序列,并根据所述原始事件记录生成与M个关联事件类型对应的M个第二历史时间序列;预处理单元,用于对所述第一历史时间序列和所述M个第二历史时间序列进行小波分解,得到所述第一历史时间序列的低频时间序列,以及所述M个第二历史时间序列的低频时间序列;计算单元,用于针对每个第二历史时间序列的低频时间序列,计算所述第一历史时间序列的低频时间序列与每个第二历史时间序列的低频时间序列的关联系数;建模单元,用于确定所述关联系数大于第一阈值的K个第二历史时间序列的低频时间序列,并根据所述K个第二历史时间序列的低频时间序列和所述第一历史时间序列的低频时间序列建立预测模型;预测单元,用于根据所述预测模型得到所述基础事件类型的预测值,其中M为正整数,K为不大于M的整数。本专利技术实施例为了避免现有技术仅利用特定事件的历史时间序列进行预测结果不准确的问题,本专利技术实施例不仅考虑基础事件类型的历史时间序列,还将与基础事件类型相关的其它关联事件类型的历史时间序列,具体地,将基础数据类型的历史时间序列和与基础事件类型相关的参考指标的历史时间序列结合起来建立预测模型,进而利用这一模型得到更加准确的预测结果。与现有技术相比,本专利技术实施例在建立预测模型时考虑的因素更加全面,从而利用预测模型生成的预测值更加准确。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供一种基于时间序列的数据挖掘方法流程示意图;图2为本专利技术实施例提供一种基于时间序列的数据挖掘系统架构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部份实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。参见图1所示,本专利技术实施例提供一种基于时间序列的数据挖掘方法流程示意图,具体地实现方法包括:步骤S101,获取设定时间段内的原始事件记录,并根据所述原始事件记录确定一个基础事件类型和M个关联事件类型。步骤S102,根据所述原始事件记录生成与所述基础事件类型对应的的第一历史时间序列,并根据所述原始事件记录生成与M个关联事件类型对应的M个第二历史时间序列。步骤S103,对所述第一历史时间序列和所述M个第二历史时间序列进行小波分解,得到所述第一历史时间序列的低频时间序列,以及所述M个第二历史时间序列的低频时间序列。步骤S104,针对每个第二历史时间序列的低频时间序列,计算所述第一历史时间序列的低频时间序列与每个第二历史时间序列的低频时间序列的关联系数。步骤S105,确定所述关联系数大于第一阈值的K个第二历史时间序列的低频时间序列,并根据所述K个第二历史时间序列的低频时间序列和所述第一历史时间序列的低频时间序列建立预测模型,并根据所述预测模型得到所述基础事件类型的预测值,其中M为正整数,K为不大于M的整数。若上述方法用于市场分析,则原始事件记录可以指的商户的刷银联卡的交易记录,因为在银联的后台系统可以获取商户的商户代码,进而可以根据商户代码判别商户属于何种行业,具体地,每张POS单上都有一个编号,这个编号共有15位。例如:102100058120569,这个编号可以划分为四个部分,即102-1000-5812-0569,其中四个部分分别为:3位银行、4位行政区划、4位消费类型、4位商户代码。上述四个部分的含义分别为,102工商银行收单,1000代表了北京,5812公共饮食行业、餐馆,0569商户代码全聚德。因此,银联后台系统获取一段时间内的各个商户关于银联卡的交易信息,就可以通过POS单的编号将交易信息进行划分,若按照行业划分,就可以划分为零售行业、公共饮食、文化体育等不同的行业的数据集合。进一步地,将不同行业的数据集合按照时间点的顺序排列,所述时间点的单位可以为日、月或年,然后利用每个数据集合中的数据就可以建立历史时间序列,假设基础事件类型是零售行业,零售行业的第一历史时间序列可以表示为采用小波分析方法对零售行业的历史时间序列中的数据进行预处理,比如,上述公式一可以生成为Matlab算法,利用Matlab算法对中的数据进行N层小波分解,得到小波分解序列,通过小波分解重构后可以表示为:其中n=1,2,…,T是零售行业的低频时间序列,而是零售行业的N个高频时间序列。同理,假设与基础事件类型相关的关联事件类型有建筑行业、房地产行业等等,假设其它行业共有M个,那么对应每个行业也会生成与之对应本文档来自技高网...
一种基于时间序列的数据挖掘方法及系统

【技术保护点】
一种基于时间序列的数据挖掘方法,其特征在于,该方法包括:获取设定时间段内的原始事件记录,并根据所述原始事件记录确定一个基础事件类型和M个关联事件类型;根据所述原始事件记录生成与所述基础事件类型对应的的第一历史时间序列,并根据所述原始事件记录生成与M个关联事件类型对应的M个第二历史时间序列;对所述第一历史时间序列和所述M个第二历史时间序列进行小波分解,得到所述第一历史时间序列的低频时间序列,以及所述M个第二历史时间序列的低频时间序列;针对每个第二历史时间序列的低频时间序列,计算所述第一历史时间序列的低频时间序列与每个第二历史时间序列的低频时间序列的关联系数;确定所述关联系数大于第一阈值的K个第二历史时间序列的低频时间序列,并根据所述K个第二历史时间序列的低频时间序列和所述第一历史时间序列的低频时间序列建立预测模型,并根据所述预测模型得到所述基础事件类型的预测值,其中M为正整数,K为不大于M的整数。

【技术特征摘要】
1.一种基于时间序列的数据挖掘方法,其特征在于,该方法包括:获取设定时间段内的原始事件记录,并根据所述原始事件记录确定一个基础事件类型和M个关联事件类型;根据所述原始事件记录生成与所述基础事件类型对应的的第一历史时间序列,并根据所述原始事件记录生成与M个关联事件类型对应的M个第二历史时间序列;对所述第一历史时间序列和所述M个第二历史时间序列进行小波分解,得到所述第一历史时间序列的低频时间序列,以及所述M个第二历史时间序列的低频时间序列;针对每个第二历史时间序列的低频时间序列,计算所述第一历史时间序列的低频时间序列与每个第二历史时间序列的低频时间序列的关联系数;确定所述关联系数大于第一阈值的K个第二历史时间序列的低频时间序列,并根据所述K个第二历史时间序列的低频时间序列和所述第一历史时间序列的低频时间序列建立预测模型,并根据所述预测模型得到所述基础事件类型的预测值,其中M为正整数,K为不大于M的整数。2.如权利要求1所述的方法,其特征在于,还包括:获取与所述基础事件类型相关的L个参考指标的L个第三历史时间序列;针对每个参考指标的第三历史时间序列,计算所述第一历史时间序列的低频时间序列与所述每个参考指标的第三历史时间序列的第一相关系数;确定第一相关系数大于第二阈值的Q个参考指标的第三历史时间序列,Q和T为不大于L的正整数;所述根据所述K个第二历史时间序列的低频时间序列和所述第一历史时间序列的低频时间序列建立预测模型,包括:利用所述K个第二历史时间序列的低频时间序列、Q个参考指标的第三历史时间序列和所述第一历史时间序列的低频时间序列建立第一模型。3.如权利要求2所述的方法,其特征在于,还包括:对所述第一历史时间序列进行小波分解,得到所述第一历史时间序列的N个高频时间序列,N为正整数;针对每个参考指标的第三历史时间序列,计算所述第一历史时间序列的N个高频时间序列和所述每个参考指标的第三历史时间序列的第二相关系数;确定第二相关系数大于第三阈值的T个参考指标的第三历史时间序列,其中,T为不大于L的正整数;针对所述第一历史时间序列的每个高频时间序列,利用所述T个参考指标的第三历史时间序列和所述第一历史时间序列的每个高频时间序列建立第二模型;所述根据所述预测模型得到所述基础事件类型的预测值,包括:根据所述第一模型和所述第二模型预测得到所述基础事件类型的预测值。4.如权利要求3所述的方法,其特征在于,还包括:所述第一模型为多元回归线性模型,所述第二模型为BP神经网络模型;根据所述第一模型和所述第二模型预测得到所述基础事件类型的预测值,包括:利用所述多元回归线性模型预测得到所述基础事件类型的的低频预测值;利用N个BP神经网络模型预测得到所述基础事件类型的N个高频预测值;将所述低频预测值和所述N个高频预测值求和,得到所述基础事件类型的预测值。5.如权利要求3所述的方法,其特征在于,所述计算所述第一历史时间序列的低频时间序列与所述每个参考指标的第三历史时间序列的第一相关系数,以及,计算所述第一历史时间序列的N个高频时间序列和所述每个参考指标的第三历史时间序列的第二相关系数,包括:利用皮尔逊相关系数的计算公式计算所述第一历史时间序列的低频时间序列与所述每个参考指标的第三历史时间序列的第一相关系数,以及利用皮尔逊相关系数的计算公式计算所述第一历史时间序列的N个高频时间序列和所述每个参考指标的第三历史时间序列的第二相关系数。6.如权利要求5所述的方法,其特征在于,所述皮尔逊相关系数的计算公式为: r X , Z = Σ n = 1 ( X n - X ‾ ) ( Z n - Z ‾ ) Σ n = 1 ( X n - X ‾ ) 2 Σ n = 1 ( Z n - Z ‾ ) 2 ]]>其中,Xn和Zn是时间序列,和分别是时间序列Xn和Zn的平均值,rX,Z为Xn和Zn的皮尔逊相关系数。7.如权利要求1至6任一项所述的方法,其特征在于,所述计算所述第一历史时间序列的低频时间序列与每个第二历史时间序列的低频时间序列的关联系数,包括...

【专利技术属性】
技术研发人员:钟毅邱雪涛赵金涛
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1