一种折线偏离方差累积对比分析相似程度的方法技术

技术编号:9927886 阅读:297 留言:0更新日期:2014-04-16 18:49
本发明专利技术涉及行为关联分析业务领域,旨在提供一种折线偏离方差累积对比分析相似程度的方法。该种根据行为关联分析业务中的数据信息自动生成的折线图表,首先,根据行为关联分析业务的要求和不同行为的数据分布特性,从行为关联分析业务数据库中提取数据信息,并基于这些数据信息自动生成折线图表;然后,通过对两条折线的耦合度、偏离度进行分析,能够得到量化的耦合度、偏离度指标的相似程度。本发明专利技术能够应用在行为关联分析业务中,可根据不同行为的数据分布特性,对于经过数据汇总得到的折线图表,进行进一步的比较分析,进而得到可量化的相似程度、偏离程度的评估指标;当然,还可以在更多的领域上,用于更广泛的分析用途。

【技术实现步骤摘要】
一种折线偏离方差累积对比分析相似程度的方法
本专利技术是关于行为关联分析业务领域,特别涉及一种折线偏离方差累积对比分析相似程度的方法。
技术介绍
在行为关联分析业务中,分析企业的某种商品的销售业绩(销售行为的销售额数据),分析每天销售高峰时间段的变化,分析企业的某几种商品的客户来源(销售行为的来源数据)的相似程度,进而对客户的关联消费习惯进行分析,为后续的营销方针提供指导,可见这种相似程度分析工作具有非常重要的作用。一般在行为关联分析业务中,会根据不同行为的数据分布特性,将数据经过汇总得到折线图表。折线:X轴具有单位,每个单位上具有一个采样点,每个采样点在Y轴上有取值。一般常见的应用场景为:(1)X轴为时间,单位为秒;(2)Y轴为数量,单位为次;(3)一个采样点(x,y)表示在时间x秒时间段内,即大于等于x秒时间点,小于x+1秒时间点,发生某种事件共计y次;先发折线、后发折线:先发折线表示该折线对应的事件,应该发生在前。后发折线表示该折线对应的事件,应该发生在后。匹配:为先发折线的某次事件,从后发折线的所有事件中,按照允许分布偏离窗口规则,找到一个事件进行配对;先发折线的某次特定事件,最多只能与后发折线中的一个事件进行配对;后发折线中的一个事件,最多只能被先发折线中的一个事件配对。允许分布偏离窗口:假定分布偏离窗口大小为N,在两条折线LineA、LineB之间,在进行耦合度分析时,允许先发折线的某个采样点(Ax,Ay)对应的Ay次事件,与LineB中的(N+1)个采样点进行耦合关联,LineB中对应的时间段范围为x,x+1,x+2,…,x+N。耦合度:在两条折线LineA、LineB之间,如果两条折线完全重合,即采样点的取值相同,此种情况的耦合度必然为全耦合;如果LineA中的每个采样点对应的每次事件,都能够在允许分布偏离窗口对应的LineB的时间段范围内的采样点对应的若干次事件,获得唯一匹配对应事件,并且最终LineB中的每个采样点钟的每次事件,都已经被匹配对应,那么两条折线间的耦合度为全耦合;全耦合时,耦合度指标应当达到最高。偏离度:偏离度说明的是未能够获得配对的严重程度,全耦合时,偏离度指标应当为0,不能匹配的越多,偏离度指标应当越高。直接偏离:对应汇总折线的同一时间段,两个采样点的Y轴取值的差额的绝对值。方差偏离:对应汇总折线的同一时间段,其直接偏离的乘方。目前在IT行业内,用于解决上述分析系统的相似关联分析的方法技术相当缺乏,提出能实现分析行为关联的相似程度的方法,并通过经过技术实践完成正式技术产品,具有广阔的应用前景。
技术实现思路
本专利技术的主要目的在于克服现有技术中的不足,提供一种根据行为关联分析业务中的数据信息自动生成的折线图表,通过对两条折线的耦合度、偏离度进行分析,能够得到量化的耦合度、偏离度指标的折线偏离方差累积对比分析相似程度的方法。为解决上述技术问题,本专利技术的解决方案是:提供一种折线偏离方差累积对比分析相似程度的方法,首先,根据行为关联分析业务的要求和不同行为的数据分布特性从行为关联分析业务数据库中提取数据信息,并基于这些数据信息自动生成折线图表;然后,假定图表中的两条折线分别为LineA和LineB,其中LineA为先发折线,LineB为后发折线,折线上的采样点(x,y),X轴为时间,单位为指定的时间周期(比如:1秒、15分钟等等),Y轴为数量,单位为次,表示在x时间周期内,事件发生次数为y次,LineA的采样点的X轴区间为[AXmin,AXmax],LineB的采样点的X轴区间为[BXmin,BXmax];折线偏离方差累积对比分析相似程度的方法,获得LineA和LineB间的相似度的量化指标,具体包括以下步骤:步骤1):将折线LineA、LineB的每个采样点使用TypeNode类型变量保存,并将折线采用TypeNode类型变量的数组方式进行保存,即LineA的采样点数据保存在数组ArrNodesListA中,LineB的采样点数据保存在数组ArrNodesListB中,数组成员变量记为(xCur,yCur);所述TypeNode类型变量是指:成员变量为(x,y),且(x,y)中的x、y分别对应采样点的x坐标值和y坐标值,x、y是不小于0的整数;步骤2):结合分析LineA、LineB的X轴区间,将LineA、LineB的两个X轴区间进行合并,获得X轴合并区间[Xmin,Xmax],其中Xmin为LineA的最小x坐标值AXmin、LineB的最小x坐标值BXmin中的最小值,Xmax为LineA的最大x坐标值AXmax、LineB的最大x坐标值BXmax中的最大值;步骤3):创建新的采样点数据数组NewArrNodesListA、NewArrNodesListB,将数组长度调整为Xmax-Xmin+1,并设定两个数组中的所有数组成员变量为TypeNode类型变量的NodeCur,即(xCur,yCur),对NodeCur进行初始化,设定NodeCur的x成员变量为该数组成员变量对应的数组下标,设定NodeCur的y成员变量为0;步骤4):遍历ArrNodesListA,将数组成员变量(xCur,yCur)对应的y成员变量的值,拷贝给NewArrNodesListA数组对应下标为(xCur-Xmin)的数组成员变量的y成员变量;遍历ArrNodesListB,将数组成员变量(xCur,yCur)对应的y成员变量的值,拷贝给NewArrNodesListB数组对应下标为(xCur-Xmin)的数组成员变量的y成员变量;步骤5):创建两个用于保存偏离度的变量AmpAcc和SqrAcc,AmpAcc用于保存直接偏离累计值,SqrAcc用于保存方差偏离累计值,并将AmpAcc和SqrAcc初始化为0;创建两个用于保存偏离基数的变量AmpAccBase和SqrAccBase,AmpAccBase用于保存直接偏离累计值基准,SqrAccBase用于保存方差偏离累计值基准,并将AmpAccBase和SqrAccBase初始化为0;步骤6):对于步骤2得到中的X轴合并区间,设定分段长度为SegLen,SegLen的长度是不小于1,同时不超过Xmax-Xmin+1;步骤7):将步骤4中得到的NewArrNodesListA、NewArrNodesListB的所有采样点,按照步骤6中确定的分段长度SegLen进行汇总分段,设定第n个分段为Seg_n,Seg_n对应X轴合并区间的X轴时间段为[SegLen*n,SegLen*n+SegLen-1]区间,对于每个分段Seg_n,形成一个新的采样点,即TypeNode类型的NodeSegC,NodeSegC的x成员变量为当前分段的序号n,NodeSegC的y成员变量分别对应为NewArrNodesListA、NewArrNodesListB在分段Seg_n中,对应X轴时间段区间中的所有采样点的y成员变量的累加值,依此类推,最终得到数组成员变量为NodeSegC的新的采样点数组ArrSegNodesListA和ArrSegNodesListB,即得到采样点数组为ArrSegNodesListA的汇总折线LineSA和采样点数组为ArrSegNo本文档来自技高网
...
一种折线偏离方差累积对比分析相似程度的方法

【技术保护点】
一种折线偏离方差累积对比分析相似程度的方法,其特征在于,首先,根据行为关联分析业务的要求和不同行为的数据分布特性,从行为关联分析业务数据库中提取数据信息,并基于这些数据信息自动生成折线图表;然后,假定图表中的两条折线分别为LineA和LineB,其中LineA为先发折线,LineB为后发折线,折线上的采样点(x,y),X轴为时间,单位为指定的时间周期,Y轴为数量,单位为次,表示在x时间周期内,事件发生次数为y次,LineA的采样点的X轴区间为[AXmin,AXmax],LineB的采样点的X轴区间为[BXmin,BXmax];折线偏离方差累积对比分析相似程度的方法,获得LineA和LineB间的相似度的量化指标,具体包括以下步骤:步骤1):将折线LineA、LineB的每个采样点使用TypeNode类型变量保存,并将折线采用TypeNode类型变量的数组方式进行保存,即LineA的采样点数据保存在数组ArrNodesListA中,LineB的采样点数据保存在数组ArrNodesListB中,数组成员变量记为(xCur,yCur);所述TypeNode类型变量是指:成员变量为(x,y),且(x,y)中的x、y分别对应采样点的x坐标值和y坐标值,x、y是不小于0的整数;步骤2):结合分析LineA、LineB的X轴区间,将LineA、LineB的两个X轴区间进行合并,获得X轴合并区间[Xmin,Xmax],其中Xmin为LineA的最小x坐标值AXmin、LineB的最小x坐标值BXmin中的最小值,Xmax为LineA的最大x坐标值AXmax、LineB的最大x坐标值BXmax中的最大值;步骤3):创建新的采样点数据数组NewArrNodesListA、NewArrNodesListB,将数组长度调整为Xmax‑Xmin+1,并设定两个数组中的所有数组成员变量为TypeNode类型变量的NodeCur,即(xCur,yCur),对NodeCur进行初始化,设定NodeCur的x成员变量为该数组成员变量对应的数组下标,设定NodeCur的y成员变量为0;步骤4):遍历ArrNodesListA,将数组成员变量(xCur,yCur)对应的y成员变量的值,拷贝给NewArrNodesListA数组对应下标为(xCur‑Xmin)的数组成员变量的y成员变量;遍历ArrNodesListB,将数组成员变量(xCur,yCur)对应的y成员变量的值,拷贝给NewArrNodesListB数组对应下标为(xCur‑Xmin)的数组成员变量的y成员变量;步骤5):创建两个用于保存偏离度的变量AmpAcc和SqrAcc,AmpAcc用于保存直接偏离累计值,SqrAcc用于保存方差偏离累计值,并将AmpAcc和SqrAcc初始化为0;创建两个用于保存偏离基数的变量AmpAccBase和SqrAccBase,AmpAccBase用于保存直接偏离累计值基准,SqrAccBase用于保存方差偏离累计值基准,并将AmpAccBase和SqrAccBase初始化为0;步骤6):对于步骤2得到中的X轴合并区间,设定分段长度为SegLen,SegLen的长度是不小于1,同时不超过Xmax‑Xmin+1;步骤7):将步骤4中得到的NewArrNodesListA、NewArrNodesListB的所有采样点,按照步骤6中确定的分段长度SegLen进行汇总分段,设定第n个分段为Seg_n,Seg_n对应X轴合并区间的X轴时间段为[SegLen*n,SegLen*n+SegLen‑1]区间,对于每个分段Seg_n,形成一个新的采样点,即TypeNode类型的NodeSegC,NodeSegC的x成员变量为当前分段的序号n,NodeSegC的y成员变量分别对应为NewArrNodesListA、NewArrNodesListB在分段Seg_n中,对应X轴时间段区间中的所有采样点的y成员变量的累加值,依此类推,最终得到数组成员变量为NodeSegC的新的采样点数组ArrSegNodesListA和ArrSegNodesListB,即得到采样点数组为ArrSegNodesListA的汇总折线LineSA和采样点数组为ArrSegNodesListB的汇总折线LineSB;其中n是不小于0的整数,且从0开始;步骤8):对ArrSegNodesListA、ArrSegNodesListB,按照数组下标进行遍历,进行以下操作:a)假定当前分段为SegC,将ArrSegNodesListA与ArrSegNodesListB在SegC分段的两个采样点的y成员变量,进行相减然后取绝对值获得直接偏离AmpC,对AmpC进行乘方获得方差偏离AmpS;b)将AmpC加到AmpAcc上,实现A...

【技术特征摘要】
1.一种折线偏离方差累积对比分析相似程度的方法,其特征在于,首先,根据行为关联分析业务的要求和不同行为的数据分布特性,从行为关联分析业务数据库中提取数据信息,并基于这些数据信息自动生成折线图表;然后,假定图表中的两条折线分别为LineA和LineB,其中LineA为先发折线,LineB为后发折线,折线上的采样点(x,y),X轴为时间,单位为指定的时间周期,Y轴为数量,单位为次,表示在x时间周期内,事件发生次数为y次,LineA的采样点的X轴区间为[AXmin,AXmax],LineB的采样点的X轴区间为[BXmin,BXmax];折线偏离方差累积对比分析相似程度的方法,获得LineA和LineB间的相似度的量化指标,具体包括以下步骤:步骤1):将折线LineA、LineB的每个采样点使用TypeNode类型变量保存,并将折线采用TypeNode类型变量的数组方式进行保存,即LineA的采样点数据保存在数组ArrNodesListA中,LineB的采样点数据保存在数组ArrNodesListB中,数组成员变量记为(aCur,bCur);所述TypeNode类型变量是指:成员变量为(x,y),且(x,y)中的x、y分别对应采样点的x坐标值和y坐标值,x、y是不小于0的整数;步骤2):结合分析LineA、LineB的X轴区间,将LineA、LineB的两个X轴区间进行合并,获得X轴合并区间[Xmin,Xmax],其中Xmin为LineA的最小x坐标值AXmin、LineB的最小x坐标值BXmin中的最小值,Xmax为LineA的最大x坐标值AXmax、LineB的最大x坐标值BXmax中的最大值;步骤3):创建新的采样点数据数组NewArrNodesListA、NewArrNodesListB,将数组长度调整为Xmax-Xmin+1,并设定两个数组中的所有数组成员变量为TypeNode类型变量的NodeCur,即(aCur,bCur),对NodeCur进行初始化,设定NodeCur的x成员变量为该数组成员变量对应的数组下标,设定NodeCur的y成员变量为0;步骤4):遍历ArrNodesListA,将数组成员变量(aCur,bCur)对应的y成员变量的值,拷贝给NewArrNodesListA数组对应下标为(aCur-Xmin)的数组成员变量的y成员变量;遍历ArrNodesListB,将数组成员变量(aCur,bCur)对应的y成员变量的值,拷贝给NewArrNodesListB数组对应下标为(aCur-Xmin)的数组成员变量的y成员变量;步骤5):创建两个用于保存偏离度的变量AmpAcc和SqrAcc,AmpAcc用于保存直接偏离累计值,SqrAcc用于保存方差偏离累计值,并将AmpAcc和SqrAcc初始化为0;创建两个用于保存偏离基数的变量AmpAccBase和SqrAccBase,AmpAccBase用于保存直接偏离累计值基准,SqrAccBase用于保存方差...

【专利技术属性】
技术研发人员:王锦龙范渊杨永清
申请(专利权)人:杭州安恒信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1