基于关联规则提取的海量数据处理系统、设备及方法技术方案

技术编号:9865779 阅读:96 留言:0更新日期:2014-04-03 00:45
本发明专利技术提出了基于关联规则提取的海量数据处理系统、设备和方法。其中,所述系统包括关联规则信息提取装置、关联参数信息记录表存储装置、数据处理服务器、第一数据库、第二数据库和参数表存储装置,所述关联规则信息提取装置周期性地从所述第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表。本发明专利技术所公开的基于关联规则提取的海量数据处理系统、设备和方法既能够使参数表的记录数较少又能够使系统具有高的参数解析性能。

【技术实现步骤摘要】
基于关联规则提取的海量数据处理系统、设备及方法
本专利技术涉及数据处理系统、设备及方法,更具体地,涉及基于关联规则提取的海量数据处理系统、设备及方法。
技术介绍
目前,随着信息数据处理需求的日益增长以及不同领域的业务种类的日益丰富,海量数据的处理(例如金融交易数据的处理)变得越来越重要。在现有的海量数据的处理系统及方法中,通常使用和依赖多个参数表(其包含大量参数信息)来协助处理数据(例如执行金融交易数据的清算操作)。一般而言,现有的海量数据的处理系统及方法通过如下两种方式完成参数表的设计与解析:(1)参数表的个数尽可能少,以保证系统参数的解析性能;(2)参数表个数较多,并依赖各个参数表之间的关联关系进行数据的处理。然而,现有的海量数据的处理系统及方法存在如下问题:(1)针对第一种方式,由于参数表的决定要素太多,故各个决定要素取值关系组合后参数表的记录数极大,由此带来极大的空间需求,从而该方式对数据处理复杂程度较高的系统而言是不现实的,此外,在使用该方式的情况下,进行参数配置的工作量极大;(2)针对第二种方式,由于参数表的决定要素较少,故各个决定要素取值关系组合后参数表的记录数较少,但解析过程中需要依赖参数表之间的关联关系进行处理,从而导致解析性能较差。因此,存在如下需求:提供既能够使参数表的记录数较少又能够具有高的参数解析性能的海量数据处理系统、设备及方法。
技术实现思路
为了解决上述现有技术方案中所存在的问题,本专利技术提出了既能够使参数表的记录数较少又能够具有高的参数解析性能的海量数据处理系统、设备及方法。本专利技术的目的是通过以下技术方案实现的:一种基于关联规则提取的海量数据处理系统,所述基于关联规则提取的海量数据处理系统包括:第一数据库,所述第一数据库用于存储已处理的数据记录;参数表存储装置,所述参数表存储装置用于存储多个参数表以及所述多个参数表之间的关联规则;关联规则信息提取装置,所述关联规则信息提取装置用于周期性地从所述第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;关联参数信息记录表存储装置,所述关联参数信息记录表存储装置用于存储接收到的关联参数信息记录表;数据处理服务器,所述数据处理服务器用于执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中;第二数据库,所述第二数据库用于存储所述未处理的数据记录。在上面所公开的方案中,优选地,所述关联规则信息提取装置从所述第一数据库读取当前周期的数据记录,并统计每个数据记录在所有所述多个参数表中的对应匹配记录,并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。在上面所公开的方案中,优选地,所述关联规则信息提取装置进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作,所述预处理操作包括中间数据清理、当前处理周期属性对应的关联参数信息记录表数据清理操作。在上面所公开的方案中,优选地,所述关联参数信息记录表中的各个记录是所述多个参数表集合中满足所述多个参数表之间的关联规则的关联参数信息的集合。在上面所公开的方案中,优选地,所述系统包括多个参数表,参数表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且其中,各个参数表之间通过关联键而相互关联。在上面所公开的方案中,优选地,所述关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且该记录由发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成。在上面所公开的方案中,优选地,通过周期性地从所述第一数据库读取当前周期的数据记录,所述关联规则信息提取装置能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持。在上面所公开的方案中,优选地,所述数据处理服务器进一步包括:预处理模块,所述预处理模块用于执行内存装载预处理操作,其中,所述内存装载预处理操作包括:(1)从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则;(2)通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配,检查所述关联参数信息记录表的有效性,并且如果所述关联参数信息记录表有效,则将其加载入内存以供数据处理模块8后续使用,而如果所述关联参数信息记录表失效,则不对其进行加载;数据处理模块,所述数据处理模块用于周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中。在上面所公开的方案中,优选地,所述数据处理模块进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析,并且如果发现当前匹配的参数记录中带有后续的关联信息记录,则直接获取参数决定结果中的所有信息。本专利技术的目的还可以通过以下技术方案实现:一种关联规则信息提取装置,所述关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录。本专利技术的目的还可以通过以下技术方案实现:一种数据处理服务器,所述数据处理服务器执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于关联参数信息记录表和/或多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在第一数据库中。本专利技术的目的还可以通过以下技术方案实现:一种基于关联规则提取的海量数据处理方法,所述基于关联规则提取的海量数据处理方法包括下列步骤:(A1)关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置以进行存储,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;(A2)数据处理服务器执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在第一数据库中本专利技术所公开的基于关联规则提取的海量数据处理系统、设备及方法具有如下优点:既允许在使用基于关联规则的多表设计(所需的空间开销较小),也能够对发生概率较高的数据记录在参数解析过程中依赖先前的关联规则结果本文档来自技高网...
基于关联规则提取的海量数据处理系统、设备及方法

【技术保护点】
一种基于关联规则提取的海量数据处理系统,所述基于关联规则提取的海量数据处理系统包括:第一数据库,所述第一数据库用于存储已处理的数据记录;参数表存储装置,所述参数表存储装置用于存储多个参数表以及所述多个参数表之间的关联规则;关联规则信息提取装置,所述关联规则信息提取装置用于周期性地从所述第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置,其中,每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;关联参数信息记录表存储装置,所述关联参数信息记录表存储装置用于存储接收到的关联参数信息记录表;数据处理服务器,所述数据处理服务器用于执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中;第二数据库,所述第二数据库用于存储所述未处理的数据记录。...

【技术特征摘要】
1.一种基于关联规则提取的海量数据处理系统,所述基于关联规则提取的海量数据处理系统包括:第一数据库,所述第一数据库用于存储已处理的数据记录;参数表存储装置,所述参数表存储装置用于存储多个参数表以及所述多个参数表之间的关联规则;关联规则信息提取装置,所述关联规则信息提取装置用于周期性地从所述第一数据库读取当前周期的数据记录,并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表,并将所述关联参数信息记录表传送到关联参数信息记录表存储装置,其中,每个发生概率超过预定阈值的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录;关联参数信息记录表存储装置,所述关联参数信息记录表存储装置用于存储接收到的关联参数信息记录表;数据处理服务器,所述数据处理服务器用于执行内存装载预处理操作,并随后周期性地从第二数据库读取出当前周期的未处理的数据,以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录,并将已处理的数据记录存储在所述第一数据库中;第二数据库,所述第二数据库用于存储所述未处理的数据记录。2.根据权利要求1所述的基于关联规则提取的海量数据处理系统,其特征在于,所述关联规则信息提取装置从所述第一数据库读取当前周期的数据记录,并统计每个数据记录在所有所述多个参数表中的对应匹配记录,并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。3.根据权利要求2所述的基于关联规则提取的海量数据处理系统,其特征在于,所述关联规则信息提取装置进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作,所述预处理操作包括中间数据清理、当前处理周期属性对应的关联参数信息记录表数据清理操作。4.根据权利要求3所述的基于关联规则提取的海量数据处理系统,其特征在于,所述关联参数信息记录表中的各个记录是所述多个参数表集合中满足所述多个参数表之间的关联规则的关联参数信息的集合。5.根据权利要求4所述的基于关联规则提取的海量数据处理系统,其特征在于,所述系统包括多个参数表,参数表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且其中,各个参数表之间通过关联键而相互关联。6.根据权利要求5所述的基于关联规则提取的海量数据处理系统,其特征在于,所述关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成,并且该记录由发生概率超过预定阈值的数据所对应的至少一个参数表的所有决定要素和决定结果构成。7.根据权利要求6所述的基于关联规则提取的海量数据处理系统,其特征在于,通过周期性地从所述第一数据库读取当前周期的数据记录,所述关联规则信息提取装置能够自适应地获得先前数据的处理经验,从而为后续数据处理提供决策支持。8.根据权利要求7所述的基于关联规则提取的海量数据处理系统,其特征在于,所述数据处理服务器进一步包括:预处理模块,所述预处理模块用于执行内存装载预处理操作,其中,所述内存装载预处理操作包括:(1)从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则;(2)通过读取所述关联参数信息记录表中的每一条...

【专利技术属性】
技术研发人员:冯哲张工厂
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1