符号数据分析方法和系统技术方案

技术编号:12384293 阅读:83 留言:0更新日期:2015-11-25 15:36
本发明专利技术实施例公开了一种符号数据分析方法和系统,其中,方法包括:DB触发器监测到以行存储方式存储数据的业务系统的数据库表发生数据更新时,将数据更新信息记录到日志记录表中;行列存储转换单元实时读取日志记录表中更新的数据更新信息;若有预设数据库表发生数据更新,从业务系统的数据库中的相应位置读取更新数据并其同步到以列存储方式存储数据库表的数据的内存数据库中的对应位置;预设数据库表为预先设定的需要实时同步到内存数据库中的数据库表;数据符号分析单元采用符号数据分析方法对更新数据的预设数据库表的数据进行分析,生成更新数据的预设数据库表中各指标变量区间形式的符号数据表。本发明专利技术实施例可以实现高效实时的数据分析。

【技术实现步骤摘要】

本专利技术涉及计算机技术,尤其是一种符号数据分析方法和系统
技术介绍
在传统的应用系统中,数据被存储在传统数据库中。当用户通过应用的前端操作 界面发出对数据的操作指令后,应用层从数据库中读取数据在应用层进行逻辑运算,并将 运算结果反馈到前端操作界面进行展现或进行下一步的操作。在这个过程中,从数据库中 读取数据因为磁盘输入/输出(I/O)的性能限制而成为瓶颈,而这一瓶颈在海量数据的读 取中体现得尤为突出,基于数据仓库的报表分析就是一个最明显的例子。存在这一问题的 原因是,传统数据库实际上是将数据以文件的形式存储在磁盘上并为应用提供访问数据的 接口。从数据库中读取数据的本质是从磁盘上读取文件,而在过去几十年的硬件发展中,内 存和中央处理器(CPU)的性能始终在飞速的提升,只有磁盘I/O的性能提升并不明显。从 磁盘上读取数据的速度是毫秒级。 -般的数据分析技术在处理"整齐有序"却"堆积如山"的数据集合时,有很大局限 性,主要困难在于两方面:1)由于样本点和变量维数的影响,往往使得计算工作量相当大; 2)难以获得数据群点的整体特性。 针对上述两方面的困难,现有技术提出了一种基于行存储数据仓库的符号数据分 析方法,例如《符号数据典型相关分析技术及其在股市分析中的应用》(系统工程,第22卷 第8期)、《一种海量数据的分析技术》(北京航空航天大学学报(社会科学版)第17卷第 2期)。符号数据分析方法运用"数据打包"的思想,在原有的多维样本空间内,建立更高一 级的数据阶层,从而大大简化对大样本集合的运算过程,改变了以往样本空间的降维往往 难以解释其实际含义的状况。 在实现本专利技术的过程中,专利技术人发现,现有基于行存储数据仓库的符号数据分析 方法,虽然能有效地对高维变量空间进行降维,提高数据处理效果,仍然存在以下问题: 现有基于行存储数据仓库的符号数据分析方法是一个面对业务系统的非实时数 据分析,面对如今大数据到来,高效实时数据分析的要求表现出其局限性,无法实现高效实 时的数据分析;另外,在进行符号数据分析时往往会出现由于数据样本空间选取的不合理 会导致数据样本转换为符号区间数据时数据失真。
技术实现思路
本专利技术实施例所要解决的其中一个技术问题是:提供一种符号数据分析方法和系 统,以实现高效实时的数据分析。 本专利技术实施例提供的一种符号数据分析方法,包括: 业务系统的数据库DB触发器监测业务系统的数据库表,所述业务系统的数据库 以行存储方式存储所述数据库表的数据; 响应于监测到所述业务系统的数据库表发生数据更新时,DB触发器将表示所述数 据库表发生的数据更新情况的数据更新信息记录到日志记录表中,其中,所述数据库表发 生数据更新包括所述数据库表发生新增、修改或删除数据事件;所述数据更新记录包括发 生数据更新的数据库表标识ID和所述发生数据更新的位置信息; 行列存储转换单元实时读取所述日志记录表中更新的数据更新信息; 若所述更新的数据更新信息表示有预设数据库表发生数据更新时,行列存储转换 单元根据所述预设数据库表的数据更新信息中的位置信息,从所述业务系统的数据库中的 相应位置读取更新数据,并将该更新数据同步到以列存储方式存储数据库表的数据的内存 数据库中的对应位置;所述预设数据库表为预先设定的需要实时同步到内存数据库中的数 据库表; 数据符号分析单元采用符号数据分析方法对内存数据库中更新数据的预设数据 库表的数据进行分析,生成更新数据的预设数据库表中各指标变量区间形式的符号数据 表。 本专利技术上述方法的进一步实施例中,还包括: 通过行列存储转换单元预先设定业务系统中需要实时同步到内存数据库中的数 据库表或者进一步更新需要实时同步到内存数据库中的数据库表。 本专利技术上述方法的进一步实施例中,所述行列存储转换单元实时读取所述日志记 录表中更新的数据更新信息包括: 所述行列存储转换单元中的控制模块实时调用业务系统中的读取单元读取所述 日志记录表中更新的数据更新信息; 若所述更新的数据更新信息表示有预设数据库表发生数据更新时,行列存储转换 单元根据所述预设数据库表的数据更新信息中的位置信息,从所述业务系统的数据库中的 相应位置读取更新数据,并将该更新数据同步到以列存储方式存储数据库表的数据的内存 数据库中的对应位置包括: 所述控制模块根据所述日志记录表中更新的数据更新信息,判断是否有预设数据 库表发生数据更新; 若有预设数据库表发生数据更新,所述控制模块调用所述读取单元根据所述预设 数据库表的数据更新信息中的位置信息,从所述业务系统的数据库中的相应位置读取更新 数据; 所述控制模块将读取到的更新数据传输给所述行列存储转换单元中的写数据模 块,并根据预先设置的行列转换位置对应规则,指示写数据模块将所述更新数据同步写入 以列存储方式存储数据库表的数据的内存数据库中; 所述写数据模块通过写操作将所述更新数据同步到所述内存数据库中的对应位 置。 本专利技术上述方法的进一步实施例中,所述控制模块通过远程功能调用RFC连接调 用读取单元读取所述数据更新信息和所述更新数据。 本专利技术上述方法的进一步实施例中,所述采用符号数据分析方法对内存数据库中 更新数据的预设数据库表的数据进行分析包括: 利用多核中央处理器CPU的并发能力,分别采用符号数据分析方法对内存数据库 中更新数据的预设数据库表的各列数据进行并行分析。 本专利技术上述方法的进一步实施例中,还包括: 数据样本预处理单元对基于列存储的所述预设数据库表的数据进行抽样分析预 处理,利用数据平滑技术识别和删除偏离预设业务值正常范围的数据; 所述数据符号分析单元采用符号数据分析方法对内存数据库中更新数据的预设 数据库表的数据进行分析包括:所述数据符号分析单元采用符号数据分析方法对内存数据 库中更新数据的预设数据库表经过抽样分析预处理的数据进行分析。 本专利技术上述方法的进一步实施例中,还包括: 应用分析单元根据应用需求对所述各指标变量区间形式的符号数据表进行应用 分析,获取所述各指标变量之间的关系、以及各指标变量的数据样本的特征状况。 本专利技术实施例提供的一种符号数据分析系统,包括: 数据库DB触发器,用于监测业务系统的数据库表,所述业务系统的数据库以行存 储方式存储所述数据库表的数据;响应于监测到所述业务系统的数据库表发生数据更新 时,将表示所述数据库表发生的数据更新情况的数据更新信息记录到日志记录表中,其中, 所述数据库表发生数据更新包括所述数据库表发生新增、修改或删除数据事件;所述数据 更新记录包括发生数据更新的数据库表标识ID和所述发生数据更新的位置信息; 第一存储单元,用于存储所述日志记录表; 行列存储转换单元,用于实时读取所述日志记录表中更新的数据更新信息;若所 述更新的数据更新信息表示有预设数据库表发生数据更新时,根据所述预设数据库表的数 据更新信息中的位置信息,从所述业务系统的数据库中的相应位置读取更新数据,并将该 更新数据同步到以列存储方式存储数据库表的数据的内存数据库中的对应位置;所述预设 数据库表为预先设定的需要实时同步到内存数据库中的数据库表; 第二存储单元,用于存储需同步数据库表列表,所述需同步数据库表列表中记录 有需要实时同步到内存数据库中的预设数据库表信息; 内存数本文档来自技高网
...

【技术保护点】
一种符号数据分析方法,其特征在于,包括:业务系统的数据库DB触发器监测业务系统的数据库表,所述业务系统的数据库以行存储方式存储所述数据库表的数据;响应于监测到所述业务系统的数据库表发生数据更新时,DB触发器将表示所述数据库表发生的数据更新情况的数据更新信息记录到日志记录表中,其中,所述数据库表发生数据更新包括所述数据库表发生新增、修改或删除数据事件;所述数据更新记录包括发生数据更新的数据库表标识ID和所述发生数据更新的位置信息;行列存储转换单元实时读取所述日志记录表中更新的数据更新信息;若所述更新的数据更新信息表示有预设数据库表发生数据更新时,行列存储转换单元根据所述预设数据库表的数据更新信息中的位置信息,从所述业务系统的数据库中的相应位置读取更新数据,并将该更新数据同步到以列存储方式存储数据库表的数据的内存数据库中的对应位置;所述预设数据库表为预先设定的需要实时同步到内存数据库中的数据库表;数据符号分析单元采用符号数据分析方法对内存数据库中更新数据的预设数据库表的数据进行分析,生成更新数据的预设数据库表中各指标变量区间形式的符号数据表。

【技术特征摘要】

【专利技术属性】
技术研发人员:鲍明曦朱源何忠江邓丽华武翊
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1