当前位置: 首页 > 专利查询>康昌春专利>正文

一种数据处理方法及存储介质技术

技术编号:33777201 阅读:56 留言:0更新日期:2022-06-12 14:30
本发明专利技术提出了一种数据处理方法及存储介质,在数据处理系统中创建关系数据表、替换表和缓存表,在关系数据表中创建多个区域;对关系数据表执行节点拓扑模型算法,生成去冗余数据;将去冗余数据添加到所述缓存表中;检查所有节点,当节点拓扑模型算法不再生成任何新的去冗余数据时,将缓存表中去冗余数据复制到替换表中;为替换表构建一个或多个索引语义数据;将替换表中的索引语义数据交换到关系数据表中的多个区域中;丢弃替换表和缓存表,达到了减少计算次数的目的,最终实现大数据高效并行化计算;有效地解决了数据的计算瓶颈问题,有效地提升了大数据的准确度、效率和数量。效率和数量。效率和数量。

【技术实现步骤摘要】
一种数据处理方法及存储介质


[0001]本专利技术属于数据处理
,尤其涉及一种数据处理方法及存储介质。

技术介绍

[0002]近几年来,大数据在全球迅猛发展,引起了学术界、业界和各国政府的高度关注。大数据将带来重大的发展机遇与技术挑战。一方面,通过有效地管理大数据并分析提取其价值,能够为行业提供高附加值的应用和服务,实现巨大的经济和社会价值。另一方面,大数据在带来发展机遇的同时也带了巨大的技术挑战。传统的计算技术在处理大数据时将面临诸多的技术困难,因此,需要研究和寻找新的有效技术方法,以完成大数据的分析处理和价值发现。
[0003]大数据处理是一个包含和综合大数据存储、计算、分析等多个层面的完整技术栈。大数据技术需要多学科综合研究,涉及到数据的获取与管理、数据的存储与处理、数据的分析与理解以及结合领域的大数据应用等。大规模数据资源蕴涵着巨大的社会价值和商业价值,有效地管理这些数据、挖掘数据的深度价值,对国家治理、社会管理、企业决策和个人生活将带来巨大的作用和影响。因此,大数据研究和应用己经成为全球科技创新和和经济发展的重要推动力量。
[0004]然而,大规模数据资源给人们带来新的发展机遇的同时,也带来很多新的技术挑战。格式多样、形态复杂、规模庞大的行业大数据给传统的计算技术带来了很多技术困难。传统的数据库等信息处理技术己经难以有效应对大规模数据的处理。为此,人们亟需寻找有效的大数据处理技术方法和手段,以有效处理和分析应用行业大数据。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提出了一种数据处理方法,包括以下步骤:
[0006]步骤1,在数据处理系统中创建关系数据表、替换表和缓存表,在关系数据表中创建多个区域;
[0007]步骤2,对所述关系数据表执行节点拓扑模型构建,生成去冗余数据;
[0008]步骤3,将通过执行步骤2生成的去冗余数据添加到缓存表中;
[0009]步骤4,检查所有节点,当不再生成任何新的去冗余数据时,执行步骤5;
[0010]步骤5,将所述缓存表中去冗余数据复制到替换表中;
[0011]步骤6,为所述替换表构建一个或多个索引语义数据;
[0012]步骤7,将所述替换表中的索引语义数据交换到所述关系数据表中的多个区域中;
[0013]步骤8,丢弃所述替换表和缓存表。
[0014]进一步地,所述步骤1具体包括:将数据表示成布尔矩阵,通过布尔矩阵分解算法将所述布尔矩阵进行分解,引入最短距离来评估矩阵分解的结果,最后通过分解后的子矩阵得出数据之间的支持度来构造关系数据表。
[0015]进一步地,用d={d1,d2,

,dm}表示所述关系数据表中所有属性表的序号集合,T
=(tid,X)表示一个事务,其中tid表示数据属性表主体,X表示该数据属性表主体在所述关系数据表中出现的属性集合,X是d的子集,用D表示包含事务集合,属性子集Y为X的子集,N为D中包含的事务个数,属性子集Y的支持度为sup(Y)/N,其中N为D中的事务个数,sup(Y)定义如下:
[0016][0017]若支持度大于最小支持度阈值,则属性子集Y中属性间是强关联的。
[0018]进一步地,所述步骤2的节点拓扑模型构建的具体步骤如下:
[0019]步骤2.1,将事务集合D中的所有的事务T都作为一个节点;
[0020]步骤2.2,遍历所有属性子集Y,将支持度大于分割阈值sup
t1
的属性子集Y进行事务分割;
[0021]步骤2.3,以分割阈值sup
t2
为二次分割点,分别将属性子集Y分割成两个子项集,所述sup
t2
>sup
t1

[0022]步骤2.4,对两个子项集分别循环执行步骤2.2和步骤2.3,直到拓扑到最小的子集项,每两个子集项之间的交点代表最小节点;
[0023]步骤2.5,计算每个最小节点的支持度supn,将支持度supn小于冗余阈值的最小节点标记为冗余节点,与所述冗余节点连接的最小的子集项的数据标记为冗余数据;
[0024]步骤2.6,除去冗余数据和冗余节点相关联的拓扑分支,保留去冗余后的节点拓扑模型。
[0025]进一步地,所述步骤7具体步骤如下:
[0026]步骤7.1,在替换表上执行元素查询;
[0027]步骤7.2,搜索与每个先行词匹配的元素,按照匹配概率顺序连接匹配数据;
[0028]步骤7.3,判断匹配概率最高的匹配数据与关系数据表中的属性列名是否匹配;
[0029]若匹配概率最高的匹配数据与关系数据表中的属性列名匹配,则进入到步骤7.4;若匹配概率最高的匹配数据与关系数据表中的属性列名不匹配,则进入到步骤7.5;
[0030]步骤7.4,将该元素交换到关系数据表中的多个区域中;
[0031]步骤7.5,判断匹配概率第二高的匹配数据,回到步骤7.3。
[0032]进一步地,所述步骤7.2中,在匹配条件变化时,只对先行词进行调整,开发最少的先行词的匹配参数。
[0033]本专利技术提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理方法的步骤。
[0034]本专利技术方法针对现有数据处理系统效率较低的问题,提出一种数据处理方法及存储介质,引入布尔矩阵和去除率的概念来对数据进行剪枝和压缩存储,实现算法的运算并将其应用于系统大数据,达到减少计算次数的目的,最终实现大数据高效并行化计算;通过该方法有效地解决了数据的计算瓶颈问题,有效地提升了大数据的准确度、效率和数量。
附图说明
[0035]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本专利技术的数据处理方法的流程示意图;
[0037]图2为本专利技术的布尔矩阵的构建示意图;
[0038]图3为本专利技术的利用子矩阵构造关系数据表的示意图;
[0039]图4为本专利技术的将替换表中的索引语义数据交换到关系数据表中的多个区域中的步骤流程示意图。
具体实施方式
[0040]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041]在本专利技术的具体实施例附图中,为了更好、更清楚的描述系统中的各元件的工作原理,表现所述装置中各部分的连接关系,只是明显区分了各元件之间的相对位置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括以下步骤:步骤1,在数据处理系统中创建关系数据表、替换表和缓存表,在关系数据表中创建多个区域;步骤2,对所述关系数据表执行节点拓扑模型构建,生成去冗余数据;步骤3,将通过执行步骤2生成的去冗余数据添加到缓存表中;步骤4,检查所有节点,当不再生成任何新的去冗余数据时,执行步骤5;步骤5,将所述缓存表中去冗余数据复制到替换表中;步骤6,为所述替换表构建一个或多个索引语义数据;步骤7,将所述替换表中的索引语义数据交换到所述关系数据表中的多个区域中;步骤8,丢弃所述替换表和缓存表。2.根据权利要求1所述的数据处理方法,其特征在于,所述步骤1具体包括:将数据表示成布尔矩阵,通过布尔矩阵分解算法将所述布尔矩阵进行分解,引入最短距离来评估矩阵分解的结果,最后通过分解后的子矩阵得出数据之间的支持度来构造关系数据表。3.根据权利要求2所述的数据处理方法,其特征在于,用d={d1,d2,

,dm}表示所述关系数据表中所有属性表的序号集合,T=(tid,X)表示一个事务,其中tid表示数据属性表主体,X表示该数据属性表主体在所述关系数据表中出现的属性集合,X是d的子集,用D表示包含事务集合,属性子集Y为X的子集,N为D中包含的事务个数,属性子集Y的支持度为sup(Y)/N,其中N为D中的事务个数,sup(Y)定义如下:若支持度大于最小支持度阈值,则属性子集Y中属性间是强关联的。4.根据权利要求3所述的数据处理方法,其特征在于,所述步骤2的节点拓扑模型构建的具体步骤如下:步骤2.1,将事务集合D中的所有的事务T都作为一个节点;步骤2.2,遍历所有属性子集Y,将支持度大于分割阈...

【专利技术属性】
技术研发人员:康昌春
申请(专利权)人:康昌春
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1