基于数据归类同级比对防止数据冗余的大数据存储系统技术方案

技术编号：37997365 阅读：19 留言：0更新日期：2023-06-30 10:11

本发明专利技术涉及大数据存储技术领域，具体地说，涉及基于数据归类同级比对防止数据冗余的大数据存储系统。其包括关联度分析模块以及记忆点标记模块。本发明专利技术通过关联度分析模块对处于同类型的数据进行关联度分析，确定冗余数据与重复数据，避免数据存储重复，影响数据库存储空间，通过记忆点标记模块建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理，通过标记结果识别各项已经完成关联度比对的数据，减少后期二次比对工作，提高数据处理效率，同时通过对冗余数据的划分后，能够整合冗余数据中的各项数据，按照用户存储需求便捷快速的处理冗余数据，避免冗余数据处理方式单一化。免冗余数据处理方式单一化。免冗余数据处理方式单一化。

全部详细技术资料下载

【技术实现步骤摘要】
基于数据归类同级比对防止数据冗余的大数据存储系统

[0001]本专利技术涉及大数据存储
，具体地说，涉及基于数据归类同级比对防止数据冗余的大数据存储系统。

技术介绍

[0002]数据冗余发生在数据库系统中，指的是一个字段在多个表里重复出现，举个例子，如果每条客户购买商品的信息里都连带记录了客户自身的信息，这样的数据冗余可能造成不一致，因为客户自身的信息可能不一样，数据冗余会导致数据异常和损坏，一般来说设计上应该被避免，数据库规范化防止了冗余而且不浪费存储容量。
[0003]冗余数据在数据库系统中有利有弊，优点：例如数据恢复，如建立备份文件以备正式文件被破坏时恢复；数据核查，如设立数据校验位可以检查数据在存贮、传输等过程中的改变；数据核查，如设立数据校验位可以检查数据在存贮、传输等过程中的改变；数据核查，如设立数据校验位可以检查数据在存贮、传输等过程中的改变，冗余信息被作为加快数据访问速度的手段应用最多的情况一般不是在一个表里设置冗余字段，而是在很多海量数据的数据仓库里把很多小粒度的数据计算成为以一天、一周、一个...

【技术保护点】

【技术特征摘要】
1.基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：包括数据信息采集模块（10）、存储内容分析模块（20）、数据归类模块（30）、关联度分析模块（40）、记忆点标记模块（50）以及数据分类存储模块（60）；所述数据信息采集模块（10）识别即将进行存储的数据，并采集即将进行存储的数据信息；所述数据信息采集模块（10）输出端与所述存储内容分析模块（20）输入端连接，所述存储内容分析模块（20）结合即将进行存储的数据信息，提取各个数据信息对应的信息内容；所述存储内容分析模块（20）输出端与所述数据归类模块（30）输入端连接，所述数据归类模块（30）根据各个数据信息对应的信息内容，规划归类规则，按照归类规则对各个数据信息进行同类型归类处理；所述数据归类模块（30）输出端与所述关联度分析模块（40）输入端连接，所述关联度分析模块（40）对处于同类型的数据进行关联度分析，确定冗余数据与重复数据；所述关联度分析模块（40）输出端连接有记忆点标记模块（50），所述记忆点标记模块（50）建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理；所述记忆点标记模块（50）输出端与所述数据分类存储模块（60）输入端连接，所述数据分类存储模块（60）建立分类数据库，分类存储标记后的各项冗余数据以及重复数据。2.根据权利要求1所述的基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：所述数据归类模块（30）包括分类规则规划单元（310）以及同类型数据整合单元（320）；所述分类规则规划单元（310）用于规划分类规则；所述分类规则规划单元（310）输出端与所述同类型数据整合单元（320）输入端连接，所述同类型数据整合单元（320）通过分类规则划分各项采集数据，并将属于同类型的数据整合。3.根据权利要求2所述的基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：所述同类型数据整合单元（320）输入端连接有归纳方法预存储单元（330），所述归纳方法预存储单元（330）用于存储数据归类过程中的各项分类规则。4.根据权利要求1所述的基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：所述关联度分析模块（40）包括字符比对分析单元（410）、重合字符计算单元（420）以及互异字符识别单元（430）；所述字符比对分析单元（410）用于确定同类型数据中字符分布情况；所述字符比对分析单元（410）输出端与所述重合字符计算单元（420）输...

【专利技术属性】
技术研发人员：张芬，
申请(专利权)人：起点山东大数据科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人