【技术实现步骤摘要】
基于数据归类同级比对防止数据冗余的大数据存储系统
[0001]本专利技术涉及大数据存储
,具体地说,涉及基于数据归类同级比对防止数据冗余的大数据存储系统。
技术介绍
[0002]数据冗余发生在数据库系统中,指的是一个字段在多个表里重复出现,举个例子,如果每条客户购买商品的信息里都连带记录了客户自身的信息,这样的数据冗余可能造成不一致,因为客户自身的信息可能不一样,数据冗余会导致数据异常和损坏,一般来说设计上应该被避免,数据库规范化防止了冗余而且不浪费存储容量。
[0003]冗余数据在数据库系统中有利有弊,优点:例如数据恢复,如建立备份文件以备正式文件被破坏时恢复;数据核查,如设立数据校验位可以检查数据在存贮、传输等过程中的改变;数据核查,如设立数据校验位可以检查数据在存贮、传输等过程中的改变;数据核查,如设立数据校验位可以检查数据在存贮、传输等过程中的改变,冗余信息被作为加快数据访问速度的手段应用最多的情况一般不是在一个表里设置冗余字段,而是在很多海量数据的数据仓库里把很多小粒度的数据计算成为以一天、一周、一个 ...
【技术保护点】
【技术特征摘要】
1.基于数据归类同级比对防止数据冗余的大数据存储系统,其特征在于:包括数据信息采集模块(10)、存储内容分析模块(20)、数据归类模块(30)、关联度分析模块(40)、记忆点标记模块(50)以及数据分类存储模块(60);所述数据信息采集模块(10)识别即将进行存储的数据,并采集即将进行存储的数据信息;所述数据信息采集模块(10)输出端与所述存储内容分析模块(20)输入端连接,所述存储内容分析模块(20)结合即将进行存储的数据信息,提取各个数据信息对应的信息内容;所述存储内容分析模块(20)输出端与所述数据归类模块(30)输入端连接,所述数据归类模块(30)根据各个数据信息对应的信息内容,规划归类规则,按照归类规则对各个数据信息进行同类型归类处理;所述数据归类模块(30)输出端与所述关联度分析模块(40)输入端连接,所述关联度分析模块(40)对处于同类型的数据进行关联度分析,确定冗余数据与重复数据;所述关联度分析模块(40)输出端连接有记忆点标记模块(50),所述记忆点标记模块(50)建立记忆标记规则数据库,调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理;所述记忆点标记模块(50)输出端与所述数据分类存储模块(60)输入端连接,所述数据分类存储模块(60)建立分类数据库,分类存储标记后的各项冗余数据以及重复数据。2.根据权利要求1所述的基于数据归类同级比对防止数据冗余的大数据存储系统,其特征在于:所述数据归类模块(30)包括分类规则规划单元(310)以及同类型数据整合单元(320);所述分类规则规划单元(310)用于规划分类规则;所述分类规则规划单元(310)输出端与所述同类型数据整合单元(320)输入端连接,所述同类型数据整合单元(320)通过分类规则划分各项采集数据,并将属于同类型的数据整合。3.根据权利要求2所述的基于数据归类同级比对防止数据冗余的大数据存储系统,其特征在于:所述同类型数据整合单元(320)输入端连接有归纳方法预存储单元(330),所述归纳方法预存储单元(330)用于存储数据归类过程中的各项分类规则。4.根据权利要求1所述的基于数据归类同级比对防止数据冗余的大数据存储系统,其特征在于:所述关联度分析模块(40)包括字符比对分析单元(410)、重合字符计算单元(420)以及互异字符识别单元(430);所述字符比对分析单元(410)用于确定同类型数据中字符分布情况;所述字符比对分析单元(410)输出端与所述重合字符计算单元(420)输...
【专利技术属性】
技术研发人员:张芬,
申请(专利权)人:起点山东大数据科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。