一种高效的引用关系发现算法制造技术

技术编号：16175786 阅读：72 留言：0更新日期：2017-09-09 03:01

本发明专利技术公开了高效的引用关系发现算法，输入信息是基于文档的数据集，输出是发现数据集之间的关系，连接文档型数据库MongoDB并提取MongoDB的数据模型后浏览MonogDB中的所有数据集合，去除重复的数据，分析该数据集各属性间的依赖关系，找出超级键，超级键是一个属性集合，可以确定本文档中的每个属性，再根据数据集超级键之间的依赖关系，发现数据集之间的关系。本发明专利技术使用数据模型信息和数据类型分布来改进了Tane算法，使其更加高效，更适合文档型数据集，可以用于文档型数据集的规范化，数据清理等任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种高效的引用关系发现算法
本专利技术涉及算法
，尤其涉及一种高效的引用关系发现算法。
技术介绍
传统的关系型数据库，诸如MySQL,Oracle和DB2等已经被广泛运用于各种场景超过30年时间。这些关系型数据库非常容易使用，易于上手，并且拥有结构化的数据模型和标准化的SQL语句[1][2]。当它们在处理有限的数据量时往往可以提供很好的性能，这一点在很多场景下都被证实。从21世纪开始，由于关系型数据库的广泛使用，越来越多的函数依赖发掘算法被人们提出。比如Tane[3],Fun[4],FdMine[5],Dfd[6],Dep-Miner[7],FastFDs[8],Fdep[9]等算法。然而这些传统的函数依赖发掘算法主要是针对关系型数据库的。随着近几年信息产业的飞速发展，各种应用的数据库数据量不断增大，数据种类不断增多，数据结构越来越灵活。面对这样大量的非结构化数据，传统的关系型数据库渐渐难以应对。人们渐渐意识到大数据处理的重要性和关系型数据库的薄弱。为了满足大规模数据的处理和存储，NoSQL数据库被人们提出。1998年，NoSQL数据库第一次被CarloSt...
一种高效的引用关系发现算法

【技术保护点】
一种高效的引用关系发现算法，其特征在于：包括函数依赖发现算法，输入信息是基于文档的数据集，输出是发现数据集之间的关系，连接文档型数据库MongoDB并提取MongoDB的数据模型后浏览MonogDB中的所有数据集合，去除重复的数据，分析该数据集各属性间的依赖关系，找出超级键，超级键是一个属性集合，可以确定本文档中的每个属性，再根据数据集超级键之间的依赖关系，发现数据集之间的关系；引用关系发掘算法，遍历每个集合中的每个超级键，后使用真值来检查每个其他的集合并测试其每个属性，只要一个文档的某个属性的某个可能取值不属于超级键的值集，系统将跳出循环，表示我们在这两个集合之间找不到引用关系，当这个属性...

【技术特征摘要】
1.一种高效的引用关系发现算法，其特征在于：包括函数依赖发现算法，输入信息是基于文档的数据集，输出是发现数据集之间的关系，连接文档型数据库MongoDB并提取MongoDB的数据模型后浏览MonogDB中的所有数据集合，去除重复的数据，分析该数据集各属性间的依赖关系，找出超级键，超级键是一个属性集合，可以确定本文档中的每个属性，再根据数据集超级键之间的依赖关系，发现数据集之间的关系；引用关系发掘算法，遍历每个集合中的每个超级键，后使用真值来检查每个其他的集合并测试其每个属性，只要一个文档的某个属性的某个可能取值不属于超级键的值集，系统将跳出循环，表示我们在这...

【专利技术属性】
技术研发人员：王琤，贾天宇，
申请(专利权)人：北京蓝图明册科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人