一种高效的引用关系发现算法制造技术

技术编号:16175786 阅读:72 留言:0更新日期:2017-09-09 03:01
本发明专利技术公开了高效的引用关系发现算法,输入信息是基于文档的数据集,输出是发现数据集之间的关系,连接文档型数据库MongoDB并提取MongoDB的数据模型后浏览MonogDB中的所有数据集合,去除重复的数据,分析该数据集各属性间的依赖关系,找出超级键,超级键是一个属性集合,可以确定本文档中的每个属性,再根据数据集超级键之间的依赖关系,发现数据集之间的关系。本发明专利技术使用数据模型信息和数据类型分布来改进了Tane算法,使其更加高效,更适合文档型数据集,可以用于文档型数据集的规范化,数据清理等任务。

【技术实现步骤摘要】
一种高效的引用关系发现算法
本专利技术涉及算法
,尤其涉及一种高效的引用关系发现算法。
技术介绍
传统的关系型数据库,诸如MySQL,Oracle和DB2等已经被广泛运用于各种场景超过30年时间。这些关系型数据库非常容易使用,易于上手,并且拥有结构化的数据模型和标准化的SQL语句[1][2]。当它们在处理有限的数据量时往往可以提供很好的性能,这一点在很多场景下都被证实。从21世纪开始,由于关系型数据库的广泛使用,越来越多的函数依赖发掘算法被人们提出。比如Tane[3],Fun[4],FdMine[5],Dfd[6],Dep-Miner[7],FastFDs[8],Fdep[9]等算法。然而这些传统的函数依赖发掘算法主要是针对关系型数据库的。随着近几年信息产业的飞速发展,各种应用的数据库数据量不断增大,数据种类不断增多,数据结构越来越灵活。面对这样大量的非结构化数据,传统的关系型数据库渐渐难以应对。人们渐渐意识到大数据处理的重要性和关系型数据库的薄弱。为了满足大规模数据的处理和存储,NoSQL数据库被人们提出。1998年,NoSQL数据库第一次被CarloStrozzi正式提出。本文档来自技高网...
一种高效的引用关系发现算法

【技术保护点】
一种高效的引用关系发现算法,其特征在于:包括函数依赖发现算法,输入信息是基于文档的数据集, 输出是发现数据集之间的关系,连接文档型数据库MongoDB并提取MongoDB的数据模型后浏览MonogDB中的所有数据集合,去除重复的数据,分析该数据集各属性间的依赖关系,找出超级键,超级键是一个属性集合,可以确定本文档中的每个属性,再根据数据集超级键之间的依赖关系,发现数据集之间的关系;引用关系发掘算法,遍历每个集合中的每个超级键,后使用真值来检查每个其他的集合并测试其每个属性,只要一个文档的某个属性的某个可能取值不属于超级键的值集,系统将跳出循环,表示我们在这两个集合之间找不到引用关系,当这个属性...

【技术特征摘要】
1.一种高效的引用关系发现算法,其特征在于:包括函数依赖发现算法,输入信息是基于文档的数据集,输出是发现数据集之间的关系,连接文档型数据库MongoDB并提取MongoDB的数据模型后浏览MonogDB中的所有数据集合,去除重复的数据,分析该数据集各属性间的依赖关系,找出超级键,超级键是一个属性集合,可以确定本文档中的每个属性,再根据数据集超级键之间的依赖关系,发现数据集之间的关系;引用关系发掘算法,遍历每个集合中的每个超级键,后使用真值来检查每个其他的集合并测试其每个属性,只要一个文档的某个属性的某个可能取值不属于超级键的值集,系统将跳出循环,表示我们在这...

【专利技术属性】
技术研发人员:王琤贾天宇
申请(专利权)人:北京蓝图明册科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1