一种基于本体的关联数据质量评估方法技术

技术编号:19934430 阅读:122 留言:0更新日期:2018-12-29 04:38
本发明专利技术涉及的是一种基于本体的关联数据质量评估方法,具体为:一、关联数据质量评估数学模型定义;二、进行LDQAM数学模型向本体模型的映射;三、约束规则与推理规则制定,在使用本体进行关联数据质量评估时,利用本体的约束规则和推理规则来进行数据筛选,从而进一步进行评估;四、关联书质量评估原型系统搭建,基于上述规则进行评估系统构建,为数据评估进行服务;五、进行数据评估服务,利用构建的原型系统进行数据评估,并验证系统的有效性。本发明专利技术结合关联数据以及数据质量技术,用于发现目前网络上已发布关联数据中有关完整性、语义有效性、语义一致性、语义准确性、可用性等维度方面的缺陷,并给出相应解决方案。

【技术实现步骤摘要】
一种基于本体的关联数据质量评估方法
本专利技术涉及数据科学中的大数据数据质量评估技术,具体涉及一种基于本体的关联数据质量评估方法。
技术介绍
随着网络逐步进入3.0时代,文档网络将逐渐被数据网络所取代,网络上的数据更加趋向于多样化、个性化和海量化。从网络获取数据不仅能满足用户对于数据多样化和个性化的需求,更为实现海量数据共享服务打下基础,特别是TimBerners-Lee提出关联数据标准规范以后,该技术越来越受到人们关注,并且在世界范围得到了迅速的发展。关联数据作为语义网的最佳实践方式,可以根据不同数据之间,不同数据集的关系进行有规则的链接,使不同数据之间得到一种关联,从而使数据间建立了自然的“关系”。利用资源描述框架(RDF)作为关联数据的载体,使网络资源有了被计算机理解的可能。关联数据的发展为语义网的发展奠定基础,语义网也成为关联数据发展的主要动力。语义网就是能够使计算机利用数据间语义进行智能的计算和判断,与Web3.0的智能化网络不谋而合。从而使关联数据成为网络数据共享交互的关键。关联数据的发布量也呈爆炸型增长,从2007年5月1号发布12个关联数据集到2018年6月28号,这本文档来自技高网...

【技术保护点】
1.一种基于本体的关联数据质量评估方法,其特征在于包括如下步骤:步骤一:进行关联数据质量评估数学模型定义关联数据质量通过多个质量维度进行描述,包括链接有效性、语义关联性、句法准确性、数据实体准确性,通过对这些数据质量维度的评估达到对关联数据的数据质量评估的目的;LDQAM评估的数学模型定义:定义1:任何关联数据质量评估都形式化为一个七元组:Spvard

【技术特征摘要】
1.一种基于本体的关联数据质量评估方法,其特征在于包括如下步骤:步骤一:进行关联数据质量评估数学模型定义关联数据质量通过多个质量维度进行描述,包括链接有效性、语义关联性、句法准确性、数据实体准确性,通过对这些数据质量维度的评估达到对关联数据的数据质量评估的目的;LDQAM评估的数学模型定义:定义1:任何关联数据质量评估都形式化为一个七元组:Spvard<DOM,S,P,V,A,R,D>其中,Dom-领域,评估的关联数据隶属的领域;S-关联数据集,P-关联数据的属性集,V-关联数据的数据集实例,即属性值,A-关联数据评估中用到的算法集,D-关联数据评估维度,R-关联数据评估规则集;定义2:关联数据集:关联数据中的所有实体都有一个唯一的URI,通过网络上的Http协议用URI定位并找到相应数据,根据关联数据共享权限,实例集用URI和所属数据领域进行描述:S=<URI,Dom>其中URI表示的是关联数据集中各个实例的链接的集合,Dom标识的是该关联数据集所属的领域;定义3:关联数据的属性集:关联数据中的数据能够形成关联的必要因素就是属性,这些属性的集合即为关联数据的属性集,不同的实例只有通过属性的链接才能形成相应的关联性:P=<Predicates,Type>其中Predicates表示的属性的集合,Type表示属性的类型,即对象属性和数据属性;定义4:关联数据的数据项:关联数据的作用是将数据关联在一起,数据项是关联数据中属性值的集合:V=<Value,Weight>其中Value表示的属性的集合,Weight表示属性的在评估中的权重,定义5:关联数据评估算法集:由评估算法所构成的集合;A={algi|Define(algi),1≤i≤n}其中Define(algi)是对评估算法的定义;定义6:规则集合:每个评估维度所包含规则的集合,描述如下:R=<DIMi,Ruleij>,其中的i=1,2,……,n,j=1,2,....,m,在同一个维度可以有多个规则。Ruleij表示在维度i上的第j个规则;步骤二:进行LDQAM数学模型向本体模型的映射将本体形式化为五元组O=<C,R,F,A,I,>,其中C-类,R-关系,F-函数,A-公理,I-实例,根据给出的LDQAM的数学模型,从关联数据质量通用模型到本体模式的映射规则如下:1:关联数据集到本体实例的映射;2:维度到本体类的映射;3:属性集到本体属性的映射;4:规则集到公理的映射;5:数据集到属性实例的映射;6:算法集到本体类的映射。映射规则如下:(1)关联数集S的映射关联数据集是指需要进行评估的数据集链接的集合;关联数据集到本体实例的映射主要是对本体类实例进行映射,映射过程如下:其中,IUname表示以链接命名的本体实例;(2)维度到本体类的映射维度集是指评估维度的集合,通常映射成本体中的类...

【专利技术属性】
技术研发人员:袁满胡超张丽伟陈萍邹晨红仇婷婷
申请(专利权)人:东北石油大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1