基于上下文感知和复杂语义关联的数据空间建模方法技术

技术编号:13832092 阅读:243 留言:0更新日期:2016-10-14 11:31
基于上下文感知和复杂语义关联的数据空间建模方法,本发明专利技术涉及数据空间建模方法。本发明专利技术的目的是为了解决现有方法存在以下缺陷:1)上下文感知性较弱;2)语义关系表达能力弱;3)语义关联推理能力弱。通过以下技术方案实现的:步骤一、构建一种半结构化图模型,称之为上下文感知的复杂语义关联网络模型COSAN;步骤二、根据上下文感知的复杂语义关联网络模型COSAN表示上下文感知的解释对象;步骤三、根据上下文感知的解释对象得出上下文感知的基本语义关联和复杂多元语义关联;步骤四、根据上下文感知的基本语义关联和复杂多元语义关联得出语义关联推理规则。本发明专利技术应用于数据空间建模领域。

【技术实现步骤摘要】

本专利技术涉及数据空间建模方法。
技术介绍
数据管理是数据库社区的一个重要的长期目标。然而,管理多样化数据的需求随着时间和应用不断发生变化。目前,在越来越多的数据管理场景中(如企业与政府数据管理、数字图书馆、个人信息管理以及科学数据管理等),数据源呈现高度异构且松散关联特点。由于不同数据源中结构化、半结构化与非结构化数据相互影响、相互作用,因此,以一种便捷的、集成的以及可指导的方式管理这些数据已经成为一项重大的挑战性任务。为此,数据空间以一种愿景的方式被提出,并作为一种新的数据管理抽象。它倡导以增量、pay-as-you-go方式数据集成并且能够对两(多)个实体之间的任意关系进行建模。目前,数据空间建模是数据空间中最重大挑战之一。因此提出一种能够良好地表示异构、相互关联的数据源的通用模型具有重要意义。目前,在数据空间社区中,已有的数据空间模型研究工作可以划分为两类:采用重构式思想或者分解式思想。前者把数据源中结构化、半结构化及非结构化信息块封装在一起,如iDM模型、lgDM模型、解释对象模型(IOM)等,而后者则把数据源分解为一系列单元,即最小的信息块,如三元组数据模型(TDM)等。然而,这两类方法都过分强调异构数据源的表示,却忽略以下方面:1)上下文感知信息表示。例如,在不同上下文条件下,呈现不同刻面的实体信息与语义关联;2)复杂语义关系表示。例如,涉及上下文依赖和多数据源的语义关系;3)语义关联推理。例如,支持从已有语义关系派生出隐含语义关系的推理规则。为了便于理解,本小节通过一个案例研究阐述传统的IOM模型的缺陷,并引出本文的研究问题。与传统数据管理不同的是,数据空间具有以下特征:1)异构性和普遍性。数据空间包含大量的、多样化数据源,如文件、数据库、Emails及网页等。并且这些数据源存储在各个地方,如个人计算机、企业与政府数据中心、电话等;2)上下文感知特性。在本文中,实体(或对象)是最小的数据单元。在不同的上下文(如,时间上下文),实体信息和实体间的语义关联往往呈现不同的刻面。例如,以学术领域为例,在不同的时期,实体“Xin Luna Dong”撰写得所有论文可能出现不同形式的名字(如,2008年之前为“Xin Dong”,2011至2013年期间为“Xin Luna Dong”);3)语义关系的复杂性。传统上,实体类级别关系的语义是非常弱的。在数据空间中,由于关系是在实体级别构建且一个关系可能涉及到两个或多个实体,因此语义关系变得更加复杂。例如,上下文约束、顺序约束、聚合约束及属性约束等因素 可能进一步增加数据空间语义关系的复杂性。4)语义关联推理。除了直接关联外,还存在大量隐含关联,这些关联往往从常识或隐含规则中派生出来。注意,本章中后面将交互使用“语义关联”和“语义关系”。基于此,我们将使用一个案例研究来说明目前数据空间建模中最先进方法IOM缺陷所导致的一些问题。假定在下面的案例研究中,我们期望表达关于发表过程中的知识或者关系。实体“Xin Luna Dong”(2011-2013),其导师为Alon.Y.Halevy且2001至2007年期间在University of Washington上学。在2006年11月19日前,她撰写了一篇名叫“Indexing dataspace”的稿件,其中稿件的内容是“Dataspace are collections…”且稿件中合作者之一“Xin Dong”是她的名字。在2007年2月19日前,稿件被AnHai Doan(评审人名字是假定的)评审并被要求小幅修改(注意:假定修改后内容为“Dataspace are large collections…”)。之后,稿件被SIGMOD’07会议接收,因此“Xin Dong”被邀请出席该会议。图1展示了当前最先进模型(IOM模型)对应的数据空间表示。具体来说,Person、Conference、Manuscript及University表示为实体或者解释对象,它封装了元数据信息和数据信息。实体间的语义关联通过含标签的有向边表示,如authorOf,reviewerOf,and supervisorOf。注意,针对单个实体来说,其属性可能有多值,例如,实体“Xin Luna Dong”的属性Name有两个值(即“Xin Dong”和“Xin Luna Dong”)。此外,图1中一些信息没有列出来,如,实体“Index Dataspace”内容的两个变体。从图1中我们可能观察到:已有的数据空间建模工作主要侧重于异构实体(对象)的表示并且把实体看作为一等公民,然而,这些方法具有以下缺陷:1)上下文感知性较弱。图中方法确实能够统一地表示不同数据源中的结构化、半结构化及非结构化信息,但不适于表示多维信息,即不同上下文下呈现的不同刻面。例如,对实体“Xin Luna Dong”,其属性Name有两个值(“Xin Dong”和“Xin Luna Dong”)且在任何时候是共存的、等价的,但是这种刻面信息(如,两个值)依赖于不同的上下文,即,“Xin Dong”在2008年出现,而“Xin Luna Dong”在2011年至2013年出现;2)语义关系表达能力弱。从图1中可知,语义关系是一种用于连接两个实体的二元关系且由文本标签表示,然而,现实世界中语义关系更加复杂,因为简单语义关系并不总是常态而且可能涉及多个实体。例如,图1不能反映案例研究中“发表过程”语义关系的整体语义;3)传统方法只能揭示直接关联而无法支持语义关联推理,如在实体Alon.Y.Halevy、Xin Luna Dong、University of Washington中只存在两种语义关联supervisorOf and studyIn,然而,在Alon.Y.Halevy和University of Washington可能存在facultyOf语义关联。导致对关键词和语义关系的查询准确率低以及对关键词查询的平均响应时间长。
技术实现思路
本专利技术的目的是为了解决现有方法对关键词和语义关系的查询准确率低以及对关键词查询的平均响应时间长的问题;而提出基于上下文感知和复杂语义关联的数据空间建模方法。上述的专利技术目的是通过以下技术方案实现的:步骤一、构建一种半结构化图模型,称之为上下文感知的复杂语义关联网络模型COSAN;步骤二、根据上下文感知的复杂语义关联网络模型COSAN表示上下文感知的解释对象;步骤三、根据上下文感知的解释对象得出上下文感知的基本语义关联和复杂多元语义关联;步骤四、根据上下文感知的基本语义关联和复杂多元语义关联得出语义关联推理规则。专利技术效果本专利技术在传统的解释对象模型(IOM)研究基础上,提出了一种改进的图模型,即上下文感知的复杂语义关联网络模型(简称COSAN)。首先,以案例研究的形式展示传统IOM模型的缺陷,从而引出本专利技术研究动机;接着,引入上下文因素,把上下文信息与数据源的结构化信息、半结构化信息及非结构化信息统一封装成上下文感知的解释对象,从而表达上下文感知的异构信息;然后,通过一组约束组件(如上下文约束、顺序约束和聚合约束等)扩展传统的二元语义关系,从而表达复杂语义关系;此外,引入一组推理规则,以便可以从已有的语义关系派生出本文档来自技高网
...

【技术保护点】
基于上下文感知和复杂语义关联的数据空间建模方法,其特征在于基于上下文感知和复杂语义关联的数据空间建模方法具体是按照以下步骤进行的:步骤一、构建一种半结构化图模型,称之为上下文感知的复杂语义关联网络模型COSAN;步骤二、根据上下文感知的复杂语义关联网络模型COSAN表示上下文感知的解释对象;步骤三、根据上下文感知的解释对象得出上下文感知的基本语义关联和复杂语义关联;步骤四、根据上下文感知的基本语义关联和复杂语义关联得出语义关联推理规则。

【技术特征摘要】
1.基于上下文感知和复杂语义关联的数据空间建模方法,其特征在于基于上下文感知和复杂语义关联的数据空间建模方法具体是按照以下步骤进行的:步骤一、构建一种半结构化图模型,称之为上下文感知的复杂语义关联网络模型COSAN;步骤二、根据上下文感知的复杂语义关联网络模型COSAN表示上下文感知的解释对象;步骤三、根据上下文感知的解释对象得出上下文感知的基本语义关联和复杂语义关联;步骤四、根据上下文感知的基本语义关联和复杂语义关联得出语义关联推理规则。2.根据权利要求1所述基于上下文感知和复杂语义关联的数据空间建模方法,其特征在于:所述步骤一中构建一种半结构化图模型,称之为上下文感知的复杂语义关联网络模型COSAN;具体过程为:将上下文感知的复杂语义关联网络模型COSAN定义为一个含标签的有向图(V,E,Rules),所述复杂语义关联指N≥3,N为语义节点的个数;N=2为上下文感知的基本语义关联;其中,V是语义节点集合;一个语义节点表示一个上下文感知的解释对象O;E=(ESimple,EComplex)是语义关联集合;其中,ESimple表示上下文感知的基本语义关联集合;一个上下文感知的基本语义关联es∈ESimple是连接两个语义节点的有向边;EComplex表示复杂语义关联集合;一个复杂语义关联ec∈EComplex是指涉及N个语义节点的复杂关系,N≥3;Rules是语义关联推理规则。3.根据权利要求1或2所述基于上下文感知和复杂语义关联的数据空间建模方法,其特征在于:所述步骤二中根据上下文感知的复杂语义关...

【专利技术属性】
技术研发人员:王念滨周连科王红滨祝官文宋奎勇何鸣王瑛琦
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1