本发明专利技术提供一种基于全局关键属性的语义网对象共指自动消解方法,包括下列步骤:1)语义网对象样本分类,将具有相同类型和付费域名的对象样本归类在一起;2)全局关键属性识别,针对具有相同类型和付费域名的一组语义网对象样本,识别出其中共指的对象样本集合和不共指的对象样本集合,计算上述两个集合中对象样本所含数据样本中属性间的相似度,统计识别全局关键属性;3)语义网对象共指消解,给定任意一个语义网对象,基于它的类型和付费域名,重用已识别出的全局关键属性,寻找具有相似关键属性值的其它对象,实现对象共指消解。本发明专利技术能够准确高效的自动识别出语义网对象的全局关键属性,并以此为基础,实现语义网对象共指的自动消解,此外已识别的全局关键属性在今后的消解过程中可以重用。
【技术实现步骤摘要】
本专利技术涉及万维网(World Wide Web)领域,尤其涉及一种。
技术介绍
语义网(Semantic Web)是万维网的一个重要发展方向,为万维网上的知识表示、推理、交换和复用提供了基础。随着语义网的快速发展,语义网的数据量已经达到了数以十亿计的规模。由于任何机构和个人都允许自由发布语义网数据,导致语义网数据具有多样性和异构性,常常造成多个不同的标识符指称真实世界中的相同对象。语义网中普遍存在的对象共指现象阻碍了语义网数据的共享和集成,不利于网络效应的发挥,造成了知识复用的困局。语义网中,对象共指的消解是指识别语义网中指称真实世界相同对象的不同标识符,并消除描述这些标识符的语义网数据之间不一致性的过程。例如,关于万维网专利技术人和语义网的倡导者TimBerners-Lee先生,迄今已发现数百个不同的URI (UniformResourceIdentifier)指称他。对于使用语义网数据的应用而言,对象共指的消解是消除数据之间语义异构性的一种有效途径,可以为应用之间的交互建立一种互操作性(interoperability)。传统的依赖人工判别的语义网对象共指消解方法存在耗时费力、成本过高、适用面窄等共性问题,在当前的语义网规模下几乎不可行。而自动消解方法可以显著减少人工参与,大幅提高共指消解的效率。根据所使用的对象特征分类,语义网对象共指的自动消解可以划分为两类一类是利用语义网数据包含的“等价”语义,通过逻辑推理来消解对象共指,称为逻辑推理方法;另一类是根据对象所含属性间的相似度,通过识别关键属性(作为特征)来消解对象共指,称为关键属性方法。相较于逻辑推理方法,关键属性方法的主要优点在于不依赖于特殊且数量较少的“等价”语义,方法的适用面更广,能够发现的对象共指数量更多;从数据的实际情况出发,能够自动消解隐式的对象共指,灵活度更高。然而,现有的关键属性方法也存在不足,其中一个主要问题是语义网数据具有规模大、变化多的特点,基于关键属性来自动消解众多的语义网对象需要耗费大量的时间和计算资源。此外,现有方法在关键属性发现过程中,仅考虑单个对象所包含的局部语义网数据,尚未利用到全局信息,造成识别出的关键属性准确度较低,并且无法重用。由上可知,现有的消解方法计算量大,不能重复利用已有的消解结果;在关键属性识别时没有充分考虑全局语义网数据,导致消解的准确度低。
技术实现思路
本专利技术目的在于提供一种基于全局关键属性的语义网对象共指自动消解方法,能够准确高效的自动识别出语义网对象的全局关键属性,并以此为基础,实现语义网对象共指的自动消解,此外已识别的全局关键属性在今后的消解过程中可以重用。为达成上述目的,本专利技术提出一种基于全局关键属性的语义网对象共指自动消解方法,包括下列步骤I)语义网对象样本分类,将具有相同类型和付费域名的对象样本归类在一起;2)全局关键属性识别,针对具有相同类型和付费域名的一组语义网对象样本,识别出其中共指的对象样本集合和不共指的对象样本集合,计算上述两个集合中对象样本所含数据样本中属性间的相似度,统计识别全局关键属性;3)语义网对象共指消解,给定任意一个语义网对象,基于它的类型和付费域名,重用已识别出的全局关键属性,寻找具有相似关键属性值的其它对象,实现对象共指消解。进一步,其中步骤I)中对大量语义网对象样本进行分类的具体工作流程如下对于任意一个语义网对象样本,从其数据样本中识别或推理出它的类型;根据对象样本的标识符,判断其命名空间,进而获得付费域名;将具有相同类型和付费域名的对象样本归为一类,实现对语义网对象样本的分类。进一步,其中步骤2)中识别全局关键属性的具体工作流程如下对于具有相同类型和付费域名的一组语义网对象样本,通过“等价”语义逻辑推理出其中共指的对象样本集合,作为全局关键属性识别过程中的正例;对于剩余对象样本,判断其U RI的本地名,找出具有公共本地名前缀的对象样本集合,作为全局关键属性识别过程中的反例;通过设定最长公共前缀的最小长度阈值,调节正例与反例的数量比例,使正例与反例的数量比达到或接近1:1 ;然后,分别对于正例集合和反例集合中的对象样本,获取它们的数据样本,使用基于字符的或基于单词的相似度计算方法,计算数据样本中属性间的相似度,统计属性对于对象共指消解的有效次数;最后,针对正例集合和反例集合采用信息增益的度量指标对属性的关键程度进行排序,识别出全局关键属性。进一步,其中步骤3)中对象共指消解的具体工作流程如下对于任意一个给定的语义网对象,获得其类型和付费域名;根据类型和付费域名,寻找之前已识别出的全局关键属性;利用这些关键属性,寻找具有相似关键属性值的语义网对象,完成语义网对象共指的消解。本专利技术的有益效果是(1)按照语义网对象的类型和付费域名进行了分类,由于具有相同类型和付费域名的语义网对象通常由同一个组织发布,这种分类体现出一种全局性,降低了局部“噪音”或“例外”数据的干扰,提高了语义网对象共指消解的准确度。(2)识别出的全局关键属性可以被重用,避免了对于每个语义网对象执行共指消解的计算开销和时间开销,提高了共指消解的效率;(3)在关键属性的识别过程中,既逻辑推理出共指的语义网对象,又构建不共指的语义网对象,同时利用共指和不共指的语义网对象可以提高关键属性识别的准确性,降低错误发生的可能性;(4)通过公共本地名前缀构建不共指的语义网对象,并通过设定最长公共前缀的最小长度阈值来调节与共指对象的数量比例,一方面大幅减少了不共指的语义网对象的数量,另一方面使得构建的不共指的语义网对象对关键属性识别有效。附图说明图1为本专利技术实施例的基于全局关键属性的语义网对象共指自动消解方法的流程不意图。图2是图1中识别全局关键属性的流程示意图。图3是本专利技术(SOCR)与现有方法消解准确性对比图。具体实施例方式为了更了解本专利技术的
技术实现思路
,特举具体实施例并配合所附图式说明如下。如图1所示,本专利技术的实施首先需要获取足够数量的待消解的语义网对象及其描述数据。获取的方法可以通过直接下载已有的语义网数据存档文件,例如DBpedia存档文件(http://wik1. dbpe dia. org/);也可以通过网页数据“爬虫”对语义网对象的URI解引用(dereferencing),将采集的语义网数据集中用于分析。从统计学的角度看,由于采集的语义网对象及其数据是待消解对象及其数据的抽样,因此将它们称为语义网对象样本/数据样本。依据对象样本的类型和付费域名进行分类,进而针对具有相同类型和付费域名的语义网对象样本,获得其中共指的对象样本集合和不共指的对象样本集合,计算全局关键属性,并将这些全局关键属性重用于今后的语义网对象共指消解。本专利技术的完整流程包括语义网对象样本分类、全局关键属性识别和语义网对象共指消解3个部分。具体的实施方式分别说明如下语义网对象样本分类的具体实施方式为对于任意一个语义网对象样本,首先从其语义网数据样本中识别或推理出它的类型。识别的规则是如果某个语义网对象(记作anObject)包含以下RDF三元组〈anObject rdf: type aClass〉,则说明该语义网对象的类型是 aClass,其中 rdf: type (http://www.w3.Org/1999/02/22-本文档来自技高网...
【技术保护点】
一种基于全局关键属性的语义网对象共指自动消解方法,其特征在于,包括下列步骤:1)语义网对象样本分类,将具有相同类型和付费域名的对象样本归类在一起;2)全局关键属性识别,针对具有相同类型和付费域名的一组语义网对象样本,识别出其中共指的对象样本集合和不共指的对象样本集合,计算上述两个集合中对象样本所含数据样本中属性间的相似度,统计识别全局关键属性;3)语义网对象共指消解,给定任意一个语义网对象,基于它的类型和付费域名,重用已识别出的全局关键属性,寻找具有相似关键属性值的其它对象,实现对象共指消解。
【技术特征摘要】
1.一种基于全局关键属性的语义网对象共指自动消解方法,其特征在于,包括下列步骤: 1)语义网对象样本分类,将具有相同类型和付费域名的对象样本归类在一起; 2)全局关键属性识别,针对具有相同类型和付费域名的一组语义网对象样本,识别出其中共指的对象样本集合和不共指的对象样本集合,计算上述两个集合中对象样本所含数据样本中属性间的相似度,统计识别全局关键属性; 3)语义网对象共指消解,给定任意一个语义网对象,基于它的类型和付费域名,重用已识别出的全局关键属性,寻找具有相似关键属性值的其它对象,实现对象共指消解。2.根据权利要求1所述的基于全局关键属性的语义网对象共指自动消解方法,其特征在于,其中步骤I)中对大量语义网对象样本进行分类的具体工作流程如下: 对于任意一个语义网对象样本,从其数据样本中识别或推理出它的类型;根据对象样本的标识符,判断其命名空间,进而获得付费域名; 将具有相同类型和付费域名的对象样本归为一类,实现对语义网对象样本的分类。3.根据权利要求1所述的基于全局关键属性的语义网对象共指自动消解方法,其特征在于,其中步骤2)中全局关键属性识别的具...
【专利技术属性】
技术研发人员:胡伟,杨睿,瞿裕忠,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。