面向知识图谱构建的细粒度中文属性对齐方法技术

技术编号:15724783 阅读:1560 留言:0更新日期:2017-06-29 11:10
一种面向知识图谱构建的细粒度中文属性对齐方法,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。

【技术实现步骤摘要】
面向知识图谱构建的细粒度中文属性对齐方法
本专利技术涉及数据处理领域,特别涉及一种面向知识图谱构建的细粒度中文属性对齐方法。
技术介绍
关联开放数据LOD(LinkingOpenData)项目的出现,促进了大规模语义数据的发布与互联。属性对齐是语义数据集成的一个基础任务,旨在识别来自单一或多个数据源的属性之间存在的对应关系,例如,识别“生日”和“出生日期”之间的同义关系。属性对齐的结果可作为实体对齐及本体构建的基础,因此,在跨数据源的高质量知识图谱的构建中起到重要作用。此外,完善的属性对应关系也有利于提高语义检索、问答系统的召回率。属性对齐工作主要使用数据驱动的方法,其一般思路是,基于属性的扩展(extension)计算属性相似度,并设定相似度阈值来划分属性间的关系。例如,利用LOD数据集间的owl:sameAs信息确定扩展中的相同实体,通过计算匹配数与共现数的比例确定同义属性,但该方法仅能处理对象属性(objectproperty)。一些改进方法利用属性值的相似度代替完全匹配,因此可识别同义的值属性(datatypeproperty)。例如,通过无监督的方式确定阈值,并使用聚类法获取单一LOD数据集内部的同义属性簇。此外,也有工作对属性间的包含关系进行分析。例如,PARIS方法则在统一的对齐框架内实现了子属性(subproperty)的识别。上述方法主要面向LOD数据集,例如DBpedia,YAGO,Freebase等。相比较而言,包括中文百科、垂直网站等在内的中文开源数据集大多未经整理,语义信息不完整,已有方法可能因缺乏必要信息而难以发挥优势;且中文表意的灵活性使得属性间的关系更复杂,而已有属性对齐工作通常着眼于发现某种特定关系。
技术实现思路
鉴于现有方案存在的问题,为了克服上述现有技术方案的不足,本专利技术提出了一种面向知识图谱构建的细粒度中文属性对齐方法。根据本专利技术的一个方面,提供了一种面向知识图谱构建的细粒度中文属性对齐方法,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。从上述技术方案可以看出,本专利技术具有以下有益效果:提出基于监督学习的细粒度属性对齐方法,将属性关系的识别建模为多分类问题;在确定属性类型方面,利用统计理论降低了小概率噪声干扰,因而鲁棒性强,在现有不规范数据集上可达到90%以上的准确率,克服了中文数据集规范性差,语义信息不完整的难题。与传统对齐方法相比,不仅提高了同义属性识别的准确性,而且可有效发现包含、相关等关系,因而更适用于数据表达灵活、属性关系复杂的开源中文数据集。附图说明图1是本专利技术实施例中实现基于监督学习的细粒度中文属性对齐方法的操作示意图;图2本专利技术实施例中基于监督学习的细粒度中文属性对齐方法的流程示意图;图3为最佳匹配集确定示例图;具体实施方式本专利技术某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本专利技术的各种实施例可以许多不同形式实现,而不应被解释为限于此处所阐述的实施例;相对地,提供这些实施例使得本专利技术满足适用的法律要求。在本说明书中,下述用于描述本专利技术原理的各种实施例只是说明,不应该以任何方式解释为限制专利技术的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本专利技术的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不悖离本专利技术的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同附图标记用于相似功能和操作。为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。本专利技术实施例提供了一种基于监督学习的细粒度中文属性对齐方法,该方法首先确定属性的数据类型,在此基础上使用监督学习方法对属性间的同义、包含、相关关系进行统一识别,即实现细粒度的属性对齐。根据RDF(ResourceDescriptionFramework)及OWL(WebOntologyLanguage)的规范,Web中的资源(或实体)可用一系列形如<主语,谓语,宾语>的三元组描述,三元组的三要素依次对应实体、属性和属性值。其中实体可被划分到不同的类别(概念),如人、动物等;属性可分为值属性(datatypeproperty)或对象属性(objectproperty)两类,前者的属性值为文本,而后者的属性值是实体。考虑到开源中文数据集中的属性值多以自由文本表示,本方法将所有属性简化为值属性。一个属性可能出现在多个三元组中,这些三元组中的实体-属性值元组构成的集合即为该属性的扩展(extension),而扩展中所有实体类别的集合称为属性的定义域(domain)。图1为本专利技术实施例中实现基于监督学习的细粒度中文属性对齐方法的操作示意图,如图1所示,本专利技术实施例对两个数据集D1,D2进行属性对齐操作,数据集可看作一系列<实体,属性,属性值>三元组构成的集合,其中,数据集D1的实体“李红”具有属性集1包括生日、居住地、丈夫,相应的属性值2为1982.2.26、武汉、王明,数据集D2的同一实体“李红”的属性集1包括出生日、出生地、居住地、配偶、身高,相应的属性值2为1982-2-26、湖北武汉、湖北武汉、王明、172cm。首先,基于统计的方法判别各个属性的数据类型,例如:经过判别后,数据集D1的属性集1的数据类型分别为时间值、字符串和字符串;数据集D2的属性集1的数据类型分别为时间值、字符串、字符串、字符串和数值。然后,基于定义的属性相似度,实现不同数据集间的属性细粒度对齐(识别属性间同义、相关、包含等关系)。例如,数据集D1和D2的属性对齐结果为:D1中的属性“生日”与D2中的属性“出生日”为同义关系,D1中的属性“居住地”与D2中的属性“出生地”为相关关系,D1中的属性“丈夫”与D2中的属性“配偶”为包含关系。通过对数据集D1和D2中的属性进行细粒度对齐,能够消除数据冗余,实现不同数据集间同一实体的数据合并,最终,完成数据集D1和D2的数据融合。图2示出了本专利技术实施例中基于监督学习的细粒度中文属性对齐方法的流程示意图,如图2所示,该属性对齐方法包括以下步骤:步骤A:针对每一数据集的各个属性分别生成属性的扩展。具体地,一个属性可能出现在多个三元组中,这些三元组中的实体-属性值元组构成的集合即为该属性的扩展(extension)。步骤B:针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型,即,基于统计对每一数据集中各个属性数据类型进行判别。一个属性所有属性值的数据类型构成的集合,称为该属性的数据类型。也即给定属性p,其数据类型可表示为其中,Ep表示属性p的扩展中所有实体构成的集本文档来自技高网
...
面向知识图谱构建的细粒度中文属性对齐方法

【技术保护点】
一种面向知识图谱构建的细粒度中文属性对齐方法,其特征在于,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。

【技术特征摘要】
1.一种面向知识图谱构建的细粒度中文属性对齐方法,其特征在于,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。2.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,步骤A中属性的扩展是指在该属性所在的语义数据集中,所有该属性相关的实体和属性值对所构成的二元组集合。3.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,所述的步骤B包括:步骤B1:确定属性值的数据类型,任意属性值l可看作由n个原子文本ai拼接而成,其中n≥1,1≤i≤n,i,n均为正整数,任意属性值l的数据类型通常与其中一个或几个关键的原子文本的类型保持一致,使用如下启发式准则判断属性值l的数据类型:其中I是指示函数,时为1,否则为0;gL为求文本长度的函数,U数据类型的集合;步骤B2:确定属性的数据类型,采用下式,对属性p的所有属性值的数据类型进行统计,即计算每个类型出现次数占其属性值总数的比例,假定比例低于阈值θ的类型为噪声导致的错误,其中,Ep表示属性p的扩展中所有实体构成的集合,le,p表示给定实体e和属性p时...

【专利技术属性】
技术研发人员:付琨许光銮梁霄孙显李峰孙鸿志王楠
申请(专利权)人:中国科学院电子学研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1