面向知识图谱构建的细粒度中文属性对齐方法技术

技术编号：15724783 阅读：1560 留言：0更新日期：2017-06-29 11:10

一种面向知识图谱构建的细粒度中文属性对齐方法，包括：步骤A，针对每一数据集的各个属性分别生成属性的扩展；步骤B，针对每个属性的扩展，考虑该属性的所有属性值类型的统计特性，从而确定该属性的数据类型；步骤C，基于属性的数据类型，定义属性值的相似度，实现属性间的相似度计算；步骤D，根据细粒度属性对齐的需要，针对任意两不同数据集要判别的属性对关系，基于属性间的相似度生成特征；步骤E，将所述特征输入训练好的分类器，输出分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
面向知识图谱构建的细粒度中文属性对齐方法
本专利技术涉及数据处理领域，特别涉及一种面向知识图谱构建的细粒度中文属性对齐方法。
技术介绍
关联开放数据LOD(LinkingOpenData)项目的出现，促进了大规模语义数据的发布与互联。属性对齐是语义数据集成的一个基础任务，旨在识别来自单一或多个数据源的属性之间存在的对应关系，例如，识别“生日”和“出生日期”之间的同义关系。属性对齐的结果可作为实体对齐及本体构建的基础，因此，在跨数据源的高质量知识图谱的构建中起到重要作用。此外，完善的属性对应关系也有利于提高语义检索、问答系统的召回率。属性对齐工作主要使用数据驱动的方法，其一般思路是，基于属性的扩展(extension)计算属性相似度，并设定相似度阈值来划分属性间的关系。例如，利用LOD数据集间的owl:sameAs信息确定扩展中的相同实体，通过计算匹配数与共现数的比例确定同义属性，但该方法仅能处理对象属性(objectproperty)。一些改进方法利用属性值的相似度代替完全匹配，因此可识别同义的值属性(datatypeproperty)。例如，通过无监督的方式确定阈值，并使用聚类法获取单一LOD数据集内部的同义属性簇。此外，也有工作对属性间的包含关系进行分析。例如，PARIS方法则在统一的对齐框架内实现了子属性(subproperty)的识别。上述方法主要面向LOD数据集，例如DBpedia，YAGO，Freebase等。相比较而言，包括中文百科、垂直网站等在内的中文开源数据集大多未经整理，语义信息不完整，已有方法可能因缺乏必要信息而难以发挥优势；且中文表...
面向知识图谱构建的细粒度中文属性对齐方法

【技术保护点】
一种面向知识图谱构建的细粒度中文属性对齐方法，其特征在于，包括：步骤A，针对每一数据集的各个属性分别生成属性的扩展；步骤B，针对每个属性的扩展，考虑该属性的所有属性值类型的统计特性，从而确定该属性的数据类型；步骤C，基于属性的数据类型，定义属性值的相似度，实现属性间的相似度计算；步骤D，根据细粒度属性对齐的需要，针对任意两不同数据集要判别的属性对关系，基于属性间的相似度生成特征；步骤E，将所述特征输入训练好的分类器，输出分类结果。

【技术特征摘要】
1.一种面向知识图谱构建的细粒度中文属性对齐方法，其特征在于，包括：步骤A，针对每一数据集的各个属性分别生成属性的扩展；步骤B，针对每个属性的扩展，考虑该属性的所有属性值类型的统计特性，从而确定该属性的数据类型；步骤C，基于属性的数据类型，定义属性值的相似度，实现属性间的相似度计算；步骤D，根据细粒度属性对齐的需要，针对任意两不同数据集要判别的属性对关系，基于属性间的相似度生成特征；步骤E，将所述特征输入训练好的分类器，输出分类结果。2.根据权利要求1所述的细粒度中文属性对齐方法，其特征在于，步骤A中属性的扩展是指在该属性所在的语义数据集中，所有该属性相关的实体和属性值对所构成的二元组集合。3.根据权利要求1所述的细粒度中文属性对齐方法，其特征在于，所述的步骤B包括：步骤B1：确定属性值的数据类型，任意属性值l可看作由n个原子文本ai拼接而成，其中n≥1，1≤i≤n，i，n均为正整数，任意属性值l的数据类型通常与其中一个或几个关键的原子文本的类型保持一致，使用如下启发式准则判断属性值l的数据类型：其中I是指示函数，时为1，否则为0；gL为求文本长度的函数，U数据类型的集合；步骤B2：确定属性的数据类型，采用下式，对属性p的所有属性值的数据类型进行统计，即计算每个类型出现次数占其属性值总数的比例，假定比例低于阈值θ的类型为噪声导致的错误，其中，Ep表示属性p的扩展中所有实体构成的集合，le,p表示给定实体e和属性p时...

【专利技术属性】
技术研发人员：付琨，许光銮，梁霄，孙显，李峰，孙鸿志，王楠，
申请(专利权)人：中国科学院电子学研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人