知识图谱构建方法及装置、计算设备、存储介质制造方法及图纸

技术编号:27528212 阅读:39 留言:0更新日期:2021-03-03 10:59
本申请公开了一种知识图谱构建方法,包括:接收信息抽取指令,该信息抽取指令用于指示对构建知识图谱的源数据进行信息抽取采用的信息抽取策略;然后,采用该信息抽取指令所指示的信息抽取策略,对源数据进行信息抽取,得到多个多元组数据,每个多元组数据包括:用于指示实体的实体类型的信息、实体属性的信息和关联关系的信息;再根据多个多元组数据,构建知识图谱,该知识图谱记录源数据所包括的实体及不同实体之间的关系。本申请保证了知识图谱构建方法的适用范围,提高了知识图谱构建的灵活性。灵活性。灵活性。

【技术实现步骤摘要】
知识图谱构建方法及装置、计算设备、存储介质
[0001]本申请要求于2019年08月26日提交的申请号为201910792526.0、专利技术名称为“一种知识图谱的构建方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及云计算
,特别涉及一种知识图谱构建方法及装置、计算设备、存储介质。

技术介绍

[0003]越来越多的企业已经意识到知识对业务的重要性,迫切需要梳理业务中的知识体系,以提升工作效率和效果。知识图谱(knowledge graph,KG)作为知识组织与知识表示的一种表示形式,使用知识图谱表示知识体系已成为发展趋势。
[0004]相关技术中,在构建知识图谱时,需要先结合业务所属领域的领域知识设计知识图谱本体模型,然后对业务所涉及的数据进行信息抽取,以获取数据中用于指示实体的信息,然后将抽取到的信息填充到知识图谱本体中,得到知识图谱。
[0005]该知识图谱的构建过程通常采用定制化模块实现,该定制化模块是按照业务所属领域的领域需求定制的。但是,由于不同领域的需求不同,该定制化模块较难用于构建不同领域的知识图谱,导致其适用性较差。

技术实现思路

[0006]本申请提供了一种知识图谱构建方法及装置、计算设备、存储介质,可以解决相关技术中构建知识图谱的方法的适用性较差的问题。
[0007]第一方面,本申请提供了一种知识图谱构建方法,该方法包括:接收信息抽取指令,信息抽取指令用于指示对构建知识图谱的源数据进行信息抽取采用的信息抽取策略;采用信息抽取指令所指示的信息抽取策略,对源数据进行信息抽取,得到多个多元组数据,每个多元组数据包括:用于指示实体的实体类型的信息、实体属性的信息和关联关系的信息;根据多个多元组数据,构建知识图谱,知识图谱记录源数据所包括的实体及不同实体之间的关系。
[0008]本申请实施例提供的知识图谱构建方法,通过接收信息抽取指令,确定对构建知识图谱的源数据进行信息抽取采用的信息抽取策略,采用该信息抽取策略对源数据进行信息抽取得到多个多元组数据,然后根据该多个多元组数据构建知识图谱,相较于相关技术,能够根据业务需求配置信息抽取策略,并针对不用领域中的源数据采用不同的信息抽取策略,使得可以根据不同领域中的源数据构建知识图谱,保证了知识图谱构建方法的适用范围,提高了构建知识图谱的灵活性。
[0009]可选地,在根据多个多元组数据,构建知识图谱之前,该方法还可以包括:获取用于构建知识图谱时需要使用的知识图谱本体模型,知识图谱本体模型定义知识图谱中多元
组数据的标准化描述;接收映射策略指令,映射策略指令用于指示根据多元组数据的标准化描述对多个多元组数据进行关联映射的映射策略;根据多元组数据的标准化描述和映射策略指令所指示的映射策略,对多个多元组数据进行关联映射,得到采用多元组数据的标准化描述进行标准化描述的多个多元组数据。相应的,根据多个多元组数据构建知识图谱的实现过程,包括:根据标准化描述后的多个多元组数据,构建知识图谱。
[0010]关联映射也称知识映射。该知识映射是指建立从抽取元素与本体元素之间的映射关系,并根据该映射关系采用本体元素对对应的抽取元素进行标准化描述。通过知识映射可以实现多元组数据的统一表示,提高了知识图谱的可读性。
[0011]在映射策略的一种实现方式中,可以获取每个抽取元素与本体元素的匹配度。当某一抽取元素与一个本体元素的匹配度大于匹配度阈值时,可以建立该抽取元素与该本体元素的映射关系,并指示使用该本体元素对该抽取元素进行标准化描述。
[0012]在映射策略的另一种可实现方式中,用户可以通过终端配置映射策略。其实现过程包括:用户可以通过终端指示多元组数据中抽取元素与知识图谱本体模型定义的标准化描述的本体元素之间的映射关系,并指示使用本体元素对与其具有映射关系的抽取元素进行标准化描述。
[0013]通过用户配置映射策略,并使用配置的映射策略对多元组数据进行关联映射,使得知识图谱构建装置能够针对不同类型的数据使用不同的映射策略,能够提高对多元组数据进行关联映射的准确性,提高了知识图谱构建的准确性。
[0014]可选地,在根据多个多元组数据,构建知识图谱之前,该方法还可以包括:根据指定的多元组数据匹配策略,在多个多元组数据中,确定包括有指示同一实体的信息的不同多元组数据;对包括有指示同一实体的信息的不同多元组数据进行合并处理。相应的,根据多个多元组数据构建知识图谱的实现过程,包括:根据经过合并处理后的多个多元组数据,构建知识图谱。
[0015]当根据多个源数据构建知识图谱时,用于指示同一实体的信息的表示方式可能不同,若直接根据提取出的多元组数据构建知识图谱,可能会将采用不同表示方式的同一实体当做不同的实体,导致构建的知识图谱无法准确反映源数据体现的内容。通过对包括有用于指示同一实体的元素的不同多元组数据进行合并处理,并根据经过合并处理后的多元组数据构建知识图谱,能够提高构建的知识图谱的准确性。
[0016]在一种可实现方式中,在根据指定的多元组数据匹配策略,在多个多元组数据中,确定包括有指示同一实体的信息的不同多元组数据之前,该方法还包括:接收匹配策略指令,匹配策略指令用于指示判断不同多元组数据中是否包括有指示同一实体的信息的匹配算法和匹配度阈值。相应的,根据指定的多元组数据匹配策略,在多个多元组数据中,确定包括有指示同一实体的信息的不同多元组数据的实现过程,包括:当根据匹配策略指令所指示的匹配算法,确定两个多元组数据中指示实体的信息的匹配度不小于匹配度阈值时,确定两个多元组数据包括有指示同一实体的信息。
[0017]通过匹配策略指令选择匹配算法,并使用选择的匹配算法判断不同多元组数据中是否包括有指示同一实体的元素,使得能够对基于不同领域中的数据获得的元素采用不同的匹配算法,能够提高知识映射的灵活度和获取匹配度的准确性,提高了知识图谱构建的准确性和全面性。
[0018]可选地,源数据包括:来源不同的多路数据。也即是,本申请实施例提供的知识图谱构建方法能够针对多路数据构建知识图谱。相应的,采用信息抽取指令所指示的信息抽取策略,对源数据进行信息抽取,得到多个多元组数据的实现过程,可以包括:分别采用信息抽取指令所指示的对每路数据进行信息抽取采用的信息抽取策略,对每路数据进行信息抽取,得到分别与多路数据对应的多个多元组数据。此时,根据多个多元组数据,构建知识图谱的实现过程,包括:根据与多路数据对应的多个多元组数据,构建知识图谱。这样一来,能够提高根据多路数据构建知识图谱的构建效率。
[0019]其中,在根据多个多元组数据,构建知识图谱之后,该方法还可以包括:在确定源数据发生更新后,根据信息抽取指令所指示的策略,对更新后的源数据中的增量数据进行信息抽取,得到增量数据对应的多个多元组数据;根据增量数据对应的多个多元组数据更新知识图谱。
[0020]通过对知识图谱进行增量更新,能够减小根据更新后的源数据构建知识图谱过程中的额计算量,可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,所述方法包括:接收信息抽取指令,所述信息抽取指令用于指示对构建知识图谱的源数据进行信息抽取采用的信息抽取策略;采用所述信息抽取指令所指示的信息抽取策略,对所述源数据进行信息抽取,得到多个多元组数据,每个多元组数据包括:用于指示实体的实体类型的信息、实体属性的信息和关联关系的信息;根据所述多个多元组数据,构建所述知识图谱,所述知识图谱记录所述源数据所包括的实体及不同实体之间的关系。2.根据权利要求1所述的方法,其特征在于,在所述根据所述多个多元组数据,构建所述知识图谱之前,所述方法还包括:获取用于构建所述知识图谱时需要使用的知识图谱本体模型,所述知识图谱本体模型定义所述知识图谱中多元组数据的标准化描述;接收映射策略指令,所述映射策略指令用于指示根据所述多元组数据的标准化描述对所述多个多元组数据进行关联映射的映射策略;根据所述多元组数据的标准化描述和所述映射策略指令所指示的映射策略,对所述多个多元组数据进行关联映射,得到采用所述多元组数据的标准化描述进行标准化描述的多个多元组数据;所述根据所述多个多元组数据,构建所述知识图谱,包括:根据标准化描述后的多个多元组数据,构建所述知识图谱。3.根据权利要求1或2所述的方法,其特征在于,在所述根据所述多个多元组数据,构建所述知识图谱之前,所述方法还包括:根据指定的多元组数据匹配策略,在所述多个多元组数据中,确定包括有指示同一实体的信息的不同多元组数据;对包括有指示同一实体的信息的不同多元组数据进行合并处理;所述根据所述多个多元组数据,构建所述知识图谱,包括:根据经过合并处理后的多个多元组数据,构建所述知识图谱。4.根据权利要求3所述的方法,其特征在于,在所述根据指定的多元组数据匹配策略,在所述多个多元组数据中,确定包括有指示同一实体的信息的不同多元组数据之前,所述方法还包括:接收匹配策略指令,所述匹配策略指令用于指示判断不同多元组数据中是否包括有指示同一实体的信息的匹配算法和匹配度阈值;所述根据指定的多元组数据匹配策略,在所述多个多元组数据中,确定包括有指示同一实体的信息的不同多元组数据,包括:当根据所述匹配策略指令所指示的匹配算法,确定两个多元组数据中指示实体的信息的匹配度不小于所述匹配度阈值时,确定所述两个多元组数据包括有指示同一实体的信息。5.根据权利要求1至4任一所述的方法,其特征在于,所述源数据包括:来源不同的多路数据,所述采用所述信息抽取指令所指示的信息抽取策略,对所述源数据进行信息抽取,得到多个多元组数据,包括:
分别采用所述信息抽取指令所指示的对每路数据进行信息抽取采用的信息抽取策略,对每路数据进行信息抽取,得到分别与所述多路数据对应的多个多元组数据;所述根据所述多个多元组数据,构建所述知识图谱,包括:根据与所述多路数据对应的多个多元组数据,构建所述知识图谱。6.根据权利要求1至5任一所述的方法,其特征在于,在所述根据所述多个多元组数据,构建所述知识图谱之后,所述方法还包括:在确定所述源数据发生更新后,根据所述信息抽取指令所指示的策略,对更新后的源数据中的增量数据进行信息抽取,得到所述增量数据对应的多个多元组数据;根据所述增量数据对应的多个多元组数据更新所述知识图谱。7.根据权利要求1所述的方法,其特征在于,所述采用所述信息抽取指令所指示的信息抽取策略,对所述源数据进行信息抽取,包括:采用所述信息抽取指令所指示的AI模型,对所述源数据进行信息抽取;其中,所述AI模型为已经过训练的模型,且所述AI模型的训练样本使用知识图谱本体模型中多元组数据的标准化描述进行标注,所述知识图谱本体模型定义...

【专利技术属性】
技术研发人员:郑毅袁晶卢栋才王喆锋怀宝兴彭朱炜王禹章涛王鹏
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1