信息处理方法、装置、计算机可读存储介质和计算机设备制造方法及图纸

技术编号:24353637 阅读:19 留言:0更新日期:2020-06-03 02:06
本申请涉及一种信息处理方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;根据所述公共领域,确定各个所述待融合实体的关键比对属性;根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。本申请提供的方案可以提高实体融合效率。

Information processing methods, devices, computer-readable storage media and computer equipment

【技术实现步骤摘要】
信息处理方法、装置、计算机可读存储介质和计算机设备
本申请涉及知识图谱
,特别是涉及一种基于知识图谱的信息处理方法、装置、计算机可读存储介质和计算机设备。
技术介绍
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。在知识图谱的构建过程中,现有技术在进行实体融合时,往往需要在网页、文本等实体资源中把所有记录有对应实体的属性信息的三元组全部抽取出来,并按一定的规则来进行一一比较,以进行实体融合,整个处理过程较为繁琐,计算量较大。因此,现有技术在进行实体融合时存在效率不高的问题。
技术实现思路
基于此,有必要针对现有技术在进行实体融合时存在效率不高的技术问题,提供一种信息处理方法、装置、计算机可读存储介质和计算机设备。一种信息处理方法,所述方法包括:获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;根据所述公共领域,确定各个所述待融合实体的关键比对属性;根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。一种信息处理装置,所述装置包括:获取模块,用于获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;确定模块,用于根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域的信息;匹配模块,用于根据所述公共领域,确定各个所述待融合实体的关键比对属性;融合模块,用于根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;根据所述公共领域,确定各个所述待融合实体的关键比对属性;根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;根据所述公共领域,确定各个所述待融合实体的关键比对属性;根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。上述信息处理方法、装置、计算机可读存储介质和计算机设备,通过获取至少两个的待融合实体对应的实体描述信息;并根据至少两个的待融合实体对应的实体描述信息,确定至少两个的待融合实体之间的公共领域;然后,通过根据公共领域,确定各个待融合实体的关键比对属性;并根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合;如此,可以从待融合实体之间的公共领域的角度入手,准确地确定出少量在判断待融合实体是否为同一实体的过程中起到关键作用的实体属性,从而实现细粒度且针对性地对待融合实体进行实体对齐,减少判断待融合实体是否为同一实体过程中的数据计算量,进而提高了在构建知识图谱过程中的实体融合效率。附图说明图1为一个实施例中一种信息处理方法的应用环境图;图2为一个实施例中一种信息处理方法的流程示意图;图3为一个实施例中一种知识图谱的示意图;图4为一个实施例中一种融合后实体的示意图;图5为另一个实施例中一种信息处理方法的流程示意图;图6为一个实施例中另一种信息处理方法的流程示意图;图7为另一个实施例中另一种信息处理方法的流程示意图;图8为一个实施例中的一种领域关系定义的示意图;图9为一个实施例中一种知识图谱的信息处理方法的流程示意图;图10为一个实施例中一种信息处理装置的结构框图;图11为一个实施例中一种知识图谱的实体融合的流程示意图;图12为一个实施例中另一种知识图谱的实体融合的流程示意图;图13为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中一种信息处理方法的应用环境图。其中,服务器110首先获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;然后,服务器110根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;再然后,服务器110根据所述公共领域,确定各个所述待融合实体的关键比对属性;最后,服务器110根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合,得到融合后实体。如图2所示,在一个实施例中,提供了一种信息处理方法。本实施例主要以该方法应用于上述图1中的服务器110来举例说明。参照图2,该信息处理方法具体包括如下步骤:S202,获取至少两个的待融合实体对应的实体描述信息;实体描述信息用于描述对应的待融合实体的实体信息。其中,实体可以是指存储于知识图谱中的现实世界的事物,比如人、地名、概念、药物、公司等。例如,张三、上海、维生素C等等。其中,知识图谱可以是指用于可视化描述真实世界中存在的各种知识发展进程与结构关系的图形,为了便于本领域技术人员的理解,图3提供了在一个实施例中一种知识图谱的示意图。其中,待融合实体可以是指需要进行实体融合的实体。实际应用中,不同的待融合实体具有不同的数据源。例如,某一百科网页(如百度百科)中所描述的张三和某一电影影评网页(如豆瓣网)中所描述的张三。其中,实体描述信息用于描述对应的待融合实体的实体信息。例如,实体描述信息可以是某一百科网页中对的张三的人物简介和某一电影影评网页中对的张三的人物简介。具体实现中,服务器110获取至少两个的待本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,包括:/n获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;/n根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;/n根据所述公共领域,确定各个所述待融合实体的关键比对属性;/n根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:
获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;
根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;
根据所述公共领域,确定各个所述待融合实体的关键比对属性;
根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。


2.根据权利要求1所述的方法,其特征在于,当所述关键比对属性具有至少两个时,所述根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合,包括:
分别获取每个所述关键比对属性对应的属性权重;
根据各个所述关键比对属性对应的属性权重,对各个所述关键比对属性的属性相似度进行加权平均,得到各个所述待融合实体之间的实体相似度;
根据所述实体相似度,对各个所述待融合实体进行融合。


3.根据权利要求1所述的方法,其特征在于,所述根据所述公共领域,确定各个所述待融合实体的关键比对属性,包括:
获取至少两个的实体比对规则;
当所述至少两个的实体比对规则中存在与所述公共领域匹配的目标实体比对规则时,在所述目标实体比对规则中,确定所述关键比对属性。


4.根据权利要求3所述的方法,其特征在于,当所述至少两个的实体比对规则中不存在与所述公共领域匹配的目标实体比对规则时,还包括:
在所述至少两个的待融合实体对应的实体描述信息中,抽取所述至少两个的待融合实体之间的公共属性;
基于所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体的公共属性之间的属性相似度;
根据各个所述待融合实体的公共属性之间的属性相似度,对所述至少两个的待融合实体进行融合。


5.根据权利要求4所述的方法,其特征在于,所述在所述至少两个的待融合实体对应的实体描述信息中,抽取所述至少两个的待融合实体之间的公共属性,包括:
在所述至少两个的待融合实体对应的实体描述信息中,分别抽取每个所述待融合实体对应的属性;
在各个所述待融合实体对应的属性中,确定各个所述待融合实体之间的相同属性;所述相同属性为各个所述待融合实体共同归属的属性;
将各个所述待融合实体之间的相同属性,作为所述至少两个的待融合实体之间的公共属性。


6.根据权利要求1所述的方法,其特征在于,所述根据所述公共领域,确定各个所述待融合实体的关键比对属性的步骤之后,还包括:
基于所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体的关键比对属性对应的属性值;
获取与所述关键比对属性的属性类型对应的相似度算法;并通过所述相似度算法,计算各个所述待融合实体的关键比对属性对应的属性值之间的相似度,作为各个所述待融合实体的关键比对属性之间的属性相似度。


7.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域,包括:
根据所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体所归属的领域;
在各个所述待融合实体所归属的领域中,确...

【专利技术属性】
技术研发人员:荆宁张红林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1