一种面向影视的多层次知识图谱生成方法技术

技术编号:28623345 阅读:43 留言:0更新日期:2021-05-28 16:19
本公开提供了一种面向影视的多层次知识图谱生成方法,获取待处理的影视相关的不同层面的信息数据;对获取的信息数据进行关系抽取得到三元组数据,根据三元组数据构建多个单层次知识图谱;利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入;结合结构嵌入和属性嵌入的结果进行实体对齐,将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。

【技术实现步骤摘要】
一种面向影视的多层次知识图谱生成方法
本公开涉及数据挖掘和智能信息处理
,特别涉及一种面向影视的多层次知识图谱生成方法。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
,并不必然构成现有技术。影视领域存在着数据来源多、数量海量、数据形式多样、数据结构复杂的问题,不同影视知识图谱之间存储了不同的知识,这些知识存在许多重复,也可以互相补充,因此有研究人员提出可以整合各个知识图谱,形成多层次知识图谱。要想形成多层次知识图谱,一个基本问题就是对齐那些存在于不同影视知识图谱中但表示相同含义的实体知识。对齐方法主要分为两部分:传统的对齐方法和基于嵌入的对齐方法。前者主要是利用有监督的机器学习模型,通过属性相似度匹配的方式来对齐实体。后者主要基于表示学习的方法,具体来说,通过将影视知识图谱的实体和关系映射都到低维向量空间,然后计算实体之间的相似度,从而进行计算和推理。这些方法大多只关注如何以更好的方式对关系三元组进行编码,而忽略了那些属性三元组;尤其是对于缺乏关系的实体来说,如果仅仅利用关系三元组对齐实体,得到的知识图谱的全面性和准确度均较差。
技术实现思路
为了解决现有技术的不足,本公开提供了一种面向影视的多层次知识图谱生成方法,同时根据单层次的电影知识图谱中存在的关系三元组和属性三元组,分别从结构和属性的角度来进行对齐,最终形成多层次知识图谱。为了实现上述目的,本公开采用如下技术方案:本公开第一方面提供了一种面向影视的多层次知识图谱生成方法。一种面向影视的多层次知识图谱生成方法,包括以下步骤:获取待处理的影视相关的不同层面的信息数据;对获取的信息数据进行关系抽取得到三元组数据,根据三元组数据构建多个单层次知识图谱;利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入;结合结构嵌入和属性嵌入的结果进行实体对齐,将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。本公开第二方面提供了一种面向影视的多层次知识图谱生成系统。一种面向影视的多层次知识图谱生成系统:包括:数据获取模块,被配置为:获取待处理的影视相关的不同层面的信息数据;关系抽取模块,被配置为:对获取的信息数据进行关系抽取得到三元组数据,根据三元组数据构建多个单层次知识图谱;嵌入模块,被配置为:利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入;知识图谱整合模块,被配置为:结合结构嵌入和属性嵌入的结果进行实体对齐,将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。本公开第三方面提供了一种基于多层次知识图谱的影视查询方法。一种基于多层次知识图谱的影视查询方法,包括以下步骤:获取待查询文本;对待查询文本进行解析,获取解析结果;根据解析结果和利用本公开第一方面所述的生成方法构建的多层次知识图谱进行电影信息数据查询,获取查询结果。进一步的,对电影查询结果进行显示。本公开第四方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的面向影视的多层次知识图谱生成方法中的步骤。本公开第五方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的面向影视的多层次知识图谱生成方法中的步骤。与现有技术相比,本公开的有益效果是:1、本公开所述的生成方法、系统、介质或电子设备,同时根据单层次的电影知识图谱中存在的关系三元组和属性三元组,分别从结构和属性的角度来进行对齐,最终形成多层次知识图谱,克服了以往多层次知识图谱的结构缺陷和关系缺陷,保证了生成的多层次知识图谱的全面性和准确性。2、本公开所述的基于多层次知识图谱的影视查询方法,结合构建的全面和准确的多层次知识图谱,能够实现相关影视信息数据的快速查询,提高了查询的准确度。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。图1为本公开实施例1提供的面向影视的多层次知识图谱生成方法的流程示意图。图2为本公开实施例1提供的多层次知识图谱结构的示意图。图3为本公开实施例1提供的基于Pseudo-SiameseNeuralNetwork的属性值和属性类型嵌入过程示意图。具体实施方式下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。实施例1:如图1所示,本公开实施例1提供了一种面向影视的多层次知识图谱生成方法,包括以下步骤:获取待处理的影视相关的不同层面的信息数据;对获取的信息数据进行关系抽取得到三元组数据,根据三元组数据构建多个单层次知识图谱;利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入;结合结构嵌入和属性嵌入的结果进行实体对齐,将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。具体的,包括以下内容:S1:首先构建单层次知识图谱S1.1:首先先分析电影知识的不同层次、比如说电影类型有悬疑片、恐怖片、爱情片,武侠片,文艺片等;电影流派有超现实主义电影流派、极简主义流派等;电影技术上分为黑白电影,普通彩色电影,3D电影等,电影演员也分别来自世界上的不同国家地区,在此阶段根据不同层面获取数据。S1.2:根据获取到的数据的不同特性进行关系抽取,这里我们获取的数据只要有三类:文本、数据、表格。文本使用依存句法分析和HanLP抽取三元组,数据、表格通过皮尔逊相关系数法发现实体之间中高度相关关系抽取三元组。三元组形式为<h,r,t>其中h为头实体,t为尾实体,r为两实体之间的关系。S1.3:将抽取的三元组分别构建单层次知识图谱。S2.1:多源数据融合知识是在不断更新的,为了判断这些新增的知识是否真实可信,我们需要将收集到的信息利用多源数据融合模型进行融合,只有判定这些数据真实可信才可以将其加入到知识图谱中。多源数据融合模型工作过程如下:(1)数据分块:在关系抽取阶段,是以实体关键字为中心来进行知识抽取的。因此,以各个层面的实体关键字为依据将不同来源的数本文档来自技高网
...

【技术保护点】
1.一种面向影视的多层次知识图谱生成方法,其特征在于:包括以下步骤:/n获取待处理的影视相关的不同层面的信息数据;/n对获取的信息数据进行关系抽取得到三元组数据,根据三元组数据构建多个单层次知识图谱;/n利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入;/n结合结构嵌入和属性嵌入的结果进行实体对齐,将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。/n

【技术特征摘要】
1.一种面向影视的多层次知识图谱生成方法,其特征在于:包括以下步骤:
获取待处理的影视相关的不同层面的信息数据;
对获取的信息数据进行关系抽取得到三元组数据,根据三元组数据构建多个单层次知识图谱;
利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入;
结合结构嵌入和属性嵌入的结果进行实体对齐,将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。


2.如权利要求1所述的面向影视的多层次知识图谱生成方法,其特征在于:
信息数据包括文本、数据和表格,文本使用依存句法分析和HanLP抽取三元组,数据和表格通过皮尔逊相关系数法抽取三元组。


3.如权利要求1所述的面向影视的多层次知识图谱生成方法,其特征在于:
对获取的信息数据进行多元数据融合,进行数据真实性的判定,包括以下步骤:
以各个层面的实体关键字为依据将不同来源的数据进行分块聚合,作为候选匹配知识;
将同一分块中的候选匹配知识,利用多源数据融合系数与原有知识库的知识进行匹配,若多源数据融合系数大于设定的阈值,则认为候选匹配知识为正确的知识,可以添加到知识库中,否则,不能添加。


4.如权利要求1所述的面向影视的多层次知识图谱生成方法,其特征在于:
采用统一命名方法通过谓词相似度对单层次知识图谱中的三元组进行合并,使实体和关系嵌入到同一向量空间;
在向量空间内,分别利用关系三元组和属性三元组进行结构和属性对齐;
将对齐之后的单层次知识图谱整合成一个统一的多层次知识图谱。


5.如权利要求1所述的面向影视的多层次知识图谱生成方法,其特征在于:
基于TransE关系三元组进行结构嵌入,包括:结合谓词对齐的三元组,利用关系三元组和训练集进行结构嵌...

【专利技术属性】
技术研发人员:孙涛翟娇娇赵晶王新刚
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1