一种面向影视的多层次知识图谱生成方法技术

技术编号：28623345 阅读：43 留言：0更新日期：2021-05-28 16:19

本公开提供了一种面向影视的多层次知识图谱生成方法，获取待处理的影视相关的不同层面的信息数据；对获取的信息数据进行关系抽取得到三元组数据，根据三元组数据构建多个单层次知识图谱；利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入；结合结构嵌入和属性嵌入的结果进行实体对齐，将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向影视的多层次知识图谱生成方法
本公开涉及数据挖掘和智能信息处理
，特别涉及一种面向影视的多层次知识图谱生成方法。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
，并不必然构成现有技术。影视领域存在着数据来源多、数量海量、数据形式多样、数据结构复杂的问题，不同影视知识图谱之间存储了不同的知识，这些知识存在许多重复，也可以互相补充，因此有研究人员提出可以整合各个知识图谱，形成多层次知识图谱。要想形成多层次知识图谱，一个基本问题就是对齐那些存在于不同影视知识图谱中但表示相同含义的实体知识。对齐方法主要分为两部分：传统的对齐方法和基于嵌入的对齐方法。前者主要是利用有监督的机器学习模型，通过属性相似度匹配的方式来对齐实体。后者主要基于表示学习的方法，具体来说，通过将影视知识图谱的实体和关系映射都到低维向量空间，然后计算实体之间的相似度，从而进行计算和推理。这些方法大多只关注如何以更好的方式对关系三元组进行编码，而忽略了那些属性三元组；尤其是对于缺乏关系的实体来说，如果仅仅利用关系三元组对齐实体，得到的知识图谱的全面性和准确度均较差。
技术实现思路
为了解决现有技术的不足，本公开提供了一种面向影视的多层次知识图谱生成方法，同时根据单层次的电影知识图谱中存在的关系三元组和属性三元组，分别从结构和属性的角度来进行对齐，最终形成多层次知识图谱。为了实现上述目的，本公开采用如下技术方案：本公开第一方面提供了一种面向影视的多层次知识图谱生成方法。一种面向影...

【技术保护点】
1.一种面向影视的多层次知识图谱生成方法，其特征在于：包括以下步骤：/n获取待处理的影视相关的不同层面的信息数据；/n对获取的信息数据进行关系抽取得到三元组数据，根据三元组数据构建多个单层次知识图谱；/n利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入；/n结合结构嵌入和属性嵌入的结果进行实体对齐，将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。/n

【技术特征摘要】
1.一种面向影视的多层次知识图谱生成方法，其特征在于：包括以下步骤：
获取待处理的影视相关的不同层面的信息数据；
对获取的信息数据进行关系抽取得到三元组数据，根据三元组数据构建多个单层次知识图谱；
利用三元组数据中的关系三元组数据和属性三元组数据进行结构和属性的嵌入；
结合结构嵌入和属性嵌入的结果进行实体对齐，将实体对齐之后的多个单层次知识图谱整合得到多层次知识图谱。

2.如权利要求1所述的面向影视的多层次知识图谱生成方法，其特征在于：
信息数据包括文本、数据和表格，文本使用依存句法分析和HanLP抽取三元组，数据和表格通过皮尔逊相关系数法抽取三元组。

3.如权利要求1所述的面向影视的多层次知识图谱生成方法，其特征在于：
对获取的信息数据进行多元数据融合，进行数据真实性的判定，包括以下步骤：
以各个层面的实体关键字为依据将不同来源的数据进行分块聚合，作为候选匹配知识；
将同一分块中的候选匹配知识，利用多源数据融合系数与原有知识库的知识进行匹配，若多源数据融合系数大于设定的阈值，则认为候选匹配知识为正确的知识，可以添加到知识库中，否则，不能添加。

4.如权利要求1所述的面向影视的多层次知识图谱生成方法，其特征在于：
采用统一命名方法通过谓词相似度对单层次知识图谱中的三元组进行合并，使实体和关系嵌入到同一向量空间；
在向量空间内，分别利用关系三元组和属性三元组进行结构和属性对齐；
将对齐之后的单层次知识图谱整合成一个统一的多层次知识图谱。

5.如权利要求1所述的面向影视的多层次知识图谱生成方法，其特征在于：
基于TransE关系三元组进行结构嵌入，包括：结合谓词对齐的三元组，利用关系三元组和训练集进行结构嵌...

【专利技术属性】
技术研发人员：孙涛，翟娇娇，赵晶，王新刚，
申请(专利权)人：齐鲁工业大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人