基于领域知识的图编码自动生成方法及系统、电子设备技术方案

技术编号：27195146 阅读：23 留言：0更新日期：2021-01-31 11:47

本发明专利技术涉及一种基于领域知识的图编码自动生成方法及系统、电子设备，其中该方法包括步骤：对收集的业务数据进行预处理，得到由实体、关系、属性构成的三元组列表，并由三元组列表得到第一邻接矩阵和第一特征矩阵；将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表，输入预训练好的通用型图编码模型进行自动训练，得到所述业务数据的图编码矩阵；所述通用型图编码模型基于领域知识训练而得。本发明专利技术通过先基于领域大数据训练得到通用型图编码模型，当有新的业务数据时，再基于通用型图编码模型进行参数调整，即可得到适应该业务数据的图编码矩阵，不仅可以极大地提升图编码效率，而且得到的图编码矩阵具有更丰富的语义，解决语义稀疏问题。解决语义稀疏问题。解决语义稀疏问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于领域知识的图编码自动生成方法及系统、电子设备

[0001]本专利技术涉及知识图谱
，特别涉及一种基于领域知识的图编码自动生成方法及系统、电子设备。

技术介绍

[0002]知识图谱（Knowledge Graph），在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图编码是图计算、图分析、图挖掘的前置步骤。目前，在工程应用领域，图编码的构建都是基于当前业务数据进行，这意味着每当业务数据发生变化时，都需要重新建立图编码模型，进行模型的训练、模型的验证、模型的测试，才能得到适应新业务数据的图编码模型，也就是每次有任务需求都需要根据该业务数据进行图编码建模，效率极其低下，无法快速地、敏捷地响应业务场景中，基于图数据进行信息挖掘、信息预测等要求。另外，图编码仅基于当前业务数据进行构建，也存在图编码语义稀疏性问题，导致基于图表面的图计算可能不够准确。

技术实现思路

[0003]本专利技术的目的在于改善现有技术中所存在的图编码效率低下、语义稀疏的不足，提供一种基于领域知识的图编码自动生成方法及系统、电子设备，以提升图编码的效率，并丰富图编码的语义信息。
[0004]为了实现上述专利技术目的，本专利技术实施例提供了以下技术方案：一方面，本专利技术实施例提供了一种基于领域知识的图编码自动生成方法，包括步骤：对收集的业务数据进行预处理，得到由实体、关系、属性构成的三元...

【技术保护点】

【技术特征摘要】
1.一种基于领域知识的图编码自动生成方法，其特征在于，包括步骤：对收集的业务数据进行预处理，得到由实体、关系、属性构成的三元组列表，并由三元组列表得到第一邻接矩阵和第一特征矩阵；将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表，输入预训练好的通用型图编码模型进行自动训练，得到所述业务数据的图编码矩阵；所述通用型图编码模型基于领域知识训练而得。2.根据权利要求1所述的基于领域知识的图编码自动生成方法，其特征在于，所述对收集的业务数据进行预处理，得到由实体、关系、属性构成的三元组列表的步骤，包括：基于领域的数据标准，将收集的业务数据处理为标准化数据；对所述标准化数据进行实体抽取、属性抽取、关系抽取，并建立<实体，关系，实体>的三元组列表和<实体，关系，属性>的三元组列表。3.根据权利要求2所述的基于领域知识的图编码自动生成方法，其特征在于，所述对所述标准化数据进行实体抽取、属性抽取、关系抽取，并建立<实体，关系，实体>的三元组列表和<实体，关系，属性>的三元组列表的步骤，包括：对所述标准化数据进行实体抽取、属性抽取、关系抽取，得到实体、关系、实体属性；依据实体间属性的重合度和实体名称相似度，进行实体-属性的融合，依据关系名称的相似度和关系链接实体名称的相似度，进行实体间关系的融合，得到<实体，关系，实体>，以及<实体，关系，属性>的三元组列表。4.根据权利要求1所述的基于领域知识的图编码自动生成方法，其特征在于，所述由三元组列表得到第一邻接矩阵和第一特征矩阵的步骤，包括：将所述三元组列表转化为图，实体对应于图中的节点，属性对应于节点的特征，关系对应于图中的边，并利用word2vec算法，得到所述第一邻接矩阵以及第一特征矩阵。5.根据权利要求1所述的基于领域知识的图编码自动生成方法，其特征在于，所述通用型图编码模型经过以下步骤训练得到：收集领域内的大数据；对收集的大数据进行预处理，得到由实体、关系、属性构成的三元组列表，并由三元组列表得到第二邻接矩阵和第二特征矩阵；将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练，得到所述通用型图编码模型。6.根据权利要求5所述的基于领域知识的图编码自动生成方法，其特征在于，所述图编码模型为基于注意力机制的GCNs模型。7.根据权利要求5所述的基于领域知识的图编码自动生成方法，其特征在于，所述领域内的大数据包括结构化数据、半结构化数据和非结构化数据。8.一种基于领域知识的图编码自动生成系统，其特征在于，包括：通用模型训练系统，用于基于领域内大数据，训练得到通用型图编码模型；业务应用系统，其数据输...

【专利技术属性】
技术研发人员：姚苗，查琳，冶莎，张晨，周智海，王芳杰，覃晨，黄庆娇，王振宇，陈刚，何青松，向波，杨志勤，邢尚合，周凡吟，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人