基于领域知识的图编码自动生成方法及系统、电子设备技术方案

技术编号:27195146 阅读:23 留言:0更新日期:2021-01-31 11:47
本发明专利技术涉及一种基于领域知识的图编码自动生成方法及系统、电子设备,其中该方法包括步骤:对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入预训练好的通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵;所述通用型图编码模型基于领域知识训练而得。本发明专利技术通过先基于领域大数据训练得到通用型图编码模型,当有新的业务数据时,再基于通用型图编码模型进行参数调整,即可得到适应该业务数据的图编码矩阵,不仅可以极大地提升图编码效率,而且得到的图编码矩阵具有更丰富的语义,解决语义稀疏问题。解决语义稀疏问题。解决语义稀疏问题。

【技术实现步骤摘要】
基于领域知识的图编码自动生成方法及系统、电子设备


[0001]本专利技术涉及知识图谱
,特别涉及一种基于领域知识的图编码自动生成方法及系统、电子设备。

技术介绍

[0002]知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图编码是图计算、图分析、图挖掘的前置步骤。目前,在工程应用领域,图编码的构建都是基于当前业务数据进行,这意味着每当业务数据发生变化时,都需要重新建立图编码模型,进行模型的训练、模型的验证、模型的测试,才能得到适应新业务数据的图编码模型,也就是每次有任务需求都需要根据该业务数据进行图编码建模,效率极其低下,无法快速地、敏捷地响应业务场景中,基于图数据进行信息挖掘、信息预测等要求。另外,图编码仅基于当前业务数据进行构建,也存在图编码语义稀疏性问题,导致基于图表面的图计算可能不够准确。

技术实现思路

[0003]本专利技术的目的在于改善现有技术中所存在的图编码效率低下、语义稀疏的不足,提供一种基于领域知识的图编码自动生成方法及系统、电子设备,以提升图编码的效率,并丰富图编码的语义信息。
[0004]为了实现上述专利技术目的,本专利技术实施例提供了以下技术方案:一方面,本专利技术实施例提供了一种基于领域知识的图编码自动生成方法,包括步骤:对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入预训练好的通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵;所述通用型图编码模型基于领域知识训练而得。
[0005]上述方案中,收集到新业务数据后,并不是像传统方法那样基于该新业务数据重新训练得到对应的图编码矩阵,而是将该业务数据预处理后输入已经训练好的通用型图编码模型,在该通用型图编码模型的基础上进行参数微调,即可快速得到图编码矩阵,参数微调与重新训练、验证相比,可以极大地节省时间,因此本方法可以大大提升图编码的处理效率。另外,由于通用型图编码模型是基于领域内大数据训练得到的,相比于仅基于单一应用的业务数据,数据更全面,可获得的语义更丰富,因此可以解决目前图编码存在的语义稀疏问题。
[0006]所述对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表的步骤,包括:基于领域的数据标准,将收集的业务数据处理为标准化数据;对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关
系,属性>的三元组列表。
[0007]上述方案中,先将数据进行标准化处理,然后再提取实体、关系、属性,建立三元组列表,标准化处理后方便于快速提取所需信息,因此本方案可以提升信息提取效率,同时也能保障信息提取准确。
[0008]所述对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表的步骤,包括:对所述标准化数据进行实体抽取、属性抽取、关系抽取,得到实体、关系、实体属性;依据实体间属性的重合度和实体名称相似度,进行实体-属性的融合,依据关系名称的相似度和关系链接实体名称的相似度,进行实体间关系的融合,得到<实体,关系,实体>,以及<实体,关系,属性>的三元组列表。
[0009]上述方案中,基于相似度进行实体-属性的融合以及实体间关系的融合,可以保障三元组列表的准确性。
[0010]所述由三元组列表得到第一邻接矩阵和第一特征矩阵的步骤,包括:将所述三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,并利用word2vec算法,得到所述第一邻接矩阵以及第一特征矩阵。
[0011]所述通用型图编码模型经过以下步骤训练得到:收集领域内的大数据;对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,得到所述通用型图编码模型。
[0012]所述图编码模型为基于注意力机制的GCNs模型。
[0013]所述领域内的大数据包括结构化数据、半结构化数据和非结构化数据。
[0014]另一方面,本专利技术实施例提供了一种基于领域知识的图编码自动生成系统,包括:通用模型训练系统,用于基于领域内大数据,训练得到通用型图编码模型;业务应用系统,其数据输入端与所述通用模型训练系统的数据输出端连接,用于接收通用模型训练系统输出的所述通用型图编码模型,并将收集的业务数据预处理后,与设定的微调参数列表一起输入所述通用型图编码模型,输出得到所述业务数据的图编码矩阵。
[0015]所述通用模型训练系统包括第一数据收集单元、第一预处理单元和第一训练单元,其中,第一数据收集单元用于收集领域内的大数据;第一预处理单元的数据输入端连接第一数据收集单元的数据输出端,第一预处理单元用于对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;第一训练单元的数据输入端连接第一预处理单元的数据输出端,第一训练单元用于将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,得到所述通用型图编码模型。
[0016]第一预处理单元在构建三元组列表时,先基于领域的数据标准,将收集的大数据处理为标准化数据,然后对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表。
[0017]第一预处理单元在由三元组列表得到第二邻接矩阵和第二特征矩阵时,先将所述三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,然后利用word2vec算法,得到所述第二邻接矩阵以及第二特征矩阵。
[0018]第一训练单元具体用于将所述第二邻接矩阵和第二特征矩阵,输入基于注意力机制的GCNs模型进行训练,得到所述通用型图编码模型。
[0019]所述业务应用系统包括第二数据收集单元、第二预处理单元和第二训练单元,其中,第二数据收集单元用于收集业务数据;第二预处理单元的数据输入端连接第二数据收集单元的数据输出端,第二预处理单元用于对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;第二训练单元的数据输入端连接第二预处理单元的数据输出端、第一训练单元的数据输出端,第二训练单元用于将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入通用型图编码模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于领域知识的图编码自动生成方法,其特征在于,包括步骤:对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第一邻接矩阵和第一特征矩阵;将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入预训练好的通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵;所述通用型图编码模型基于领域知识训练而得。2.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表的步骤,包括:基于领域的数据标准,将收集的业务数据处理为标准化数据;对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表。3.根据权利要求2所述的基于领域知识的图编码自动生成方法,其特征在于,所述对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立<实体,关系,实体>的三元组列表和<实体,关系,属性>的三元组列表的步骤,包括:对所述标准化数据进行实体抽取、属性抽取、关系抽取,得到实体、关系、实体属性;依据实体间属性的重合度和实体名称相似度,进行实体-属性的融合,依据关系名称的相似度和关系链接实体名称的相似度,进行实体间关系的融合,得到<实体,关系,实体>,以及<实体,关系,属性>的三元组列表。4.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述由三元组列表得到第一邻接矩阵和第一特征矩阵的步骤,包括:将所述三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,并利用word2vec算法,得到所述第一邻接矩阵以及第一特征矩阵。5.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述通用型图编码模型经过以下步骤训练得到:收集领域内的大数据;对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,得到所述通用型图编码模型。6.根据权利要求5所述的基于领域知识的图编码自动生成方法,其特征在于,所述图编码模型为基于注意力机制的GCNs模型。7.根据权利要求5所述的基于领域知识的图编码自动生成方法,其特征在于,所述领域内的大数据包括结构化数据、半结构化数据和非结构化数据。8.一种基于领域知识的图编码自动生成系统,其特征在于,包括:通用模型训练系统,用于基于领域内大数据,训练得到通用型图编码模型;业务应用系统,其数据输...

【专利技术属性】
技术研发人员:姚苗查琳冶莎张晨周智海王芳杰覃晨黄庆娇王振宇陈刚何青松向波杨志勤邢尚合周凡吟
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1