一种复杂版面图文识别学科类知识图谱嵌入学习方法技术

技术编号:37347586 阅读:8 留言:0更新日期:2023-04-22 21:43
本发明专利技术公开了一种复杂版面图文识别学科类知识图谱嵌入学习方法,属于人工智能技术领域,包括以下步骤:S1、构建知识图谱嵌入学习模型,创建图谱单元并通过三元组存储;S2、整理知识图谱数据流整理成为大规模三元组;S3、对关系r之间存在的超关系对应的进行算法设计,并对算法学习的参数进行统计;S4、进行模型学习和训练,并对训练之后的模型进行验证;S5、知识图谱嵌入学习模型进行神经网络训练,在模型收敛后对过拟合进行验证,该复杂版面图文识别学科类知识图谱嵌入方法,提升了图嵌入算法的表征学习质量,解决了独热编码和随机游走等方法本身造成的内在限制,使得图嵌入对于各类的图元素之间的关系类型可以有效的差异化学习。元素之间的关系类型可以有效的差异化学习。元素之间的关系类型可以有效的差异化学习。

【技术实现步骤摘要】
一种复杂版面图文识别学科类知识图谱嵌入学习方法


[0001]本专利技术属于人工智能
,具体涉及复杂版面图文识别学科类知识图谱嵌入方法。

技术介绍

[0002]现有教育复杂版面图文识别知识图谱在构建后需要进行有效的图嵌入学习来完成初步表征学习(representation learning),更好的表征学习可以有效提升下游算法例如推荐算法,分类算法的表现。通常初步图嵌入学习使用独热编码(one

hot representation)或随机游走算法,由于算法本身的限制,没有考虑到对于不同关系r之间可能存在的反演对称性,组合对称性等性质,表征学习会造成信息瓶颈效应,使得下游算法表现不佳;
[0003]因此,需要研发一种新的知识图谱嵌入方法来解决现有的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种复杂版面图文识别学科类知识图谱嵌入方法,以解决表征学习造成信息瓶颈效应,使得下游算法表现不佳的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种复杂版面图文识别学科类知识图谱嵌入学习方法,包括以下步骤:
[0006]S1、构建知识图谱嵌入学习模型,创建图谱单元并通过三元组存储;所述图谱单元包括:知识点kp和关系r;
[0007]S2、整理知识图谱数据流整理成为大规模三元组,整合后的知识图谱嵌入学习模型包括复杂的层级和相互关联的关系;
[0008]S3、对关系r之间存在的超关系对应的进行算法设计,并对算法学习的参数进行统计;
[0009]S4、通过GPU硬件对知识图谱嵌入学习模型进行模型学习和训练,并对训练之后的模型进行验证;
[0010]S5、知识图谱嵌入学习模型进行神经网络训练,在模型收敛后对过拟合进行验证,如果验证通过则图谱嵌入学习完成,同时对下游接口设定嵌入表征存取接口需求,并发和功耗需求,完成下游接口开发。
[0011]优选的,所述步骤S1中,并通过神经网络对知识点kp和关系r进行分别表征,所述知识点kp包括头知识点kp1、尾知识点kp2,其中,关系r定义为从头知识点到尾知识点的运算参数。
[0012]优选的,所述步骤S3中,使用三维特殊正交群对知识点kp和关系r进行参数化和运算,所述统计包括总体知识点数量、关系类型数量、嵌入维度参数。
[0013]优选的,所述知识点kp使用n个三维坐标参数(xi,yi,zi);关系r使用欧拉角参数(φi,θi,ψi),n是超参数,所述知识点kp和关系r的运算转化为通过群运算约束的向量运
算。
[0014]优选的,所述向量运算,使关系r满足对角矩阵运算,其中Mi是3x3的块矩阵:
[0015]优选的,所述步骤S5中,所述下游接口包括向量读写接口、支持高并发批量读取和对于低功耗需求端设备运行的压缩支持接口。
[0016]优选的,所述关系r为导数的应用和极值。
[0017]优选的,所述关系r为知识点kp在知识树不同节点之间的相互关联关系,包括二次函数的性质和三次函数的性质。
[0018]优选的,所述步骤S4中,所述验证包括但不限于三元组补全验证、下游分类模型验证。
[0019]本专利技术的技术效果和优点:该复杂版面图文识别学科类知识图谱嵌入方法,提升了图嵌入算法的表征学习质量,解决了独热编码和随机游走等方法本身造成的内在限制,使得图嵌入对于各类的图元素之间的关系类型可以有效的差异化学习;同时,对于图嵌入的学习效率进行有效提升,使得在同样的训练集上可以取得更好的学习效果,并且提升下游算法的表现,另外提高嵌入表征学习的质量让知识图谱嵌入学习在使用该表征进行分类或实体拾取目标模型上提高准确度。
附图说明
[0020]图1为本专利技术的流程图;
[0021]图2为本专利技术Mi的块矩阵图;
[0022]图3为本专利技术的向量运算公式。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]本专利技术提供了如图1

3中所示的一种复杂版面图文识别学科类知识图谱嵌入学习方法,包括以下步骤:
[0025]S1、构建知识图谱嵌入学习模型,创建图谱单元并通过三元组存储;所述图谱单元包括:知识点kp和关系r;所述步骤S1中,并通过神经网络对知识点kp和关系r进行分别表征,所述知识点kp包括头知识点kp1、尾知识点kp2,其中,关系r定义为从头知识点到尾知识点的运算参数。本实施例中,关系r为导数的应用和极值,或者关系r为知识点kp在知识树不同节点之间的相互关联关系,包括二次函数的性质和三次函数的性质;
[0026]通过特定学科的学科专家构建知识图谱,图谱单元通过三元组(triplet)存储,即(kp1,r,kp2);kp1和kp2代表头知识点(Head KnowledgePoint)和尾知识点(Tail KnowledgePoint),r代表两者的关系,通过学科专家整理验证,整理成为涵盖整体学科的大规模三元组,并进行知识图谱可视化模块开发,可视化模块用来验证并整合不同知识点之间的相互关系;
[0027]S2、整理知识图谱数据流整理成为大规模三元组,整合后的知识图谱嵌入学习模
型包括复杂的层级和相互关联的关系;
[0028]S3、对关系r之间存在的超关系对应的进行算法设计,并对算法学习的参数进行统计;所述步骤S3中,使用三维特殊正交群对知识点kp和关系r进行参数化和运算,一些模型比如随机游走(Random Walk),平移群嵌入算法(TransE)等,由于算法本身的运算没有考虑到对于不同关系r之间可能存在的反演对称性,组合对称性等性质,通过该类算法进行嵌入学习会存在信息丢失或造成神经网络收敛困难,所述统计包括总体知识点数量、关系类型数量、嵌入维度参数。所述知识点kp使用n个三维坐标参数(xi,yi,zi);关系r使用欧拉角参数(φi,θi,ψi),n是超参数,所述知识点kp和关系r的运算转化为通过群运算约束的向量运算。所述向量运算,使关系r满足对角矩阵运算,其中Mi是3x3的块矩阵。
[0029]S4、通过GPU硬件对知识图谱嵌入学习模型进行模型学习和训练,并对训练之后的模型进行验证;所述步骤S4中,所述验证包括但不限于三元组补全验证、下游分类模型验证。
[0030]S5、知识图谱嵌入学习模型进行神经网络训练,在模型收敛后对过拟合进行验证,如果验证通过则图谱嵌入学习完成,同时对下游接口设定嵌入表征存取接口需求,并发和功耗需求,完成下游接口开发;下游接口包括向量读写接口、支持高并发批量读取和对于低功耗需求端设备运行的压缩支持接口;在下游算法中会使用到相应的表征,例如下游学情分析的推荐算法会使用到知识点kp的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:包括以下步骤:S1、构建知识图谱嵌入学习模型,创建图谱单元并通过三元组存储;所述图谱单元包括:知识点kp和关系r;S2、整理知识图谱数据流整理成为大规模三元组,整合后的知识图谱嵌入学习模型包括复杂的层级和相互关联的关系;S3、对关系r之间存在的超关系对应的进行算法设计,并对算法学习的参数进行统计;S4、通过GPU硬件对知识图谱嵌入学习模型进行模型学习和训练,并对训练之后的模型进行验证;S5、知识图谱嵌入学习模型进行神经网络训练,在模型收敛后对过拟合进行验证,如果验证通过则图谱嵌入学习完成,同时对下游接口设定嵌入表征存取接口需求,并发和功耗需求,完成下游接口开发。2.根据权利要求1所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述步骤S1中,并通过神经网络对知识点kp和关系r进行分别表征,所述知识点kp包括头知识点kp1、尾知识点kp2,其中,关系r定义为从头知识点到尾知识点的运算参数。3.根据权利要求1所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述步骤S3中,使用三维特殊正交群对知识点kp和关系r进行参数化和运算,所述统计包括总体知识点数量、关系类型数...

【专利技术属性】
技术研发人员:余海涛沙龙洪鹏宇
申请(专利权)人:蓝舰信息科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1