当前位置: 首页 > 专利查询>启元实验室专利>正文

知识表示模型训练及知识表示方法、装置及设备和介质制造方法及图纸

技术编号:39004115 阅读:10 留言:0更新日期:2023-10-07 10:35
本发明专利技术提供知识表示模型训练及知识表示方法、装置及设备和介质,包括:获取初始知识表示模型及训练数据集;将训练数据集输入初始知识表示模型,得到第一预测结果及第一预测结果对应的标签向量;将第一预测结果输入初始知识表示模型,得到第二预测结果;基于第一预测结果及其对应的标签向量以及第二预测结果,计算得到损失函数值;基于损失函数值,对初始知识表示模型进行更新,并返回将训练数据集输入初始知识表示模型,得到第一预测结果及第一预测结果对应的标签向量的步骤,直至损失函数值满足预设损失函数值要求,得到目标知识表示模型。在不引入复杂的老师模型的前提下实现知识蒸馏,减少计算资源消耗和运存占用。减少计算资源消耗和运存占用。减少计算资源消耗和运存占用。

【技术实现步骤摘要】
知识表示模型训练及知识表示方法、装置及设备和介质


[0001]本专利技术涉及人工智能领域,具体涉及知识表示模型训练及知识表示方法、装置及设备和介质。

技术介绍

[0002]知识图谱是人工智能的重要分支技术,是结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。人工或者半自动构建的知识图谱大多是不完整的、稀疏的,存在很多没有被挖掘出来的隐含信息。知识表示模型能够挖掘知识图谱中的隐含信息,其关键思想是学习知识库中的实体和关系的向量化表示,将实体和关系转化到连续的向量空间中,同时保留知识图谱中的结构信息。这些实体和关系的向量化表示能进一步应用于各种任务中。
[0003]相关技术中,知识表示模型会通过增加实体和关系向量化的维度来获得更好的模型表现,但是随着维度的提高,模型的参数量也会提高,同时增加了训练时间,模型的性能提升越来越不明显,模型训练的资源消耗水涨船高,提升性能所带来的代价也越来越大。

技术实现思路

[0004]因此,本专利技术要解决的技术问题在于克服现有技术中的知识表示模型训练资源消耗过高的缺陷,从而提供知识表示模型训练及知识表示方法、装置及设备和介质。
[0005]结合第一方面,本专利技术提供一种知识表示模型训练方法,所述方法包括:
[0006]获取初始知识表示模型及训练数据集,所述训练数据集包括:若干三元组样本;
[0007]将所述训练数据集输入所述初始知识表示模型,得到第一预测结果及第一预测结果对应的标签向量,所述标签向量用于表征第一预测结果中训练数据集中每个三元组样本对应预测结果的有效性,所述预测结果包括正确的三元组数据集,正确的三元组的得分及排名;
[0008]将所述第一预测结果输入所述初始知识表示模型,得到第二预测结果;
[0009]基于所述第一预测结果及其对应的标签向量以及所述第二预测结果,计算得到损失函数值;
[0010]基于所述损失函数值,对所述初始知识表示模型进行更新,并返回将所述训练数据集输入所述初始知识表示模型,得到第一预测结果及第一预测结果对应的标签向量的步骤,直至所述损失函数值满足预设损失函数值要求,得到目标知识表示模型。
[0011]在该方式中,通过利用上一次模型训练迭代过程中的预测数据,来指导本次迭代中知识表示模型的训练,针对以往的方法中对计算资源和运行内存的大量消耗,引入了自蒸馏到知识表示模型中,在不引入复杂的老师模型的前提下也能实现知识蒸馏的效果,由于在不改变原模型网络结构的情况下,模型参数量不会增加,从而减少计算资源消耗和运行内存占用,实现模型轻量化。与此同时,通过基于两次迭代中预测结果得到损失函数值对
模型进行训练,还可以在实现模型轻量化的同时保持模型性能。
[0012]结合第一方面,在第一方面的第一实施例中,所述基于所述第一预测结果及其对应的标签向量以及所述第二预测结果,计算得到损失函数值,包括:
[0013]基于所述第一预测结果及其对应的标签向量,计算得到第一损失;
[0014]基于所述第一预测结果及所述第二预测结果,计算得到第二损失;
[0015]基于所述第一损失及所述第二损失,计算得到损失函数值。
[0016]结合第一方面的第一实施例,在第一方面的第二实施例中,所述基于所述第一预测结果及其对应的标签向量,计算得到第一损失,包括:
[0017]设置第一蒸馏温度为1,基于所述第一蒸馏温度,对所述第一预测结果及其对应的标签向量进行交叉熵计算,得到所述第一损失;
[0018]所述第一损失的计算公式如下:
[0019][0020][0021]其中,为所述第一预测结果,y
i
为所述第一预测结果对应的标签向量,L
Hard
为所述第一损失,τ为所述第一蒸馏温度。
[0022]结合第一方面的第一实施例,在第一方面的第三实施例中,所述基于所述第一预测结果及所述第二预测结果,计算得到第二损失,包括:
[0023]设置第二蒸馏温度为大于1的正整数,基于所述第二蒸馏温度,对所述第一预测结果及所述第二预测结果进行相对熵计算,得到第二损失;
[0024]所述第二损失的计算公式如下:
[0025][0026]其中,为所述第一预测结果,为所述第二预测结果,L
Soft
为所述第二损失,τ为所述第二蒸馏温度。
[0027]结合第一方面的第一实施例,在第一方面的第四实施例中,所述基于所述第一损失及所述第二损失,计算得到损失函数值,包括:
[0028]设置平衡系数,基于所述第一损失、所述第二损失及所述平衡系数,计算得到损失函数值;
[0029]所述损失函数值的计算公式如下:
[0030]L=L
Hard
+*
Soft
[0031]其中,α为所述平衡系数,L为所述损失函数值,L
Hard
为所述第一损失,L
Soft
为所述第二损失。
[0032]在本专利技术的第二方面,本专利技术还提供一种知识表示方法,所述方法包括:
[0033]获取目标三元组,所述目标三元组包括缺失某一实体的三元组;
[0034]将所述目标三元组输入目标知识表示模型,预测得到正确的三元组数据集,正确的三元组的得分及排名,其中,所述目标知识表示模型是利用第一方面及其可选实施方式中任一项所述的知识表示模型训练方法训练得到的。
[0035]在本专利技术的第三方面,本专利技术还提供一种知识表示模型训练装置,所述装置包括:
[0036]第一获取单元,用于获取初始知识表示模型及训练数据集,所述训练数据集包括:若干三元组样本;
[0037]第一输入单元,用于将所述训练数据集输入所述初始知识表示模型,得到第一预测结果及第一预测结果对应的标签向量,所述标签向量用于表征第一预测结果中训练数据集中每个三元组样本对应预测结果的有效性,所述预测结果包括正确的三元组数据集,正确的三元组的得分及排名;
[0038]第二输入单元,用于将所述第一预测结果输入所述初始知识表示模型,得到第二预测结果;
[0039]计算单元,用于基于所述第一预测结果及其对应的标签向量以及所述第二预测结果,计算得到损失函数值;
[0040]训练单元,用于基于所述损失函数值,对所述初始知识表示模型进行更新,并返回将所述训练数据集输入所述初始知识表示模型,得到第一预测结果及第一预测结果对应的标签向量的步骤,直至所述损失函数值满足预设损失函数值要求,得到目标知识表示模型。
[0041]结合第三方面,在第三方面的第一实施例中,所述计算单元,包括:
[0042]第一计算单元,用于基于所述第一预测结果及其对应的标签向量,计算得到第一损失;
[0043]第二计算单元,用于基于所述第一预测结果及所述第二预测结果,计算得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识表示模型训练方法,其特征在于,所述方法包括:获取初始知识表示模型及训练数据集,所述训练数据集包括:若干三元组样本;将所述训练数据集输入所述初始知识表示模型,得到第一预测结果及第一预测结果对应的标签向量,所述标签向量用于表征第一预测结果中训练数据集中每个三元组样本对应预测结果的有效性,所述预测结果包括正确的三元组数据集,正确的三元组的得分及排名;将所述第一预测结果输入所述初始知识表示模型,得到第二预测结果;基于所述第一预测结果及其对应的标签向量以及所述第二预测结果,计算得到损失函数值;基于所述损失函数值,对所述初始知识表示模型进行更新,并返回将所述训练数据集输入所述初始知识表示模型,得到第一预测结果及第一预测结果对应的标签向量的步骤,直至所述损失函数值满足预设损失函数值要求,得到目标知识表示模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一预测结果及其对应的标签向量以及所述第二预测结果,计算得到损失函数值,包括:基于所述第一预测结果及其对应的标签向量,计算得到第一损失;基于所述第一预测结果及所述第二预测结果,计算得到第二损失;基于所述第一损失及所述第二损失,计算得到损失函数值。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一预测结果及其对应的标签向量,计算得到第一损失,包括:设置第一蒸馏温度为1,基于所述第一蒸馏温度,对所述第一预测结果及其对应的标签向量进行交叉熵计算,得到所述第一损失;所述第一损失的计算公式如下:所述第一损失的计算公式如下:其中,为所述第一预测结果,y
i
为所述第一预测结果对应的标签向量,L
Hard
为所述第一损失,τ为所述第一蒸馏温度。4.根据权利要求2所述的方法,其特征在于,所述基于所述第一预测结果及所述第二预测结果,计算得到第二损失,包括:设置第二蒸馏温度为大于1的正整数,基于所述第二蒸馏温度,对所述第一预测结果及所述第二预测结果进行相对熵计算,得到第二损失;所述第二损失的计算公式如下:其中,为所述第一预测结果,为所述第二预测结果,L
Soft
为所述第二损失,τ
为所述第二蒸馏温度。5.根据权利要求2所述的方法,其特征在于,所述基于所述第一损失及所述第二损失,计算得到损失函数值,包括:设置平衡系数,基于所述第一损失、所述第二损失及所述平衡系数,计算得到损失函数值;所述损失函数值的计算公式如下:L=L
Hard
+*
...

【专利技术属性】
技术研发人员:陶建华徐浩天杨国花张大伟
申请(专利权)人:启元实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1