文本编码模型的训练方法、信息检索方法及设备技术

技术编号:31230285 阅读:27 留言:0更新日期:2021-12-08 10:01
本申请实施例公开了一种文本编码模型的训练方法、信息检索方法及设备,属于机器学习技术领域。该方法包括:将文本关系网络中的样本文本输入文本编码模型,得到各个样本文本对应的样本特征向量;基于样本特征向量以及目标函数确定模型损失;基于模型损失对文本编码模型进行迭代训练。响应于文本检索操作,基于文本检索操作获取检索信息;将检索信息输入文本编码模型,得到检索信息对应的检索信息特征向量;基于检索信息特征向量从文本库中确定目标文本;通过检索结果展示界面显示目标文本。基于样本文本的网络关系进行建模,同时在文本关系网络的网络边稀疏、噪声较多的情况下,模型也能够通过捕捉文本本身的语义信息得到较为准确的向量表示。准确的向量表示。准确的向量表示。

【技术实现步骤摘要】
文本编码模型的训练方法、信息检索方法及设备


[0001]本申请实施例涉及机器学习
,特别涉及一种文本编码模型的训练方法、信息检索方法及设备。

技术介绍

[0002]信息检索是日常生活中使用较为频繁的操作,例如论文检索、新闻检索以及医疗咨询检索等。用户在检索框中输入关键词或关键句,终端依据文档搜索规则从文档库中检索出与关键词或关键句相关的内容,并显示检索结果供用户查看。
[0003]相关技术通常是将用户输入的文本内容编码成一个连续型向量,然后利用模型计算其与文档库中各个文档的向量表示之间的相似度,进而基于向量距离确定检索结果。对于模型的训练过程,相关技术采用对比学习的方式构建模型,并利用正负样本最大化似然函数。
[0004]然而,上述对比式学习更注重文本网络中各个节点之间的关系,当文本网络边较为稀疏、边噪声较大时,模型性能会下降;并且该方法需要正样本之间的向量内积尽可能大,负样本之间的向量内积尽可能小,若不能恰当地选取负样本,则会对模型性能有较大负面影响。

技术实现思路

[0005]本申请实施例提供了一种文本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本编码模型的训练方法,其特征在于,所述方法包括:将文本关系网络中的样本文本输入文本编码模型,得到各个样本文本对应的样本特征向量,所述文本关系网络是以所述样本文本为节点,以邻居节点之间的连线为边的无向图,所述邻居节点之间具有相同的文本属性;基于所述样本特征向量以及目标函数确定模型损失,所述目标函数包含第一函数项和第二函数项,所述第一函数项用于表征所述样本特征向量对所述样本文本中语义信息的表示质量,所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量;基于所述模型损失对所述文本编码模型进行迭代训练。2.根据权利要求1所述的方法,其特征在于,所述将文本关系网络中的样本文本输入文本编码模型之前,所述方法包括:对所述样本文本进行语义信息提取,得到所述样本文本的所述文本属性;将具有相同所述文本属性的所述样本文本相连,生成所述文本关系网络;基于所述文本关系网络的网络结构生成邻接矩阵,所述邻接矩阵是用于表征所述文本关系网络中节点之间关系的二维数组;将所述邻接矩阵输入所述文本编码模型,得到所述目标函数。3.根据权利要求2所述的方法,其特征在于,所述文本编码模型为生成模型;所述将所述邻接矩阵输入所述文本编码模型,得到所述目标函数,包括:将所述邻接矩阵输入所述文本编码模型,得到所述目标函数中的先验分布函数,所述先验分布函数是以目标协方差矩阵为方差的高斯分布函数,所述目标协方差矩阵为所述邻接矩阵对应的精度矩阵的逆矩阵;基于所述先验分布函数构建所述目标函数。4.根据权利要求3所述的方法,其特征在于,所述基于所述先验分布函数构建所述目标函数,包括:以目标期望为所述第一函数项,以目标相对熵的相反数为所述第二函数项,构建所述目标函数,所述目标期望为所述样本文本与所述样本特征向量的联合概率分布的期望,所述目标相对熵为后验分布函数与所述先验分布函数之间的相对熵,所述后验分布函数为所述样本特征向量与所述样本文本之间联合概率分布的变分分布。5.一种信息检索方法,其特征在于,所述方法包括:响应于文本检索操作,基于所述文本检索操作获取检索信息;将所述检索信息输入文本编码模型,得到所述检索信息对应的检索信息特征向量,所述文本编码模型是以目标函数为训练目标,基于文本关系网络训练得到的模型,所述文本关系网络是以文本为节点,以文本之间的关系为边的无向图,所述目标函数包含第一函数项和第二函数项,所述第一函数项用于表征样本特征向量对样本文本中语义信息的表示质量,所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量;基于所述检索信息特征向量从文本库中确定目标文本,所述目标文本是与所述...

【专利技术属性】
技术研发人员:欧子菁赵瑞辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1