一种内容匹配方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38709862 阅读:16 留言:0更新日期:2023-09-08 14:52
本发明专利技术实施例公开了一种内容匹配方法、装置、电子设备和存储介质;本发明专利技术实施例获取待匹配内容,对所述待匹配内容进行编码处理,得到所述待匹配内容对应的初始编码特征,将所述初始编码特征映射到预设的内容向量空间中,得到所述目标匹配内容的内容向量,作为待匹配特征,计算所述待匹配特征与候选匹配内容对应的候选匹配特征之间的相似度,基于所述相似度,确定所述待匹配内容对应的目标匹配内容;在本发明专利技术实施例中,将待匹配内容的初始编码特征,映射到了预设的内容向量空间中,因此,在进行匹配时,可以将映射得到的待匹配特征与预设的候选匹配内容对应的候选匹配特征进行匹配,提高内容匹配的准确度。高内容匹配的准确度。高内容匹配的准确度。

【技术实现步骤摘要】
一种内容匹配方法、装置、电子设备和存储介质


[0001]本专利技术涉及人工智能领域,具体涉及一种内容匹配方法、装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能技术的快速发展,越来越多的人工智能模型经过大量数据样本的训练后可以在多个领域展开应用,例如常见的搜索、虚拟助理、智能客服等等。
[0003]目前,在对双塔模型等对偶模型进行训练时采取的主要方法是,采用批次内负采样(in

batch negatives)的方式进行训练,将同一批次的样本中其他样本的模型输出结果作为当前样本的负样本。但是采用这种方案,在生成当前样本的一个模型输出结果的负样本时,会将与当前样本内容相似的相似样本的模型输出结果作为负样本,而将内容相似的样本的模型输出结果作为负样本参与训练,会影响模型对于样本的特征提取能力。

技术实现思路

[0004]本专利技术实施例提供一种内容匹配方法、装置、电子设备和存储介质,可以基于待匹配内容进行特征提取,将提取得到的待匹配特征与预设的候选匹配内容对应的候选匹配特征进行匹配,提高内容匹配的准确度。
[0005]本专利技术实施例提供一种内容匹配方法,包括:
[0006]获取待匹配内容;
[0007]对所述待匹配内容进行编码处理,得到所述待匹配内容对应的初始编码特征;
[0008]将所述初始编码特征映射到预设的内容向量空间中,得到所述目标匹配内容的内容向量,作为待匹配特征;
[0009]计算所述待匹配特征与候选匹配内容对应的候选匹配特征之间的相似度,基于所述相似度,确定所述待匹配内容对应的目标匹配内容。
[0010]相应的,本专利技术实施例提供一种内容匹配装置,包括:
[0011]内容获取单元,用于获取待匹配内容;
[0012]内容编码单元,用于对所述待匹配内容进行编码处理,得到所述待匹配内容对应的初始编码特征;
[0013]特征映射单元,用于将所述初始编码特征映射到预设的内容向量空间中,得到所述目标匹配内容的内容向量,作为待匹配特征;
[0014]相似度计算单元,用于计算所述待匹配特征与候选匹配内容对应的候选匹配特征之间的相似度,基于所述相似度,确定所述待匹配内容对应的目标匹配内容。
[0015]可选的,所述内容编码单元,用于根据内容特征提取模型的编码参数,对所述待匹配内容进行编码处理,得到所述待匹配内容对应的初始编码特征;
[0016]所述特征映射单元,用于根据所述内容特征提取模型的特征映射参数,将所述初始编码特征映射到预设的内容向量空间中,基于映射结果得到所述目标匹配内容的内容向
量,作为待匹配特征。
[0017]可选的,本专利技术实施例提供的内容匹配装置还包括模型训练单元,包括特征提取子单元、特征配对单元、无效对确定单元、补充特征生成单元和训练子单元;
[0018]所述特征提取子单元,用于通过待训练的内容特征提取模型的至少一个特征提取网络,对同一批训练样本分别进行至少两次特征提取,得到所述训练样本的至少两组不同的特征组;
[0019]所述特征配对单元,用于根据各所述特征组中的特征,确定至少一个特征对,所述特征对中包括至少两个来自不同的所述特征组的特征;
[0020]所述无效对确定单元,用于计算各所述特征对中的所述特征之间的相似度,确定所述相似度大于预设相似阈值的特征对的目标特征对数量;
[0021]所述补充特征生成单元,用于基于所述目标特征对数量和所述训练样本的数量,生成补充训练特征;
[0022]所述训练子单元,用于根据所述补充训练特征和所述特征,对所述待训练的内容特征提取模型进行训练,得到训练后的内容特征提取模型。
[0023]可选的,所述补充特征生成单元,用于根据所述目标特征对数量和所述训练样本的数量,确定补充训练特征的补充数量;
[0024]通过预设的特征生成方式,生成所述补充训练特征,所述补充训练特征的数量与所述补充数量相同。
[0025]可选的,所述补充特征生成单元,用于通过预设的高斯分布函数,随机生成所述补充数量的高斯噪声特征作为所述补充训练特征。
[0026]可选的,所述补充特征生成单元,用于计算所述目标特征对数量与所述训练样本的数量之间的目标差值;
[0027]将所述目标差值作为补充训练特征的补充数量。
[0028]可选的,本专利技术实施例提供的内容匹配装置还包括样本划分单元,用于获取训练样本集和样本划分参数;
[0029]根据所述样本划分参数,对所述训练样本集进行划分,得到至少一批训练样本,每批训练样本中包括至少一个训练样本。
[0030]可选的,所述无效对确定单元,用于计算各所述特征对中的所述特征之间的相似度,生成相似度矩阵,所述相似度矩阵中的各个元素代表所述特征之间的相似度;
[0031]根据所述相似度矩阵,确定元素值大于预设相似阈值的元素的个数作为目标特征对数量。
[0032]可选的,所述特征配对单元,用于将一所述特征组中的各个特征分别作为锚点特征,与其他特征组中的特征进行匹配,得到至少两个匹配特征对;
[0033]删除所述匹配特征对中各特征相同的匹配特征对,得到至少一个特征对。
[0034]可选的,所述训练子单元,用于根据所述补充训练特征和所述特征,计算所述待训练的内容特征提取模型的模型损失;
[0035]根据所述模型损失,对所述待训练的内容特征提取模型的模型参数进行调整,得到训练后的内容特征提取模型。
[0036]可选的,所述训练子单元,用于将一所述特征组中的各个特征分别作为锚点特征,
计算所述补充训练特征与各所述锚点特征之间的补充相似度;
[0037]基于各所述特征对中的所述特征之间的所述相似度和所述补充相似度,计算所述待训练的内容特征提取模型的模型损失。
[0038]相应的,本专利技术实施例还提供一种电子设备,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行本专利技术实施例所提供的任一种内容匹配方法中的步骤。
[0039]相应的,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本专利技术实施例所提供的任一种内容匹配方法中的步骤。
[0040]此外,本专利技术实施例还提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本专利技术实施例所提供的任一种内容匹配方法中的步骤。
[0041]采用本专利技术实施例的方案,可以获取待匹配内容,对该待匹配内容进行编码处理,得到该待匹配内容对应的初始编码特征,将该初始编码特征映射到预设的内容向量空间中,得到该目标匹配内容的内容向量,作为待匹配特征,计算该待匹配特征与候选匹配内容对应的候选匹配特征之间的相似度,基于该相似度,确定该待匹配内容对应的目标匹配内容;在本专利技术实施例中,将待匹配内容的初始编码特征,映射到了预设的内容向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容匹配方法,其特征在于,包括:获取待匹配内容;对所述待匹配内容进行编码处理,得到所述待匹配内容对应的初始编码特征;将所述初始编码特征映射到预设的内容向量空间中,得到所述目标匹配内容的内容向量,作为待匹配特征;计算所述待匹配特征与候选匹配内容对应的候选匹配特征之间的相似度,基于所述相似度,确定所述待匹配内容对应的目标匹配内容。2.根据权利要求1所述的内容匹配方法,其特征在于,所述对所述待匹配内容进行编码处理,得到所述待匹配内容对应的初始编码特征,包括:根据内容特征提取模型的编码参数,对所述待匹配内容进行编码处理,得到所述待匹配内容对应的初始编码特征;所述将所述初始编码特征映射到预设的内容向量空间中,得到所述目标匹配内容的内容向量,作为待匹配特征,包括:根据所述内容特征提取模型的特征映射参数,将所述初始编码特征映射到预设的内容向量空间中,基于映射结果得到所述目标匹配内容的内容向量,作为待匹配特征。3.根据权利要求2所述的内容匹配方法,其特征在于,所述根据内容特征提取模型的编码参数,对所述待匹配内容进行编码处理,得到所述待匹配内容对应的初始编码特征之前,所述方法还包括:通过待训练的内容特征提取模型的至少一个特征提取网络,对同一批训练样本分别进行至少两次特征提取,得到所述训练样本的至少两组不同的特征组;根据各所述特征组中的特征,确定至少一个特征对,所述特征对中包括至少两个来自不同的所述特征组的特征;计算各所述特征对中的所述特征之间的相似度,确定所述相似度大于预设相似阈值的特征对的目标特征对数量;基于所述目标特征对数量和所述训练样本的数量,生成补充训练特征;根据所述补充训练特征和所述特征,对所述待训练的内容特征提取模型进行训练,得到训练后的内容特征提取模型。4.根据权利要求3所述的内容匹配方法,其特征在于,所述基于所述目标特征对数量和所述训练样本的数量,生成补充训练特征,包括:根据所述目标特征对数量和所述训练样本的数量,确定补充训练特征的补充数量;通过预设的特征生成方式,生成所述补充训练特征,所述补充训练特征的数量与所述补充数量相同。5.根据权利要求4所述的内容匹配方法,其特征在于,通过预设的特征生成方式,生成所述补充训练特征,包括:通过预设的高斯分布函数,随机生成所述补充数量的高斯噪声特征作为所述补充训练特征。6.根据权利要求3所述的内容匹配方法,其特征在于,所述计算各所述特征对中的所述特征之间的相似度,确定所述相似度大于预设相似阈值的特征对...

【专利技术属性】
技术研发人员:卢思瑾赵向军
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1