语义相似度模型的训练集获取方法、装置及计算机设备制造方法及图纸

技术编号:37204997 阅读:15 留言:0更新日期:2023-04-20 22:58
本申请提供了一种语义相似度模型的训练集获取方法、装置及计算机设备,该方法包括:根据原始语料库的各个相似文本分组,构建多个相似训练样本;针对每个所述第一自然语言文本,根据该第一自然语言文本所属的相似文本分组,在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本,并分别计算该第一自然语言文本和每个所述目标语言文本之间的字面相似度,基于字面相似度最高的M个所述目标语言文本构建M个不相似训练样本;将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集。采用本申请的方案可以提高语义相似度模型的泛化性和检测准确性。化性和检测准确性。化性和检测准确性。

【技术实现步骤摘要】
语义相似度模型的训练集获取方法、装置及计算机设备


[0001]本申请涉及人工智能
,尤其涉及一种语义相似度模型的训练集获取方法、装置、存储介质及计算机设备。

技术介绍

[0002]语义相似度模型是指用于检测表述不同的多个自然语言文本所表达的意义是否相似的模型。在获取语义相似度模型的过程中,需要提前构建相应的训练集,该训练集中包括多组语义训练数据,每组语义训练数据包括两个表述不同的自然语言文本以及该两个自然语言文本的语义是否相同的标注结果。在训练集构建完成后,可利用该训练集对初始模型进行训练,以得到语义相似度模型。但是,在实际应用过程中发现,目前的语义相似度模型存在检测准确性低的问题。

技术实现思路

[0003]本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中检测准确性低的技术缺陷。
[0004]第一方面,本申请提供了一种语义相似度模型的训练集获取方法,该方法包括:
[0005]根据原始语料库的各个相似文本分组,构建多个相似训练样本;其中,每个所述相似文本分组包括多个两两语义相似的自然语言文本,每个相似训练样本包括属于同一所述相似文本分组的第一自然语言文本和第二自然语言文本;
[0006]针对每个所述第一自然语言文本,根据该第一自然语言文本所属的相似文本分组,在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本,并分别计算该第一自然语言文本和每个所述目标语言文本之间的字面相似度,基于字面相似度最高的M个所述目标语言文本构建M个不相似训练样本;其中,M为预设的正整数;
[0007]将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集。
[0008]在其中一个实施例中,所述将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集的步骤之前,还包括:
[0009]获取预设的不相似训练样本数量,所述不相似训练样本数量是根据预设的样本比例确定的;
[0010]针对每个所述第一自然语言文本,从该第一自然语言文本对应的各个所述目标语言文本中,随机选取(N

M)个所述目标语言文本,并基于随机选取的(N

M)个所述目标语言文本,构建(N

M)个不相似训练样本;其中,N为所述不相似训练样本数量,且N大于M。
[0011]在其中一个实施例中,所述从该第一自然语言文本对应的各个所述目标语言文本中,随机选取(N

M)个所述目标语言文本的步骤,包括:
[0012]从该第一自然语言文本对应的各个所述目标语言文本中,随机选取多个所述目标语言文本;
[0013]根据字面相似度最高的M个所述目标语言文本,对随机选取的多个所述目标语言文本进行去重,以得到(N

M)个所述目标语言文本。
[0014]在其中一个实施例中,所述根据该第一自然语言文本所属的相似文本分组,在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本的步骤,包括:
[0015]将所述原始语料库中,与该第一自然语言文本分属于不同的相似文本分组的各个自然语言文本作为与该第一自然语言文本语义不相似的各个所述目标语言文本。
[0016]在其中一个实施例中,所述根据原始语料库的各个相似文本分组,构建多个相似训练样本的步骤,包括:
[0017]针对每个所述相似文本分组,将属于该相似文本分组的各个自然语言文本进行两两组合,以得到多个所述相似训练样本。
[0018]在其中一个实施例中,所述分别计算该第一自然语言文本和每个所述目标语言文本之间的字面相似度的步骤,包括:
[0019]分别计算该第一自然语言文本和每个所述目标语言文本之间的编辑距离,所述编辑距离用于反映字面相似度。
[0020]第二方面,本申请提供了一种语义相似度模型的训练集获取装置,该装置包括:
[0021]相似训练样本构建模块,用于根据原始语料库的各个相似文本分组,构建多个相似训练样本;其中,每个相似文本分组包括多个两两语义相似的自然语言文本,每个相似训练样本包括属于同一所述相似文本分组的第一自然语言文本和第二自然语言文本;
[0022]第一不相似训练样本构建模块,用于针对每个所述第一自然语言文本,根据该第一自然语言文本所属的相似文本分组,在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本,并分别计算该第一自然语言文本和每个所述目标语言文本之间的字面相似度,基于字面相似度最高的M个所述目标语言文本构建M个不相似训练样本;其中,M为预设的正整数;
[0023]训练集获取模块,用于将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集。
[0024]在其中一个实施例中,语义相似度模型的训练集获取装置还包括:
[0025]数量获取模块,用于获取预设的不相似训练样本数量,所述不相似训练样本数量是根据预设的样本比例确定的;
[0026]第二不相似训练样本构建模块,用于针对每个所述第一自然语言文本,从该第一自然语言文本对应的各个所述目标语言文本中,随机选取(N

M)个所述目标语言文本,并基于随机选取的(N

M)个所述目标语言文本,构建(N

M)个不相似训练样本;其中,N为所述不相似训练样本数量,且N大于M。
[0027]第三方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述语义相似度模型的训练集获取方法的步骤。
[0028]第四方面,本申请实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器,以及存储器;
[0029]所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处
理器执行时,执行上述任一实施例所述语义相似度模型的训练集获取方法的步骤。
[0030]在本申请的语义相似度模型的训练集获取方法、装置、存储介质及计算机设备中,可根据原始语料库的各个相似文本分组构建多个相似训练样本,每个相似训练样本包括语义相似的第一自然语言文本和第二自然语言文本。针对每个相似训练样本中的第一自然语言文本,本申请可根据该第一自然语言文本所属的相似文本分组,在原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本,并分别计算该第一自然语言文本和各个目标语言文本之间的字面相似度,根据字面相似度最高的M个目标语言文本构建M个不相似训练样本,使得构建的M个不相似训练样本均包括字面相似但语义不相似的自然语言文本。以各个不相似训练样本和各个相似训练样本作为训练集对语义相似度模型进行训练,使得训练完成的语义相似度模型能够准确检测字面相似但语义不相似的情况,从而可提高语义相似度模型的泛化性和检测准确性。
附图说明
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义相似度模型的训练集获取方法,其特征在于,所述方法包括:根据原始语料库的各个相似文本分组,构建多个相似训练样本;其中,每个所述相似文本分组包括多个两两语义相似的自然语言文本,每个相似训练样本包括属于同一所述相似文本分组的第一自然语言文本和第二自然语言文本;针对每个所述第一自然语言文本,根据该第一自然语言文本所属的相似文本分组,在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本,并分别计算该第一自然语言文本和每个所述目标语言文本之间的字面相似度,基于字面相似度最高的M个所述目标语言文本构建M个不相似训练样本;其中,M为预设的正整数;将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集。2.根据权利要求1所述的语义相似度模型的训练集获取方法,其特征在于,所述将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集的步骤之前,还包括:获取预设的不相似训练样本数量,所述不相似训练样本数量是根据预设的样本比例确定的;针对每个所述第一自然语言文本,从该第一自然语言文本对应的各个所述目标语言文本中,随机选取(N

M)个所述目标语言文本,并基于随机选取的(N

M)个所述目标语言文本,构建(N

M)个不相似训练样本;其中,N为所述不相似训练样本数量,且N大于M。3.根据权利要求2所述的语义相似度模型的训练集获取方法,其特征在于,所述从该第一自然语言文本对应的各个所述目标语言文本中,随机选取(N

M)个所述目标语言文本的步骤,包括:从该第一自然语言文本对应的各个所述目标语言文本中,随机选取多个所述目标语言文本;根据字面相似度最高的M个所述目标语言文本,对随机选取的多个所述目标语言文本进行去重,以得到(N

M)个所述目标语言文本。4.根据权利要求1所述的语义相似度模型的训练集获取方法,其特征在于,所述根据该第一自然语言文本所属的相似文本分组,在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本的步骤,包括:将所述原始语料库中,与该第一自然语言文本分属于不同的相似文本分组的各个自然语言文本作为与该第一自然语言文本语义不相似的各个所述目标语言文本。5.根据权利要求1至4任一项所述的语义相似度模型的训练集获取方法,其特征在于,所述根据原始语料库的各个相似文本分组,...

【专利技术属性】
技术研发人员:邓佳阳林嘉良
申请(专利权)人:唯品会广州软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1