语义相似度模型的训练集获取方法、装置及计算机设备制造方法及图纸

技术编号：37204997 阅读：15 留言：0更新日期：2023-04-20 22:58

本申请提供了一种语义相似度模型的训练集获取方法、装置及计算机设备，该方法包括：根据原始语料库的各个相似文本分组，构建多个相似训练样本；针对每个所述第一自然语言文本，根据该第一自然语言文本所属的相似文本分组，在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本，并分别计算该第一自然语言文本和每个所述目标语言文本之间的字面相似度，基于字面相似度最高的M个所述目标语言文本构建M个不相似训练样本；将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集。采用本申请的方案可以提高语义相似度模型的泛化性和检测准确性。化性和检测准确性。化性和检测准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语义相似度模型的训练集获取方法、装置及计算机设备

[0001]本申请涉及人工智能
，尤其涉及一种语义相似度模型的训练集获取方法、装置、存储介质及计算机设备。

技术介绍

[0002]语义相似度模型是指用于检测表述不同的多个自然语言文本所表达的意义是否相似的模型。在获取语义相似度模型的过程中，需要提前构建相应的训练集，该训练集中包括多组语义训练数据，每组语义训练数据包括两个表述不同的自然语言文本以及该两个自然语言文本的语义是否相同的标注结果。在训练集构建完成后，可利用该训练集对初始模型进行训练，以得到语义相似度模型。但是，在实际应用过程中发现，目前的语义相似度模型存在检测准确性低的问题。

技术实现思路

[0003]本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中检测准确性低的技术缺陷。
[0004]第一方面，本申请提供了一种语义相似度模型的训练集获取方法，该方法包括：
[0005]根据原始语料库的各个相似文本分组，构建多个相似训练样本；其中，每个所述相似文本分组包括多个两两语义相似的自然语言文本，每个相似训练样本包括属于同一所述相似文本分组的第一自然语言文本和第二自然语言文本；
[0006]针对每个所述第一自然语言文本，根据该第一自然语言文本所属的相似文本分组，在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本，并分别计算该第一自然语言文本和每个所述目标语言文本之间的字面相似度，基于字面相似度最高的M个所述目标语言文本构建M个不相似训练样本；...

【技术保护点】

【技术特征摘要】
1.一种语义相似度模型的训练集获取方法，其特征在于，所述方法包括：根据原始语料库的各个相似文本分组，构建多个相似训练样本；其中，每个所述相似文本分组包括多个两两语义相似的自然语言文本，每个相似训练样本包括属于同一所述相似文本分组的第一自然语言文本和第二自然语言文本；针对每个所述第一自然语言文本，根据该第一自然语言文本所属的相似文本分组，在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本，并分别计算该第一自然语言文本和每个所述目标语言文本之间的字面相似度，基于字面相似度最高的M个所述目标语言文本构建M个不相似训练样本；其中，M为预设的正整数；将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集。2.根据权利要求1所述的语义相似度模型的训练集获取方法，其特征在于，所述将各个所述相似训练样本和各个所述不相似训练样本作为用于获取语义相似度模型的训练集的步骤之前，还包括：获取预设的不相似训练样本数量，所述不相似训练样本数量是根据预设的样本比例确定的；针对每个所述第一自然语言文本，从该第一自然语言文本对应的各个所述目标语言文本中，随机选取(N
‑
M)个所述目标语言文本，并基于随机选取的(N
‑
M)个所述目标语言文本，构建(N
‑
M)个不相似训练样本；其中，N为所述不相似训练样本数量，且N大于M。3.根据权利要求2所述的语义相似度模型的训练集获取方法，其特征在于，所述从该第一自然语言文本对应的各个所述目标语言文本中，随机选取(N
‑
M)个所述目标语言文本的步骤，包括：从该第一自然语言文本对应的各个所述目标语言文本中，随机选取多个所述目标语言文本；根据字面相似度最高的M个所述目标语言文本，对随机选取的多个所述目标语言文本进行去重，以得到(N
‑
M)个所述目标语言文本。4.根据权利要求1所述的语义相似度模型的训练集获取方法，其特征在于，所述根据该第一自然语言文本所属的相似文本分组，在所述原始语料库中确定与该第一自然语言文本语义不相似的各个目标语言文本的步骤，包括：将所述原始语料库中，与该第一自然语言文本分属于不同的相似文本分组的各个自然语言文本作为与该第一自然语言文本语义不相似的各个所述目标语言文本。5.根据权利要求1至4任一项所述的语义相似度模型的训练集获取方法，其特征在于，所述根据原始语料库的各个相似文本分组，...

【专利技术属性】
技术研发人员：邓佳阳，林嘉良，
申请(专利权)人：唯品会广州软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人