匹配模型训练方法、设备及介质技术

技术编号:37334085 阅读:15 留言:0更新日期:2023-04-21 23:12
本公开实施例提供了一种匹配模型训练方法、设备及介质,涉及计算机技术领域,该方法包括:通过聚类算法对无标签的目标数据集中的原始数据进行聚类处理,得到多个数据聚类,目标数据集为通过无标签的两个候选数据集组合得到的,将多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据,再将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并通过数据组中原始数据的聚类情况,确定每个数据组的标签值,根据K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至得到已训练的匹配模型。通过聚类和数据来源对无标签数据添加标签,通过不断迭代的训练过程来优化效果,最终得到准确性更高的已训练的匹配模型。型。型。

【技术实现步骤摘要】
匹配模型训练方法、设备及介质


[0001]本公开涉及计算机
,特别涉及一种匹配模型训练方法、设备及介质。

技术介绍

[0002]随着计算机技术的发展,越来越多的方法被应用到现实生活中,例如,匹配模型,匹配模型主要是用来研究两段文本之间的关系,被大量的应用在文本问答、推荐、智能客服,对话质检,数据库问答等应用场景中。
[0003]在相关技术中,对于匹配模型的训练过程,主要是通过带有标签的训练数据进行训练完成,但是,带有标准的训练数据获取困难,并且为训练数据添加标签耗时耗力,需要大量的成本,所以,如何提供一种可以通过无标签的训练数据,得到训练好的匹配模型是一个亟待解决的问题。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开提供一种匹配模型训练方法、设备及介质,可以通过无标签的数据训练匹配模型,使得匹配模型预测更准确。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]第一方面,本公开中的实施例提供一种匹配模型训练方法,所述方法包括:
[0008]通过聚类算法对目标数据集中的原始数据进行聚类处理,得到多个数据聚类;其中,所述目标数据集为通过无标签的两个候选数据集组合得到的;
[0009]将所述多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据;
[0010]将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据所述K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值;
[0011]根据所述K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至所述未训练的匹配模型对应的匹配损失函数值小于第一预设值,且所述未训练的匹配模型基于所述多个数据聚类中的原始数据进行预测得到的相似度结果大于第二预设值,则得到已训练的匹配模型。
[0012]在一种可能的实施例中,所述将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据所述K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值,包括:
[0013]将每两条拼接数据进行组合的过程中,对得到的任意一个数据组进行判断,确定所述任意一个数据组对应的标签值;
[0014]针对K个数据组中的任意一个数据组的判断如下:
[0015]若所述任意一个数据组中两条拼接数据中的原始数据属于同一个候选数据集,则
根据所述任意一个数据组中四条原始数据对应的数据聚类情况,确定所述任意一个数据组的标签值;以及
[0016]若所述任意一个数据组中两条拼接数据中的任意两条原始数据属于不同候选数据集,则根据所述任意一个数据组中四条原始数据对应的候选数据集情况和数据聚类情况,确定所述任意一个数据组的标签值。
[0017]在一种可能的实施例中,所述任意一个数据组中包括第一拼接数据和第二拼接数据;所述第一拼接数据包括拼接时位置位于前半部分的第一原始数据和拼接时位置位于后半部分第二原始数据;所述第二拼接数据包括拼接时位置位于前半部分的第三原始数据和拼接时位置位于后半部分第四原始数据;
[0018]所述若所述任意一个数据组中两条拼接数据中的原始数据属于同一个候选数据集,则根据所述任意一个数据组中四条原始数据对应的数据聚类情况,确定所述任意一个数据组的标签值,包括:
[0019]若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第二拼接数据中的原始数据与第一拼接数据中的原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第一数值;
[0020]若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,或者,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;
[0021]若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值;
[0022]若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与所述第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第一数值;
[0023]若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,或者,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;
[0024]若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值。
[0025]在一种可能的实施例中,所述任意一个数据组中包括第一拼接数据和第二拼接数据;所述第一拼接数据包括拼接时位置位于前半部分的第一原始数据和拼接时位置位于后半部分第二原始数据;所述第二拼接数据包括拼接时位置位于前半部分的第三原始数据和拼接时位置位于后半部分第四原始数据;
[0026]所述若所述任意一个数据组中两条拼接数据中的任意两条原始数据属于不同候
选数据集,则根据所述任意一个数据组中四条原始数据对应的候选数据集情况和数据聚类情况,确定所述任意一个数据组的标签值,包括:
[0027]若第一原始数据与第三原始数据属于同一个候选数据集,且第二原始数据与第四原始数据不属于同一个候选数据集,且第一原始数据与第三原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;
[0028]若第一原始数据与第三原始数据不属于同一个候选数据集,且第二原始数据与第四原始数据属于同一个候选数据集,且第二原始数据与第四原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;
[0029]若第一原始数据与第三原始数据属于同一个候选数据集,且第二原始数据与第四原始数据不属于同一个候选数据集,且第一原始数据与第三原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值;
[0030]若第一原始数据与第三原始数据不属于同一个候选数据集,且第二原始数据与第四原始数据属于同一个候选数据集,且第二原始数据与第四原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值;
[0031]若本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种匹配模型训练方法,其特征在于,所述方法包括:通过聚类算法对目标数据集中的原始数据进行聚类处理,得到多个数据聚类;其中,所述目标数据集为通过无标签的两个候选数据集组合得到的;将所述多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据;将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据所述K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值;根据所述K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至所述未训练的匹配模型对应的匹配损失函数值小于第一预设值,且所述未训练的匹配模型基于所述多个数据聚类中的原始数据进行预测得到的相似度结果大于第二预设值,则得到已训练的匹配模型。2.根据权利要求1所述的匹配模型训练方法,其特征在于,所述将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据所述K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值,包括:将每两条拼接数据进行组合的过程中,对得到的任意一个数据组进行判断,确定所述任意一个数据组对应的标签值;针对K个数据组中的任意一个数据组的判断如下:若所述任意一个数据组中两条拼接数据中的原始数据属于同一个候选数据集,则根据所述任意一个数据组中四条原始数据对应的数据聚类情况,确定所述任意一个数据组的标签值;以及若所述任意一个数据组中两条拼接数据中的任意两条原始数据属于不同候选数据集,则根据所述任意一个数据组中四条原始数据对应的候选数据集情况和数据聚类情况,确定所述任意一个数据组的标签值。3.根据权利要求2所述的匹配模型训练方法,其特征在于,所述任意一个数据组中包括第一拼接数据和第二拼接数据;所述第一拼接数据包括拼接时位置位于前半部分的第一原始数据和拼接时位置位于后半部分第二原始数据;所述第二拼接数据包括拼接时位置位于前半部分的第三原始数据和拼接时位置位于后半部分第四原始数据;所述若所述任意一个数据组中两条拼接数据中的原始数据属于同一个候选数据集,则根据所述任意一个数据组中四条原始数据对应的数据聚类情况,确定所述任意一个数据组的标签值,包括:若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第二拼接数据中的原始数据与第一拼接数据中的原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第一数值;若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,或者,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值;
若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与所述第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第一数值;若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,或者,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值。4.根据权利要求2所述的匹配模型训练方法,其特征在于,所述任意一个数据组中包括第一拼接数据和第二拼接数据;所述第一拼接数据包括拼接时位置位于前半部分的第一原始数据和拼接时位置位于后半部分第二原始数据;所述第二拼接数据包括拼接时位置位于前半部分的第三原始数据和拼接时位置位于后半部分第四原始数据;所述若所述任意一个数据组中两条拼接数据中的任意两条原始数据属于不同候选数据集,则根据所...

【专利技术属性】
技术研发人员:黄钰瑶付薇薇王岩张寅
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1