数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38882899 阅读:13 留言:0更新日期:2023-09-22 14:12
本发明专利技术公开了一种数据处理方法、装置、电子设备及存储介质,该方法包括获取待处理样本集合,然后将待处理样本集合的句子嵌入输入至训练后的样本增强模型中,从而能够得到增强的正样本所对应的嵌入,其中,待处理样本集合包括至少两个正样本,任两个正样本的嵌入不相同,一正样本对应一句子嵌入,且该训练后的样本增强模型中的编码器采用相同的Dropout。如此,能够得到至少两个彼此不相同,且与待处理样本集合的句子嵌入存在关联的嵌入,进而能够采用与待处理样本集合的句子嵌入存在关联的嵌入对模型进行训练,以提高模型的学习效率。以提高模型的学习效率。以提高模型的学习效率。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]对于自然语言处理的各项任务来说,获得好的词表示是重要的基石,如何通过词嵌入获得好的句子表示也同样重要。由于能够避免标注大规模数据集的成本,自监督学习变得越来越流行,它利用未标记的数据来学习句子的表征,并将学习到的表示用于多个下游任务。
[0003]对比学习是自监督学习的一种,其通过构造正样本对和负样本对来学习一个表示模型,使得相似的样本在投影空间中比较接近,不相似的样本在投影空间中距离比较远。
[0004]而现有对比学习通常是采用词重复机制构造正样本,这将导致得到的样本的嵌入和原始样本之间的联系不清楚,最终影响模型的学习效果,造成学习效率低的问题。

技术实现思路

[0005]本专利技术实施例的目的是提供一种数据处理方法、装置、电子设备及存储介质,以解决现有对比学习的学习效率低的问题。
[0006]在第一方面,为实现上述目的,本专利技术实施例提供了一种数据处理方法,包括:
[0007]获取待处理样本集合,所述待处理样本集合包括至少两个正样本,任两个所述正样本的嵌入不相同,一所述正样本对应一句子嵌入;
[0008]将所述待处理样本集合的句子嵌入输入至训练后的样本增强模型中,得到增强的正样本所对应的嵌入,所述训练后的样本增强模型中的编码器采用相同的Dropout。
[0009]进一步的,在所述将所述待处理样本集合的句子嵌入输入至训练后的样本增强模型中的步骤之前,所述数据处理方法还包括:
[0010]将初始样本集合输入至待训练的样本增强模型中进行增强处理,得到对应的增强样本集合;
[0011]对所述增强样本集合的正样本分别进行编码处理,得到对应的句子嵌入;
[0012]根据所述句子嵌入确定各正样本的嵌入及对应的负样本的嵌入,得到多个正负样本对的嵌入,其中一所述正样本及一所述负样本对应一正负样本对;
[0013]根据各所述正负样本对的嵌入之间的对比损失值,更新待训练的样本增强模型的模型参数;
[0014]转到将初始样本集合输入至待训练的样本增强模型中进行增强处理的步骤继续对所述样本增强模型进行训练,直到所述对比损失值在阈值范围内,得到训练后的样本增强模型。
[0015]进一步的,所述增强处理包括同义词替换处理和词重复处理,所述将初始样本集合输入至待训练的样本增强模型中进行增强处理,得到对应的增强样本集合,包括:
[0016]对所述初始样本集合进行同义词替换处理,得到第一增强样本集合;
[0017]对所述初始样本集合进行词重复处理,得到第二增强样本集合;
[0018]其中,所述第一增强样本集合中的正样本为第一正样本,所述第二增强样本集合中的正样本为第二正样本。
[0019]进一步的,所述负样本包括第一负样本和第二负样本,所述根据所述句子嵌入确定各正样本的嵌入及对应的负样本的嵌入,包括:
[0020]根据所述第一增强样本集合的句子嵌入确定第一正样本的嵌入,并根据所述第二增强样本集合的句子嵌入确定各所述第一正样本对应的第一负样本的嵌入;
[0021]根据所述第二增强样本集合的句子嵌入确定第二正样本的嵌入,并根据所述第一增强样本集合的句子嵌入确定各所述第二正样本对应的第二负样本的嵌入。
[0022]进一步的,所述负样本还包括第三负样本,所述根据所述句子嵌入确定各正样本的嵌入及对应的负样本的嵌入,还包括:
[0023]根据各所述第一正样本的嵌入,确定与各所述第一正样本的嵌入相似度高的嵌入对应的第一负样本为第三负样本。
[0024]进一步的,所述对所述增强样本集合的正样本分别进行编码处理,包括:
[0025]采用相同Dropout的第一编码器和第二编码器对所述增强样本集合的正样本分别进行编码处理;
[0026]所述根据各所述第一正样本的嵌入,确定与各所述第一正样本的嵌入相似度高的嵌入对应的第一负样本为第三负样本,包括:
[0027]将所述第一增强样本集合输入至第一编码器中,得到第一嵌入矩阵,将所述第二增强样本集合输入至第二编码器中,得到第二嵌入矩阵;
[0028]根据所述第一嵌入矩阵和所述第二嵌入矩阵,确定所述第一嵌入矩阵和所述第二嵌入矩阵的相似矩阵;
[0029]从所述相似矩阵中提取出满足预设条件的相似度值对应的索引;
[0030]将所述第二增强样本集合输入至预设的第三编码器中,得到第三嵌入矩阵;
[0031]根据所述索引在所述第三嵌入矩阵中获取对应的目标嵌入;
[0032]将所述目标嵌入添加至预设的嵌入队列中,得到第三负样本的嵌入队列。
[0033]进一步的,所述将所述目标嵌入添加至预设的嵌入队列中,得到第三负样本的嵌入队列,包括:
[0034]从所述预设的嵌入队列中移除与所述目标嵌入相同数量的嵌入;其中,被移除的嵌入为所述预设的嵌入队列中最早添加的嵌入;
[0035]将所述目标嵌入添加入所述预设的嵌入队列,得到第三负样本的嵌入队列。
[0036]进一步的,所述根据各所述正负样本对的嵌入之间的对比损失值,更新待训练的样本增强模型的模型参数,包括:
[0037]根据各所述正样本的嵌入和与各正样本相对应的负样本的嵌入,计算得到多个对比损失值;
[0038]分别根据每个所述对比损失值并采用梯度下降算法,更新所述第一编码器和所述第二编码器的第一编码器参数;
[0039]根据所述第一编码器参数以及预设的更新算法,更新所述第三编码器的第二编码
器参数。
[0040]在第二方面,为了解决相同的技术问题,本专利技术实施例提供了一种数据处理装置,包括:
[0041]获取模块,用于获取待处理样本集合,所述待处理样本集合包括至少两个正样本,任两个所述正样本的嵌入不相同,一所述正样本对应一句子嵌入;
[0042]处理模块,用于将所述待处理样本集合的句子嵌入输入至训练后的样本增强模型中,得到增强的正样本所对应的嵌入,所述训练后的样本增强模型中的编码器采用相同的Dropout。
[0043]在第三方面,为了解决相同的技术问题,本专利技术实施例提供了一种电子设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时,实现上述任一项所述的数据处理方法中的步骤。
[0044]在第四方面,为了解决相同的技术问题,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的数据处理方法中的步骤。
[0045]本专利技术实施例提供了一种数据处理方法、装置、电子设备及存储介质,该方法通过获取待处理样本集合,然后将待处理样本集合的句本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理样本集合,所述待处理样本集合包括至少两个正样本,任两个所述正样本的嵌入不相同,一所述正样本对应一句子嵌入;将所述待处理样本集合的句子嵌入输入至训练后的样本增强模型中,得到增强的正样本所对应的嵌入,所述训练后的样本增强模型中的编码器采用相同的Dropout。2.如权利要求1所述的数据处理方法,其特征在于,在所述将所述待处理样本集合的句子嵌入输入至训练后的样本增强模型中的步骤之前,所述数据处理方法还包括:将初始样本集合输入至待训练的样本增强模型中进行增强处理,得到对应的增强样本集合;对所述增强样本集合的正样本分别进行编码处理,得到对应的句子嵌入;根据所述句子嵌入确定各正样本的嵌入及对应的负样本的嵌入,得到多个正负样本对的嵌入,其中一所述正样本及一所述负样本对应一正负样本对;根据各所述正负样本对的嵌入之间的对比损失值,更新待训练的样本增强模型的模型参数;转到将初始样本集合输入至待训练的样本增强模型中进行增强处理的步骤继续对所述样本增强模型进行训练,直到所述对比损失值在阈值范围内,得到训练后的样本增强模型。3.如权利要求2所述的数据处理方法,其特征在于,所述增强处理包括同义词替换处理和词重复处理,所述将初始样本集合输入至待训练的样本增强模型中进行增强处理,得到对应的增强样本集合,包括:对所述初始样本集合进行同义词替换处理,得到第一增强样本集合;对所述初始样本集合进行词重复处理,得到第二增强样本集合;其中,所述第一增强样本集合中的正样本为第一正样本,所述第二增强样本集合中的正样本为第二正样本。4.如权利要求3所述的数据处理方法,其特征在于,所述负样本包括第一负样本和第二负样本,所述根据所述句子嵌入确定各正样本的嵌入及对应的负样本的嵌入,包括:根据所述第一增强样本集合的句子嵌入确定第一正样本的嵌入,并根据所述第二增强样本集合的句子嵌入确定各所述第一正样本对应的第一负样本的嵌入;根据所述第二增强样本集合的句子嵌入确定第二正样本的嵌入,并根据所述第一增强样本集合的句子嵌入确定各所述第二正样本对应的第二负样本的嵌入。5.如权利要求4所述的数据处理方法,其特征在于,所述负样本还包括第三负样本,所述根据所述句子嵌入确定各正样本的嵌入及对应的负样本的嵌入,还包括:根据各所述第一正样本的嵌入,确定与各所述第一正样本的嵌入相似度高的嵌入对应的第一负样本为第三负样本。6.如权利要求5所述的数据处理方法,其特征在于,所述对所述增强样本集合的正样本分别进行编码处理,包括:采用...

【专利技术属性】
技术研发人员:黄雅赵向军
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1