【技术实现步骤摘要】
模型训练方法、装置、设备及存储介质
[0001]本申请涉及但不限于自然语言处理
,尤其涉及一种模型训练方法、装置、设备及存储介质。
技术介绍
[0002]相关技术中无监督语义匹配训练方法主要是SimCSE模型(文本匹配模型),SimCSE模型是一种简单的对比句向量表征的框架,方案的核心是对比学习,对比学习是通过拉近相似数据的距离,拉远不相似数据的距离为目标,更好地学习数据的表征。使得其在文本匹配任务中产生更好的效果。
[0003] SimCSE主要是有两个缺点:1)正样本的构建只用了两次随机失活的方法,这个在有些数据集上效果一般;2)SimCSE中提到了批大小(batchsize)越大越好,SimCSE的负样本来自同一个批内,自己和同一个批的其他样本构成负样本,批大小越大,负样本会越多。但是批大小受限于图像处理器的显存,不能设置很大。
技术实现思路
[0004]有鉴于此,本申请实施例至少提供一种模型训练方法、装置、设备及存储介质。
[0005]本申请实施例的技术方案是这样实现的:第一方面 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取当前训练批次的训练样本集;利用预训练语言模型,对所述训练样本集中第一训练样本进行至少一次数据增强处理,得到第一增强数据,并利用所述第一增强数据和所述第一训练样本对应的第一样本数据构建得到正样本对;基于所述第一样本数据和负样本集合中多个负样本数据,构建多组负样本对;其中,所述负样本集合至少包括历史数据、除所述第一样本数据外的第二样本数据和/或第二增强数据,所述历史数据包括至少一个历史训练批次对应的训练数据;利用所述正样本对和所述多组负样本对所述预训练语言模型进行参数更新。2.根据权利要求1所述的方法,其特征在于,所述利用预训练语言模型,对所述训练样本集中第一训练样本进行至少一次数据增强处理,得到第一增强数据,包括:从预处理库中随机选取至少一种数据增强方案;其中,所述预处理库中至少包括以下方案:顺序打乱、符号裁剪、特征裁剪、随机失活;在所述预训练语言模型中利用每一所述数据增强方案对所述第一训练样本中预设比例的符号进行至少一次处理,得到所述第一增强数据。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本数据和负样本集合中多个负样本数据,构建多组负样本对,包括:从预设的缓存队列中选取预设数量的第三样本数据;其中,所述缓存队列至少用于存储至少一个历史训练批次对应的所述训练数据;确定所述训练样本集中除所述第一训练样本之外的第二训练样本;基于所述预设数量的第三样本数据、所述第二训练样本对应的所述第二样本数据和/或第二增强数据,生成所述负样本集合;将所述第一样本数据分别与所述负样本集合中每一负样本数据组合,形成每一组所述负样本对。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:响应于一个训练周期结束,对所述当前训练批次的训练样本集和至少一个历史训练批次的训练样本集进行样本顺序打乱处理,得到至少两个训练批次的更新的训练样本集;其中,所述训练周期结束表征为在一个训练周期中所有训练样本集均分别完成一次训练;确定包括所述第一训练样本的一批所述更新的训练样本集为候选样本集;确定所述候选样本集中除所述第一训练样本之外的第四训练样本;基于所述第四训练样本对应的第四样本数据和/或第三增强数据,更新所述负样本集合。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:在当前批次训练完成之后,利用所述多个负样本数据、所述第一样本数据和/或所述第一增强数据更新所述缓存队列。6.根据权利要求3所述的方法,其特征在于,所述方法还包括:响应于所述缓存队列达到存储阈值,删除所述缓存队列中最早训练批次对应的训练数据。7.根据权利要求1至6任一项所述的方法,其特征在于,所述利用所述正样本对和所述
多组负样本对所述预训练语言模型进行参数更新,包括:基于所述正样本对中每一正样本对应的编码向量和所述多组负样本对中每一负样本对应的编码向量,确定对比损失;其中,所述正样本对应的编码向量为所述第一样本数据或所述第一增强数据;利...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:摩尔线程智能科技北京有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。