一种数据增强方法、装置、设备和存储介质制造方法及图纸

技术编号:43119138 阅读:12 留言:0更新日期:2024-10-26 09:56
本发明专利技术公开一种数据增强方法、装置、设备和存储介质;所述方法包括:获取第一样本数据和第二样本数据;所述第一样本数据集包括未标记的文本数据;所述第二样本数据包括已标记的文本数据;基于所述第一样本数据对网络模型进行无监督训练,并确定第一损失函数值;基于所述第二样本数据对所述网络模型进行有监督训练,并确定第二损失函数值;基于所述第一损失函数值和所述第二损失函数值,对所述网络模型的参数进行调整,得到训练后的网络模型;基于所述训练后的网络模型进行文本数据增强。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种数据增强方法、装置、设备和存储介质


技术介绍

1、针对人机对话在工业场景中的应用,需要大量样本对深度学习模型进行训练。而在实际生产环境中,一个业务在刚刚起步时,往往面临样本较少的问题。

2、相关技术中,往往通过专家标注的方式编写样本以及相似的句子,用来扩充原始数据。但这种方式人工成本较高,而且耗时较长,无法解决冷启动过程中数据量少的问题。


技术实现思路

1、本申请实施例提供一种数据增强方法、装置、设备和存储介质。

2、本申请实施例的技术方案是这样实现的:

3、一种数据增强方法,所述方法包括:

4、获取第一样本数据和第二样本数据;所述第一样本数据集包括未标记的文本数据;所述第二样本数据包括已标记的文本数据;

5、基于所述第一样本数据对网络模型进行无监督训练,并确定第一损失函数值;

6、基于所述第二样本数据对所述网络模型进行有监督训练,并确定第二损失函数值;

7、基于所述第一损失函数值和所述第二本文档来自技高网...

【技术保护点】

1.一种数据增强方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本数据对网络模型进行无监督训练,并确定第一损失函数值,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述第一样本数据进行加噪处理,得到加噪的文本数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述将所述第一样本数据中的高频词进行替换,得到替换文本数据,包括:

5.根据权利要求1所述的方法,其特征在于,所述第二样本数据包括第一部分数据和第二部分数据;所述第一部分数据在文本含义上与所述第二部分数据相同;所述基于所述第二...

【技术特征摘要】

1.一种数据增强方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本数据对网络模型进行无监督训练,并确定第一损失函数值,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述第一样本数据进行加噪处理,得到加噪的文本数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述将所述第一样本数据中的高频词进行替换,得到替换文本数据,包括:

5.根据权利要求1所述的方法,其特征在于,所述第二样本数据包括第一部分数据和第二部分数据;所述第一部分数据在文本含义上与所述第二部分数据相同;所述基...

【专利技术属性】
技术研发人员:殷丹平孟繁宇
申请(专利权)人:中国移动通信有限公司研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1