【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种数据增强方法、装置、设备和存储介质。
技术介绍
1、针对人机对话在工业场景中的应用,需要大量样本对深度学习模型进行训练。而在实际生产环境中,一个业务在刚刚起步时,往往面临样本较少的问题。
2、相关技术中,往往通过专家标注的方式编写样本以及相似的句子,用来扩充原始数据。但这种方式人工成本较高,而且耗时较长,无法解决冷启动过程中数据量少的问题。
技术实现思路
1、本申请实施例提供一种数据增强方法、装置、设备和存储介质。
2、本申请实施例的技术方案是这样实现的:
3、一种数据增强方法,所述方法包括:
4、获取第一样本数据和第二样本数据;所述第一样本数据集包括未标记的文本数据;所述第二样本数据包括已标记的文本数据;
5、基于所述第一样本数据对网络模型进行无监督训练,并确定第一损失函数值;
6、基于所述第二样本数据对所述网络模型进行有监督训练,并确定第二损失函数值;
7、基于所述第一
...【技术保护点】
1.一种数据增强方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本数据对网络模型进行无监督训练,并确定第一损失函数值,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述第一样本数据进行加噪处理,得到加噪的文本数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述第一样本数据中的高频词进行替换,得到替换文本数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述第二样本数据包括第一部分数据和第二部分数据;所述第一部分数据在文本含义上与所述第二部分数据相
...【技术特征摘要】
1.一种数据增强方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本数据对网络模型进行无监督训练,并确定第一损失函数值,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述第一样本数据进行加噪处理,得到加噪的文本数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述第一样本数据中的高频词进行替换,得到替换文本数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述第二样本数据包括第一部分数据和第二部分数据;所述第一部分数据在文本含义上与所述第二部分数据相同;所述基...
【专利技术属性】
技术研发人员:殷丹平,孟繁宇,
申请(专利权)人:中国移动通信有限公司研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。