一种数据增强方法、装置、设备和存储介质制造方法及图纸

技术编号：43119138 阅读：12 留言：0更新日期：2024-10-26 09:56

本发明专利技术公开一种数据增强方法、装置、设备和存储介质；所述方法包括：获取第一样本数据和第二样本数据；所述第一样本数据集包括未标记的文本数据；所述第二样本数据包括已标记的文本数据；基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值；基于所述第二样本数据对所述网络模型进行有监督训练，并确定第二损失函数值；基于所述第一损失函数值和所述第二损失函数值，对所述网络模型的参数进行调整，得到训练后的网络模型；基于所述训练后的网络模型进行文本数据增强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种数据增强方法、装置、设备和存储介质。

技术介绍

1、针对人机对话在工业场景中的应用，需要大量样本对深度学习模型进行训练。而在实际生产环境中，一个业务在刚刚起步时，往往面临样本较少的问题。

2、相关技术中，往往通过专家标注的方式编写样本以及相似的句子，用来扩充原始数据。但这种方式人工成本较高，而且耗时较长，无法解决冷启动过程中数据量少的问题。

技术实现思路

1、本申请实施例提供一种数据增强方法、装置、设备和存储介质。

2、本申请实施例的技术方案是这样实现的：

3、一种数据增强方法，所述方法包括：

4、获取第一样本数据和第二样本数据；所述第一样本数据集包括未标记的文本数据；所述第二样本数据包括已标记的文本数据；

5、基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值；

6、基于所述第二样本数据对所述网络模型进行有监督训练，并确定第二损失函数值；

7、基于所述第一...

【技术保护点】

1.一种数据增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一样本数据进行加噪处理，得到加噪的文本数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一样本数据中的高频词进行替换，得到替换文本数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述第二样本数据包括第一部分数据和第二部分数据；所述第一部分数据在文本含义上与所述第二部分数据相同；所述基于所述第二...

【技术特征摘要】

1.一种数据增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一样本数据进行加噪处理，得到加噪的文本数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一样本数据中的高频词进行替换，得到替换文本数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述第二样本数据包括第一部分数据和第二部分数据；所述第一部分数据在文本含义上与所述第二部分数据相同；所述基...

【专利技术属性】
技术研发人员：殷丹平，孟繁宇，
申请(专利权)人：中国移动通信有限公司研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人